bg

Fashion e-commerce (M Company)

Back

Key Takeaway

Chuyển đổi môi trường phân tích bằng cách tích hợp quy trình công việc dữ liệu phân tán thành Airflow DAG

Tái cấu trúc các truy vấn phân tích dựa trên BigQuery và quy trình công việc Databricks thành Airflow DAG, đồng thời cải thiện hiệu suất thực thi, khả năng tái sử dụng và khả năng bảo trì thông qua tái cấu trúc mã.

Fashion e-commerce (M Company)

Client :Fashion e-commerce (M Company)

Industry :Retail / Software

Service Area :Data & AI

Applied Solution :AIR

1. Overview (Nền tảng dự án)

Dự án này được thực hiện để chuyển đổi khối lượng công việc phân tích dữ liệu được vận hành dựa trên BigQuery sang nền tảng Databricks,
tích hợp quy trình công việc xử lý dữ liệu phân tán thành hệ thống vận hành Airflow duy nhất.

Trước đây, nó được vận hành với cấu trúc hỗn hợp của BigQuery Scheduled Query và Airflow,
và trong môi trường Databricks, quy trình công việc được cấu hình xung quanh thực thi tuần tự hoặc sổ tay đơn,
có những hạn chế cấu trúc về khả năng mở rộng và khía cạnh bảo trì.

Đặc biệt, nó bao gồm logic phức tạp trong đó ngày xử lý dữ liệu thay đổi tùy theo giá trị phân biệt,
và nhu cầu cải thiện khả năng đọc và tái sử dụng của quy trình công việc đã được nêu ra.


2. Solution (Giải pháp)

Dự án này đã thiết lập các giải pháp xung quanh hai nhiệm vụ xác thực chính.

Nhiệm vụ xác thực 1
Chuyển đổi SQL dựa trên BigQuery hiện có thành Databricks SQL phù hợp với môi trường Databricks,
tái cấu trúc một số logic lặp lại thành Databricks UDF để cải thiện hiệu suất thực thi và tiện lợi quản lý.

Nhiệm vụ xác thực 2
Sau khi phân tích quy trình công việc được thực thi trong môi trường Databricks,
tái thiết kế nó thành cấu trúc Airflow DAG dạng To-Be để chuẩn hóa thực thi và vận hành quy trình công việc.


3. Result (Kết quả)

Dựa trên logic xử lý hiện có, mỗi bước được tái cấu trúc thành đơn vị Airflow Task,
và logic cần tái cấu trúc được mô-đun hóa riêng biệt để cải thiện cấu trúc.

Thông qua công việc mô-đun hóa ở cấp độ hàm, khả năng tái sử dụng mã và khả năng bảo trì được tăng cường,
và bằng cách tiến hành phân tích logic trước khi phản ánh Airflow, rủi ro trong quá trình chuyển đổi quy trình công việc đã được giảm thiểu.

Ngoài ra, đối với quy trình công việc hiện có bao gồm nhiều truy vấn SQL và logic hàm riêng lẻ,
phân tích tập trung vào cấu trúc và luồng thực thi đã được thực hiện, có thể được sắp xếp lại ở dạng thuận tiện cho mở rộng và vận hành trong tương lai.

Hiệu ứng dự kiến

Bằng cách chuyển đổi quy trình công việc Databricks thành Airflow DAG và tiến hành tái cấu trúc mã,
thời gian thực thi của toàn bộ quy trình công việc được rút ngắn, và nền tảng để loại bỏ các phép tính không cần thiết đã được thiết lập.
Ngoài ra, thông qua tối ưu hóa cấu trúc truy vấn, dự kiến hiệu suất xử lý dữ liệu và tính ổn định vận hành sẽ được cải thiện cùng nhau.

Related

Case Stories

Yanolja

Yanolja

Hợp nhất các SaaS phân tán thành một, quản lý chi phí và rủi ro cùng lúc

Read More
HANATOUR

HANATOUR

Dịch vụ du lịch với tăng trưởng người dùng 432% thông qua tư vấn AI siêu cá nhân hóa

Read More
hy(Hàn Quốc Yakult)

hy(Hàn Quốc Yakult)

Cải tiến độ chính xác tìm kiếm sản phẩm HY thông qua xây dựng dựa trên AI sinh tạo và tìm kiếm hybrid, đồng thời có được chức năng đề xuất ngôn ngữ tự nhiên của khách hàng

Read More
Hansol Paper

Hansol Paper

Đạt được độ chính xác của câu trả lời 95% thông qua quá trình điều chỉnh lời nhắc phù hợp với tính chất dữ liệu và xây dựng hệ thống sử dụng kiến thức doanh nghiệp

Read More
MUSMA

MUSMA

Mở rộng dịch vụ IoT công nghiệp thông qua chuyển đổi SaaS dựa trên AWS

Read More
Able C&C

Able C&C

Hoàn thành sự kiện Nego King mà không có thời gian ngừng hoạt động ngay cả trong lưu lượng truy cập kỷ lục

Read More

Ready to unlock your data's potential?

Let's build intelligent data solutions that drive real business value through advanced analytics and AI.