Back
Key Takeaway
Chuyển đổi môi trường phân tích bằng cách tích hợp quy trình công việc dữ liệu phân tán thành Airflow DAG
Tái cấu trúc các truy vấn phân tích dựa trên BigQuery và quy trình công việc Databricks thành Airflow DAG, đồng thời cải thiện hiệu suất thực thi, khả năng tái sử dụng và khả năng bảo trì thông qua tái cấu trúc mã.
Fashion e-commerce (M Company)
Client :Fashion e-commerce (M Company)
Industry :Retail / Software
Service Area :Data & AI
Applied Solution :AIR
1. Overview (Nền tảng dự án)
Dự án này được thực hiện để chuyển đổi khối lượng công việc phân tích dữ liệu được vận hành dựa trên BigQuery sang nền tảng Databricks,
và tích hợp quy trình công việc xử lý dữ liệu phân tán thành hệ thống vận hành Airflow duy nhất.
Trước đây, nó được vận hành với cấu trúc hỗn hợp của BigQuery Scheduled Query và Airflow,
và trong môi trường Databricks, quy trình công việc được cấu hình xung quanh thực thi tuần tự hoặc sổ tay đơn,
có những hạn chế cấu trúc về khả năng mở rộng và khía cạnh bảo trì.
Đặc biệt, nó bao gồm logic phức tạp trong đó ngày xử lý dữ liệu thay đổi tùy theo giá trị phân biệt,
và nhu cầu cải thiện khả năng đọc và tái sử dụng của quy trình công việc đã được nêu ra.
2. Solution (Giải pháp)
Dự án này đã thiết lập các giải pháp xung quanh hai nhiệm vụ xác thực chính.
Nhiệm vụ xác thực 1
Chuyển đổi SQL dựa trên BigQuery hiện có thành Databricks SQL phù hợp với môi trường Databricks,
và tái cấu trúc một số logic lặp lại thành Databricks UDF để cải thiện hiệu suất thực thi và tiện lợi quản lý.
Nhiệm vụ xác thực 2
Sau khi phân tích quy trình công việc được thực thi trong môi trường Databricks,
tái thiết kế nó thành cấu trúc Airflow DAG dạng To-Be để chuẩn hóa thực thi và vận hành quy trình công việc.
3. Result (Kết quả)
Dựa trên logic xử lý hiện có, mỗi bước được tái cấu trúc thành đơn vị Airflow Task,
và logic cần tái cấu trúc được mô-đun hóa riêng biệt để cải thiện cấu trúc.
Thông qua công việc mô-đun hóa ở cấp độ hàm, khả năng tái sử dụng mã và khả năng bảo trì được tăng cường,
và bằng cách tiến hành phân tích logic trước khi phản ánh Airflow, rủi ro trong quá trình chuyển đổi quy trình công việc đã được giảm thiểu.
Ngoài ra, đối với quy trình công việc hiện có bao gồm nhiều truy vấn SQL và logic hàm riêng lẻ,
phân tích tập trung vào cấu trúc và luồng thực thi đã được thực hiện, có thể được sắp xếp lại ở dạng thuận tiện cho mở rộng và vận hành trong tương lai.
Hiệu ứng dự kiến
Bằng cách chuyển đổi quy trình công việc Databricks thành Airflow DAG và tiến hành tái cấu trúc mã,
thời gian thực thi của toàn bộ quy trình công việc được rút ngắn, và nền tảng để loại bỏ các phép tính không cần thiết đã được thiết lập.
Ngoài ra, thông qua tối ưu hóa cấu trúc truy vấn, dự kiến hiệu suất xử lý dữ liệu và tính ổn định vận hành sẽ được cải thiện cùng nhau.






