Back
Key Takeaway
Chuẩn hóa cấu trúc dữ liệu kế thừa để nâng cao độ tin cậy phân tích - Cải thiện chất lượng dữ liệu
Thiết kế lại dữ liệu người dùng và bảng điều khiển bị phân mảnh thành cấu trúc Base–Middle–Aggregated, và thông qua bảng Fact và hiệu chỉnh dữ liệu người dùng, đã cải thiện đáng kể phạm vi sử dụng dữ liệu và độ tin cậy phân tích.
AI WebRTC (H Company)
Client :AI WebRTC (H Company)
Industry :Telco / Media / Software / Data & AI
Service Area :Data & AI
Applied Solution :AIR
1. Overview (Nền tảng dự án)
Dự án này được thực hiện để cải thiện sự suy giảm chất lượng dữ liệu và độ phức tạp quản lý do cấu trúc bảng kế thừa được sử dụng trong môi trường phân tích dựa trên bảng điều khiển.
Trước đây, dữ liệu Fact khác nhau và dữ liệu liên quan đến người dùng được phân mảnh theo từng bảng điều khiển, dẫn đến những hạn chế trong phạm vi sử dụng dữ liệu và tính nhất quán.
Do đó, chúng tôi đã tổ chức lại các bảng kế thừa thành cấu trúc Base → Middle → Aggregated từ góc độ DWH,
và đặt mục tiêu đảm bảo cả chất lượng dữ liệu và khả năng tái sử dụng thông qua quản lý tích hợp dữ liệu liên quan đến user, cấu hình bảng thay thế user_ft/cohort và xây dựng đường ống giám sát.
2. Solution (Giải pháp)
Chúng tôi đã thực hiện công việc cải thiện tập trung vào chuẩn hóa cấu trúc dữ liệu và mở rộng phạm vi sử dụng.
Cải thiện cấu trúc bảng Fact
Sắp xếp các bảng Fact được tách riêng theo bảng điều khiển và thiết kế lại thành cấu trúc bảng Middle·Aggregated chungMở rộng phạm vi sử dụng dữ liệu
Mở rộng phạm vi dữ liệu có thể phân tích thông qua điều chỉnh tiêu chuẩn mẫu số và thêm cộtTích hợp dữ liệu Azar Web
Tích hợp bảng Legacy hiện có thành cấu trúc bảng Base·MiddleCông việc hiệu chỉnh dữ liệu User
Hiệu chỉnh dữ liệu bị thiếu·không khớp trong các bảng users, azar_user_dm và sửa lại ý nghĩa cột
3. Result (Kết quả)
Thông qua cải thiện cấu trúc dữ liệu, tính nhất quán và khả năng sử dụng của môi trường phân tích đã được cải thiện đáng kể.
Tích hợp cấu trúc Fact
Tích hợp các bảng Fact được tách riêng theo từng bảng điều khiển thành bảng Middle và Aggregated chungCải thiện azar_du_match_ft
Mở rộng phạm vi dữ liệu để có thể sử dụng trên tất cả các bảng điều khiển, thay vì chỉ dựa trên một bảng điều khiển cụ thểMở rộng azar_dt_user_ft
Tải thêm dữ liệu Session, order, match, inventory, login info và tăng cường khả năng sử dụng phân tích thông qua các cột mớiTích hợp nhật ký sự kiện Web
Thiết kế để có thể truy vấn nhật ký sự kiện được sử dụng riêng lẻ trên nhiều bảng điều khiển web từ một bảng Middle duy nhấtTriển khai lại logic Legacy và tích hợp
Triển khai lại logic azar_cohort_user_fact_daily hiện có dựa trên bảng Base,
và tích hợp các chỉ số được tính toán vào các bảng Middle hiện có (azar_dt_user_ft, azar_dt_user_history_ft, azar_user_dm)Cải thiện tính nhất quán dữ liệu User
Hiệu chỉnh dữ liệu deletion_timestamp bị thiếu trong bảng users
Bổ sung logic app_type không thể phân biệt dữ liệu cheero
Tách cột reg_country_cd để phù hợp với ý nghĩa thực tế và thêm cột mã quốc gia đăng ký mới
Hiệu quả dự kiến
Thông qua cải thiện này, chúng tôi có thể mong đợi những hiệu quả sau.
Chuẩn hóa cấu trúc dữ liệu và quy tắc đặt tên
Tăng cường hệ thống quản lý dòng dữ liệu
Quản lý và tái sử dụng kết quả phân tích một cách có hệ thống
Cải thiện quy trình quản lý thay đổi và hiệu quả hợp tác
Tạo nền tảng để đưa vào quy trình làm sạch dữ liệu bất thường trước
Thông qua đó, chúng tôi đã thiết lập nền tảng để mở rộng hiệu quả và kết quả của công việc cải thiện chất lượng dữ liệu trong tương lai một cách ổn định hơn.






