Back
Key Takeaway
Chuyển đổi từ Databricks sang BigQuery cải thiện đồng thời hiệu suất phân tích và hiệu quả chi phí
Đã chuyển thành công các bảng, truy vấn và sổ ghi chép từ môi trường Databricks sang BigQuery để cải thiện hiệu suất truy vấn và xây dựng môi trường phân tích dữ liệu hiệu quả về chi phí và có thể mở rộng dựa trên kiến trúc không máy chủ.
Fandom platform (H Company)
Client :Fandom platform (H Company)
Industry :Telco / Media / Software
Service Area :Data & AI
Applied Solution :AIR
1. Overview (Nền tảng dự án)
Dự án này được thực hiện với mục tiêu tối ưu hóa toàn bộ quy trình liên quan đến đường ống dữ liệu
để tối đa hóa khả năng sử dụng dữ liệu và hiệu quả phân tích.
Trong môi trường hiện tại, có nhu cầu cải thiện liên tục về hiệu suất truy vấn phân tích, độ phức tạp hoạt động và chi phí,
và để giải quyết vấn đề này, cần phải chuyển sang nền tảng dữ liệu hiệu quả hơn có thể giảm chi phí quản lý dữ liệu trong dài hạn và cải thiện tốc độ phân tích.
Đặc biệt, cải thiện hiệu suất truy vấn, đảm bảo hiệu quả chi phí thông qua di chuyển,
giảm bớt gánh nặng quản lý hoạt động cùng với dễ dàng tích hợp với các dịch vụ GCP khác nhau là những yếu tố cân nhắc quan trọng.
2. Solution (Giải pháp)
Trong dự án này, chúng tôi đặt mục tiêu cốt lõi là chuyển dữ liệu được lưu trữ trên nền tảng Databricks sang GCP BigQuery,
và thực hiện công việc chuyển đổi ổn định môi trường phân tích hiện tại sang dựa trên BigQuery.
Để làm được điều này, chúng tôi đã tái cấu trúc các tài sản bảng, truy vấn và sổ ghi chép được sử dụng trong môi trường Databricks để phù hợp với môi trường BigQuery,
và nội dung thực hiện chính như sau.
Xác định và tạo cấu trúc bảng mới phù hợp với môi trường BigQuery
Sửa đổi và chuyển đổi mã và truy vấn SQL đang được sử dụng trong Databricks để phù hợp với cú pháp BigQuery
Thực hiện quy trình xác thực bằng cách chạy mã và truy vấn được chuyển đổi trong môi trường BigQuery thực tế
để kiểm tra xem có lỗi xảy ra hay không và xác minh tính chính xác của kết quả
Thông qua điều này, chúng tôi đã đảm bảo tính ổn định và độ tin cậy trong quá trình chuyển dữ liệu.
3. Result (Kết quả)
Các cải tiến chính
Bằng cách tận dụng kiến trúc không máy chủ và công cụ truy vấn được tối ưu hóa của BigQuery,
tốc độ xử lý của các truy vấn phân tích dữ liệu quy mô lớn đã được cải thiện,
và chi phí và gánh nặng liên quan đến vận hành và quản lý cơ sở hạ tầng cũng giảm đi.
Ngoài ra, dựa trên bảo mật mạnh mẽ và cơ sở hạ tầng ổn định của Google Cloud,
chúng tôi đã có thể xây dựng môi trường nền tảng dữ liệu ổn định và có thể mở rộng,
và đã đảm bảo cấu trúc có thể phản ứng linh hoạt ngay cả khi dữ liệu tăng lên trong tương lai.
Bằng cách thống nhất các chức năng cần thiết cho phân tích và xử lý dữ liệu xung quanh BigQuery,
chúng tôi đã tạo ra một môi trường có thể thực hiện ra quyết định dựa trên dữ liệu nhanh hơn và hiệu quả hơn.






