BLOG

[2021 AWS SUMMIT Session Review] 데이터 분석 플랫폼을 위한 데이터 전 처리부터 시각화까지 한번에 보기
작성일: 2021-08-31

블로그 콘텐츠의 내용 및 의견은 AWS SUMMIT 2021의 세션을 리뷰한 내용입니다. 

 

 

1. AWS 기반의 데이터 분석 파이프라인

데이터 분석 환경은 다음과 같은 문제들에 직면해 있습니다. 

 

  • 기하 급수적 데이터 증가(TB~EB)
  • 새로운 데이터 소스( RDB, NoSQL, FILE, LOG, SAAS)
  • 점점 다양해지는 데이터 형태 (CSV, Parquet, ORC, JSON, Structured)
  • 데이터를 다루고자 하는 사람들의 증가 (ㅇata Engineer, Data Scientist, Business Analyst, Sales, Marketing)
  • 다양한 분석 도구 사용 (Quicksight, Jupyter, R, Python, QlikQ, Tableau)

 

데이터 분석 파이프라인을 통해 이러한 문제들을 해결할 수 있으며, 그 핵심 요소는 ‘수집→ 저장→ 처리→ 분석→ 시각화’입니다. 

 

 

2. 데이터 전 처리를 위한 AWS Glue Databrew 

데이터 분석을 위한 데이터 준비의 어려운 점 

데이터 분석을 위한 데이터를 준비할 때 어려운 점은 시간 소모적인 프로세스, 정규화를 위한 복잡한 코딩, 대규모 데이터 처리를 위한 리소스 등입니다.

 

   AWS Glue DataBrew의 주요 기능

  • Profile Data: 데이터 패턴과 비정상 데이터 탐지를 위한 데이터 프로파일링으로 데이터 품질을 평가합니다.
  • Clean and Normalize: 데이터 정제, 정규화를 위해 250개 이상의 변환 기능을 제공합니다.
  • Map DATA LINEAGE: 데이터 소스와 변환 단계를 추적하고 시각화합니다.
  • Automate: 변환 규칙을 저장하여 신규로 유입되는 데이터에 자동 적용됩니다.

 

 

3. 데이터 프로세싱을 위한 AWS Glue Studio

GLUE STUDIO 의 주요 기능

  • Simple Visual Interface: ETL 개발자가 쉽게 사용할 수 있는 BOX-AND-ARROW STYLE의 Visual Interface를 제공합니다.
  • Easy Job Management: 모든 ETL Job을 하나의 화면에서 확인 가능합니다.
  • Custom Connector: JDBC, ATHENA, SPARK와 호환되는 모든 Custom Connector 생성이 가능합니다.
  • NO Coding: 다양한 변환 규칙을 제공하여 코딩을 최소화할 수 있습니다.

 

 

4. 데이터 프로세싱을 위한 Amazon EMR Studio

기존 사용자 관리형 노트북의 문제점

기존의 사용자 관리형 노트북의 문제점은 콘솔을 통해서만 접근이 가능하며, 소스코드의 공유가 어렵고, 디버깅이 어렵다는 점 등입니다. 

 

 EMR Studio의 주요 기능

  • Workspace: 동일한 Workspace는 공통 클러스터와 속성을 공유합니다.
  • Fully Managed Jupyter Notebook: 완전 관리형 Jupyter Notebook을 생성 및 관리합니다.
  • Code Sharing: Git Repository를 연결하여 동료간 코드를 공유합니다.
  • Quickly Diagnose Job: EMR Studio에서 Spark History Server를 통해 모니터링할 수 있습니다. 

 

 

5. 데이터 웨어하우스를 위한 Amazon Redshift

조직 내/외부 간 분석 데이터 공유에 대한 문제점

조직 내/외부 간 분석 데이터를 공유할 때의 문제점은 수작업으로 데이터를 업로드하고 복사할 때 많은 시간이 소요된다는 점, 사용자가 늘어남에 따라 시간이 지연되어 비용이 증가한다는 점, 복잡한 보안과 거버넌스 등이 있습니다.

 

Amazon Redshift: Data Sharing 

Data Sharing은 실시간 및 일관된 데이터를 공유하는 간단하고 직접적인 방법으로, 성능과 비용을 모두 충족할 수 있도록 개별 클러스터를 구성하였습니다. 또한, 안전하고 통제된 방법으로 여러 그룹간 데이터를 공유할 수 있습니다. 

 

Amazon Redshift ML 

Amazon Redshift ML은 ML 모델을 자동으로 생성하고 학습합니다. 표준 SQL을 사용하여 Amazon Redshift에서 ML 모델을 적용하며, 사기 탐지 및 위험 분석과 같은 예측을 수행합니다. 

     

 

 

6. 데이터 시각화를 위한 QuickSight

  • Embedding Dashboard: 기업의 포털에 쉽게 대시보드를 임베딩할 수 있습니다.
  • Faster Insight With Q: 자연어로 질문하고 비즈니스 사용자에게 빠르게 응답할 수 있습니다.
  • ML Capability: 데이터를 분석하여 자연어로 리포트를 설명할 수 있습니다.

 

메가존클라우드에서는 빅데이터 분석 플랫폼 구축에 필요한 모든 인프라 및 AI/ML 서비스의 제공과 아키텍처 구성이 가능합니다.

발표자료URL: https://www.slideshare.net/awskorea/view-all-at-once-from-data-preprocessing-to-visualization-for-a-data-analytics-platform

*해당 블로그는 메가존클라우드 임직원이 AWS SUMMIT 2021 “데이터 분석 플랫폼을 위한 데이터 전 처리부터 시각화까지 한번에 보기” 세션을 보고 작성한 글로 발표 자료 및 자세한 내용은 위의 URL에서 확인하실 수 있습니다. 세션을 보고 작성한 글로 발표 자료 및 자세한 내용은 위의 URL에서 확인하실 수 있습니다.