[re:Invent 2018] Build and Govern Your Data Lakes with AWS Glue

BLOG

작성일: 2018-11-28

* 세션명 : ANT309 – Build and Govern Your Data Lakes with AWS Glue
* 일자 : 2018/11/27 09:15~10:15
* 장소 : Mirage, Mirage Events Center B

대용량 데이터 고객이 AWS에 더 많은 데이터를 저장하면 검색하기 쉽지 않고 분석에 유용한 중요한 데이터가 있는 경우가 많습니다.
AWS Glue를 사용하여 Amazon S3에서 엔터프라이즈 급 데이터레이크를 쉽게 만들고 관리 할 수 있는 방법을 공유합니다.
Glue는 다양한 소스의 데이터를 데이터 레이크에 수집하여 데이터를 정리하고 변환 후 AWS Glue 데이터 카탈로그에 자동으로 등록하여 데이터를 즉시 분석에 사용할 수 있습니다.

데이터 카탈로그에서 적절한 보안 정책을 설정하고 Amazon Athena에서 ad-hoc 분석을 실행하고 Amazon Redshift Spectrum을 사용하여 데이터웨어 하우스 및 데이터 호수에서 쿼리를 실행하는 등 다양한 사용 사례에 대해 데이터를 사용할 수있는 방법을 배우고 커다란 Amazon EMR에서 데이터 분석, Amazon SageMaker 및 AWS Glue로 기계 학습 모델 구축이 가능합니다.
또한 Robinhood는 데이터 사일로 세계에서 AWS Glue가 포함 된 Amazon S3에 강력한 페타 바이트 규모의 데이터 호수를 구축하는 방법을 공유합니다. Robinhood는 주식, ETF, 옵션 및 cryptocurrencies에 대한 수수료없는 수수료 거래를 제공하는 사용하기 쉬운 투자 플랫폼을 통해 5 백만 명의 사용자에게 서비스를 제공하는 가장 빠르게 성장하는 중개 회사 중 하나입니다. Robinhood가 모든 데이터 액세스, 분석 및 기계 학습 사용 사례를 통합하는 비용 효과적이고 효율적인 데이터 호수를 실현하기 위해 만든 설계 패러다임 및 절충에 대해 알아보는 자리였습니다.

s3 데이터 레이크 기반의 glue 사용으로 데이터 수집, 적재, 전처리를 Crawlers를 통해 진행함을 배울수 있었고 로빈후드에 대해 알수 있는 좋은 계기였으나, 알기 쉽게 사례나 세부 내용이 적어 이해하는데 어려움을 느꼈습니다.