BLOG
[re:Invent 2019] Data lake DevOps on AWS
작성일: 2019-12-05
* 세션명 : Data lake DevOps on AWS
* 일자 : 2019/12/04 13:45~14:45
* 장소 : Mirage, Antigua B
해당 세션은 Data Lakes 환경을 AWS 위에서 어떻게 구성해야 하는지에 대한 내용입니다. 세션 내의 내용은 깊이 있는 가르침보다는 무엇을 고려해야 하는지에 대해 question을 던지는 내용이 대부분 이였습니다. 운영에는 어떻게 배포할 것인지? 만약 데이터 스키마가 변경되어서 배포를 했는데, 롤백 하고자 할 때에는 어떻게 하는지? 에 대한 해답을 들을 수 있었습니다. Data Lakes on AWS에 대해서, Amazon S3는 우리가 말하는 데이터 레이크의 저장소인것 입니다. MSK, Snowball, Kinesis와 같은 streaming 데이터를 S3에 쌓습니다. Amazon Glue는 ETL 서비스로 데이터를 소스에서부터 변환 시켜 저장합니다. BI툴로는 Amazon Quicksight가 있습니다. 데이터레이크를 사용함에 있어서 데이터레이크는 워크로드에 따라 변경되고, 그것은 매 순간마다의 도전입니다. 데이터를 만들어내는 시스템, 유저 등을 계속 증가하기 때문에 이 모든 과정의 키는 automation이 있어야 합니다.
[참고사진1: AWS DevOps Portfolio]
[참고사진2: DevOps scenarios]
[참고사진3: CI/CD에서의 Best practices]
Amazon에서 말하는 DevOps의 pipeline은 아래와 같습니다.
- Source: AWS CondeCommit
- Build: AWS CodeBuild
- Test: AWS CodeBuild + third party
- Deploy: AWS CodeDeploy
- Monitor: AWS X-Ray, Amazon CloudWatch