BLOG

[Architecture] 지속 가능성을 위한 최신 데이터 아키텍처 최적화: 1부 – 데이터 수집 및 데이터 레이크
작성일: 2022-11-11

AWS의 최신 데이터 아키텍처는 규모에 맞게 속도와 민첩성을 제공하는 분석 워크로드를 효율적으로 구축하기 위하여 데이터 레이크와 특수 구축된 데이터 서비스를 통합하는 데 중점을 두고 있습니다. 올바른 목적에 맞는 서비스를 사용하면 성능이 향상될 뿐만 아니라 리소스의 올바른 활용도 촉진할 수 있습니다. 아래의 이미지를 통하여 AWS의 최신 데이터 분석 레퍼런스 아키텍처를 확인할 수 있습니다.

 

이번 블로그 시리즈에서는 지속 가능성을 위해 최신 데이터 아키텍처를 최적화하는 방법을 알아보고, AWS의 Well-Architected 프레임워크의 지속 가능성 기준 가이드에 대해 이야기할 예정입니다. 클라우드의 지속 가능성은 워크로드의 모든 구성 요소에서 주로 에너지 절감 및 효율성에 중점을 두고 있으며, 이를 통해 프로비저닝된 리소스를 최대한 활용하고, 필요한 총 리소스를 최소화할 수 있습니다.

 

최신 데이터 아키텍처에는 1) 데이터 수집, 2) 데이터 레이크, 3) 통합 데이터 거버넌스, 4) 데이터 이동, 5) 특수 목적 분석의 5가지가 포함됩니다. 이번 포스팅에서는 최신 데이터 아키텍처의 데이터 수집 및 데이터 레이크에 대해 다뤄보겠습니다.

 

 

1. 데이터 수집

최신 데이터 아키텍처의 데이터 수집 프로세스는 배치 및 실시간 수집 모드의 두 가지로 크게 나눌 수 있습니다.

 

데이터 수집 프로세스를 개선한 모범 사례는 다음과 같습니다.

 

불필요한 데이터 수집 방지

비즈니스 요구 사항에서 거꾸로 작업하고 필요한 올바른 데이터 세트를 설정합니다. AWS Data Exchange 또는 Open Data on AWS에서 공개적으로 사용 가능한 기존 데이터 세트를 사용하여 소스 시스템에서 불필요한 데이터 수집을 피할 수 있는지 확인할 수 있습니다. 이렇게 정리되고 선별된 데이터 세트를 사용하면 데이터를 수집하는 데 필요한 컴퓨팅 및 스토리지 리소스의 중복을 방지하는 데 도움이 됩니다.

 

데이터 수집 전 데이터 크기 줄이기

데이터 수집 파이프라인을 설계할 때 데이터 압축, 필터링 및 집계와 같은 전략을 사용하여 수집된 데이터의 크기를 줄일 수 있습니다. 네트워크를 통해 더 작은 데이터 크기를 전송하고 데이터 레이크에 저장할 수 있습니다.

 

데이터베이스와 같이 데이터 원본에서 데이터를 추출하고 수집하려면 데이터 전체 추출 대신 Change Data Capture (변경 데이터 캡처, CDC) 혹은 필요한 날짜로 범위를 변경할 수 있습니다. AWS Database Migration Service(DMS) 변환 규칙은 스키마에서 선별적으로 필요한 표만 포함 및 제외할 수 있습니다.

 

이벤트 기반 서버리스 데이터 수집 고려

데이터 수집을 위해 이벤트 기반 서버리스 아키텍처를 채택하면 작업이 필요할 때만 리소스를 프로비저닝할 수 있습니다. 예를 들어, 데이터 수집 및 사전 처리를 위해 AWS Glue jobsAWS Step Functions을 사용하는 경우 AWS가 인프라 최적화 작업에 책임을 가집니다.

 

2. 데이터 레이크

Amazon Simple Storage Service(S3)는 고객이 데이터 레이크의 기반으로 다양한 사례의 모든 유형의 데이터를 저장하는 데 사용하는 객체 스토리지 서비스입니다. Amazon S3에서 데이터 레이크를 최적화하려면 다음의 모범 사례를 참고할 수 있습니다.

 

데이터 특성 이해

가장 적합한 스토리지 티어를 선택하기 위해 워크로드 데이터의 특성, 요구 사항 및 액세스 패턴을 이해해야 합니다. 주요 특성에 따라 데이터를 하기 이미지와 같이 분류하였습니다.

 

 

 

지속 가능한 스토리지 옵션 채택

워크로드 데이터 특성에 따라 적절한 스토리지 티어를 사용하여 아래 이미지와 같이 워크로드의 환경적 영향을 줄일 수 있습니다.

 

 

 

지속 가능성 목표에 부합하는 데이터 수명 주기 정책 수립

데이터 분류 정보를 기반으로 데이터를 보다 에너지 효율적인 스토리지로 이동하거나 안전하게 삭제할 수 있습니다. Amazon S3 수명 주기 정책을 사용하여 모든 데이터의 수명 주기를 자동으로 관리합니다.

 

Amazon S3 Storage Lens는 스토리지 사용량, 액티비티 트렌드에 대한 가시성을 제공하고 개선을 위한 권장 사항까지 제공합니다. 이 정보는 S3에 정보를 저장할 때 환경에 미치는 영향을 줄이는 데 사용할 수 있습니다.

 

효율적인 파일 형식 및 압축 알고리즘 선택

다양한 압축 옵션 및 인코딩 스킴을 제공하는 Parquet과 같은 효율적인 파일 형식을 사용합니다. 또한 Parquet을 사용하면 관련 없는 데이터를 건너뛸 수 있으므로 보다 효율적인 집계 쿼리가 가능합니다. 효율적인 저장 방법을 사용하고 데이터에 액세스하면 더 적은 리소스로 더 높은 성능을 얻을 수 있습니다.

 

데이터를 압축하여 스토리지 크기를 줄일 수 있습니다. 압축 및 압축 해제에 필요한 컴퓨팅 작업에 대해 디스크에 저장된 스토리지 압축 수준을 절충해야 합니다. 올바른 압축 알고리즘을 선택하는 것도 도움이 될 수 있습니다. 예를 들어, ZStandard(zstd)LZ4 또는 GZip에 비해 더 나은 압축률을 제공합니다.

 

데이터 파티셔닝 및 버킷팅 사용

파티셔닝 및 버킷팅은 데이터를 나누고 관련 데이터를 함께 유지합니다. 이를 통해 쿼리당 스캔되는 데이터의 양을 줄이는 데 도움이 될 수 있습니다. 즉, 워크로드를 처리하는 데 필요한 컴퓨팅 리소스가 줄어듭니다.

 

환경 지속 가능성을 위한 개선 사항 추적 및 평가

고객이 지속 가능성을 위한 워크로드 최적화의 성공을 평가하는 가장 좋은 방법은 프록시 측정 및 작업 단위 KPI를 사용하는 것입니다. 스토리지의 경우 트랜잭션 당 GB이고, 컴퓨팅의 경우 트랜잭션 당 vCPU 분입니다.

 

아래의 표에는 특정 개선 사항을 측정하기 위한 프록시 메트릭으로 사용할 특정 메트릭이 나열되어 있습니다.

 

구분 매트릭
데이터 수집
데이터 레이크

 

 

결론

이번 포스팅에서는 최신 데이터 아키텍처의 데이터 수집 및 데이터 레이크가 환경에 미치는 영향을 줄이는 데 도움이 되는 가이드라인과 모범 사례를 다루었습니다.

다음 게시물에서는 통합 거버넌스, 데이터 이동, 특수 구축된 분석 및 인사이트에 대한 지속 가능성을 위한 모범 사례에 대해 알아보겠습니다.

 

원문URL: https://aws.amazon.com/ko/blogs/architecture/optimize-your-modern-data-architecture-for-sustainability-part-1-data-ingestion-and-data-lake/

메가존클라우드 TechBlog는 AWS BLOG 영문 게재 글이나 관련 기사 중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아 정기적으로 게재하고 있습니다. 추가로 번역 및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS 페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.