BLOG
전 세계의 기업들은 Apache Hadoop나 Apache Spark와 같은 새로운 빅데이터 처리 및 분석 프레임워크의 중요성을 점차 깨닫고 있지만, 온프레미스 데이터 레이크 환경에서 이러한 기술을 작동시키는 것이 어렵다는 점 또한 느끼고 있습니다. 더 나아가 이들은 현재 유통 업체의 미래에 대해 우려하고 있을지도 모릅니다.
이러한 문제를 해결하기 위해 AWS는 아마존 EMR 마이그레이션 가이드(2019년 6월 처음 발행)를 소개했습니다. 이 가이드는 포괄적인 안내서로써 온프레미스 빅데이터 배포에서 EMR로 이전하는 계획을 수립하는 데 도움이 되는 타당한 기술적 조언을 제공합니다.
온프레미스 빅데이터 환경의 일반적인 문제로는 민첩성 부족, 과도한 비용 및 관리 문제가 있습니다. IT 기관들은 리소스를 프로비저닝하고, 불균일한 워크로드를 대규모 스케일로 처리하며, 급변하는 커뮤니티 중심의 오픈 소스 소프트웨어 혁신 속도를 따라잡기 위해 애쓰고 있습니다. 또한 많은 빅데이터 이니셔티브는 기본 하드웨어 및 소프트웨어 인프라의 평가, 선택, 구매, 수신, 구축, 통합, 프로비저닝, 패치, 유지보수, 업그레이드 및 지원에 대한 지연과 부담으로 인해 어려움을 겪고 있습니다.
동일하게 중요하지만 미묘한 문제로 Apache Hadoop과 Apache Spark의 데이터 센터 배포를 동일 서버 내 컴퓨팅 및 스토리지 리소스에 직접 연결하는 방식이 있습니다. 이때 또한 잠금 단계에서 확장해야 하는 유연하지 못한 모델을 생성하게 됩니다. 즉, 거의 모든 온프레미스 환경은 충분히 활용되지 못하는 디스크 용량, 처리 성능 또는 시스템 메모리에 많은 비용을 지불합니다. 각 워크로드마다 이러한 구성 요소에 대한 요구 사항이 다르기 때문입니다. 일반적인 워크로드는 다른 유형의 클러스터에서 서로 다른 빈도 및 시간으로 실행됩니다. 이러한 빅데이터 워크로드는 동일한 공유 저장소 또는 데이터 레이크에 계속 액세스하는 동시에 가장 효율적이면서도 언제든 실행될 수 있도록 자유로워야 합니다. 아래 그림 1을 참고하십시오.
현명한 기업은 빅데이터 이니셔티브로 어떻게 성공을 거둘까요? 빅데이터(및 머신러닝)를 클라우드로 마이그레이션하면 많은 이점을 얻을 수 있습니다. AWS와 같은 클라우드 인프라 서비스 제공 업체는 광범위한 온디맨드 및 탄력적인 컴퓨팅 리소스, 탄력적이고 저렴한 영구적인 스토리지 및 빅 데이터 애플리케이션을 개발하고 운영할 수 있는 최신식의 친숙한 환경을 공급하는 관리 서비스를 제공합니다. 그 결과로 데이터 엔지니어, 개발자, 데이터 과학자 및 IT 담당자는 데이터를 준비하고 보다 가치 있는 인사이트를 확보하는 작업에 집중할 수 있습니다.
Amazon EMR, AWS Glue 및 Amazon S3와 같은 서비스를 사용하면 컴퓨팅 및 스토리지를 독립적으로 분리 및 확장 할 수 있으며 잘 관리되고 복원력이 뛰어난 통합 환경을 제공받기 때문에 온프레미스 접근 방식에 야기되는 많은 문제를 즉각적으로 줄일 수 있습니다. 이러한 접근 방식은 보다 빠르고 민첩하며 사용하기 쉽고 비용 효율적인 빅데이터 및 데이터 레이크 이니셔티브로 이어집니다.
그러나 전통적인 온프레미스 형 Apache Hadoop 및 Apache Spark에 대한 일반적인 통념이 클라우드 기반 배포에서 항상 최상의 전략은 아닙니다. 클라우드에서 클러스터 노드를 실행 하는 간단한 리프트 및 시프트 방식은 개념 상 쉽지만 실제로는 최적이 아닙니다. 빅데이터를 클라우드 아키텍처로 마이그레이션 할 때 다양한 설계 의사 결정이 이점을 극대화하는 데 크게 도움이 됩니다.
해당 가이드는 다음 사항에 대해 유용한 정보를 제공합니다.
- 데이터 마이그레이션, 애플리케이션, 카탈로그
- 지속적 및 일시적인 리소스 사용
- 보안 정책, 액세스 제어 및 감사 로그 구성
- 비용 예측 및 최소화, 가치 극대화
- 고가용성 및 재해 복구를 위한 AWS Cloud를 활용
- 일반적인 관리 작업 자동화
전문적인 서비스를 대체하기 위한 용도는 아니지만, 해당 가이드는 사용자의 빅데이터 및 데이터 레이크 이니셔티브를 클라우드로 마이그레이션 할 때의 광범위한 범위의 일반적인 질문 및 시나리오를 다룹니다.
빅데이터 플랫폼을 클라우드로 마이그레이션하기위한 여정을 시작할 때 먼저 마이그레이션 방식을 결정해야 합니다. 한 가지 방법은 클라우드의 이점을 극대화하기 위해 플랫폼을 다시 설계하는 것입니다. 또 다른 접근법은 리프트 앤 시프트 접근 방식이라 불리는 방법인데요, 기존 아키텍처를 사용하고 클라우드로 직접 마이그레이션을 완료하는 방식입니다. 마지막 옵션은 하이브리드 방식으로, 리프트 앤 시프트 접근법을 다시 아키텍처와 조화시키는 방법입니다. 각 접근 방식에는 각각 장단점이 있기 때문에 이 사항을 결정하는 것은 간단한 문제는 아닙니다.
리프트 앤 시프트 접근방식은 일반적으로 모호성과 위험성이 적어 비교적 간단합니다. 또한 데이터 센터의 임대 기간이 만료되는 상황과 같이 타이트한 기한 일을 두고 작업을 진행하는 경우엔 이 방법이 더 좋습니다. 그러나 리프트 앤 시프트 방식의 단점은 항상 비용 효과적이지는 않으며 기존 아키텍처가 클라우드의 솔루션에 쉽게 매핑되지 않을 수 있다는 것입니다.
아키텍처를 재설계하게 되면 비용 및 효율성 최적화를 비롯한 많은 이점이 발생합니다. 아키텍처 재설계로 최신 및 양질의 소프트웨어로 이전하고, 기본 클라우드 도구와 더욱 잘 통합되며, 기본 클라우드 제품 및 서비스를 활용하여 운영 부담을 줄일 수 있습니다.
이 가이드는 Apache Spark 및 Hadoop의 에코 시스템 관점에서 각 마이그레이션 방식의 장단점을 제공합니다. 해당 문서를 읽고 싶으시다면 지금 Amazon EMR Migration Guide를 다운로드해 주십시오.
워크 플로우에 적합한 접근 방식을 결정하는 것에 대한 보다 보편적인 자료는 클라우드로 마이그레이션을 성공적으로 진행한 모범 사례들을 소개해 주는 ‘기업을 위한 클라우드 모범 사례 e-북’을 참고하십시오.
원문 URL: https://aws.amazon.com/ko/blogs/big-data/amazon-emr-migration-guide/
** 메가존 클라우드 TechBlog는 AWS BLOG 영문 게재글중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS 페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.