BLOG
[ARMIQ-Cloud ETL #3] ETL vs. CDC 장단점 비교
제품 설명회 시 고객사로부터 가장 많이 듣는 질문 중 하나인 CDC(Change Data Capture) 기능에 관한 내용을 ETL과 비교하여 소개합니다.
ETL(Extract: 추출, Transform: 전환, Load: 적재)이란?
우선 ETL의 정의를 알아보겠습니다. 위키백과에서는 ETL을 아래와 같이 정의하고 있습니다.
ETL은 소스 DB에서 ‘필요한 부분’을 추출하여 변경 후 대상 시스템에 적재하는 용도로 오랫동안 사용해 온 방식입니다. 클라우드에 데이터 레이크를 구축하여 전사 데이터를 활용하려는 기업이 늘어나면서 ETL을 활용한 데이터 파이프 라인 구축 프로젝트가 확산되고 있습니다. 많은 제품이 있지만 AWS에서는 Glue라는 서비스를 제공하고 있습니다.
CDC(Change Data Capture)란?
위키백과에서는 또한 CDC를 아래와 같이 정의하고 있습니다.
CDC는 원천 데이터에서 실시간으로 ‘DB 전체’의 변경된 데이터를 저장하는 용도로 개발된 기술이다. ETL이 배치 실행으로 데이터 업데이트가 자동으로 되지 않는 것을 대체하기 위해 적용되고 있으며 SQL log 기반으로 수행되는 만큼 DB 벤더사에 따라 기능 및 성능의 차이가 있습니다. 최근에는 클라우드 전환 시 DB 마이그레이션 프로젝트에 많이 사용되고 있습니다.
ETL VS CDC
두 기술 모두 소스 DB로부터 목적 DB로 전송하는 역할은 동일합니다.
CDC는 운영 장비의 Data 활용 관련 부하를 최소한으로 줄이기 위해 데이터 활용을 위한 별도 스토리지를 운영 장비의 Change(SQL) Log 기반으로 재구성하는 방식이며 ETL은 운영 장비의 환경에서 필요한 부분 데이터를 직접 추출하는 방식이 가장 큰 차이라고 할 수 있습니다.
최근 강화된 성능의 클라우드로 인프라가 전환되면서 ETL의 약점으로 여겨졌던 서버의 부하가 완화되어 배치 및 실시간 요청 전송을 병행하여 데이터 변경 주기를 실시간에 가깝게 적용하는 것이 가능해지고 있습니다.
반면에 데이터가 폭발적으로 생성되는 시스템에서 모든 DB 내 데이터를 전송하기 위한 CDC 전용 장비, 스토리지, CDC 인프라 관리 인원 등 추가 리소스를 사용하는 것은 운영 비용 증가의 원인 중 하나로 인식되고 있습니다. 또한, 데이터 활용 목적에 따라 복제된 데이터 스토리지에서 ETL 작업이 추가적으로 발생할 수 있어 ETL 추가 구축 비용이 발생할 수 있습니다.
마지막으로 ETL과 CDC의 기능을 비교하였습니다. 데이터 통합 프로젝트를 고려하시는 고객분들은 아래 내용을 참고하여 비즈니스 상황에 따라 현명하게 적용하시기 바랍니다.
솔루션 방문 설명 신청 방법
아미크의 AETL은 쉽고 빠르게 SAP Data와 AWS를 연계할 수 있는 제품입니다.
문의 사항은 아미크 홈페이지(www.armiq.com)에 방문하셔서 메시지를 남겨주세요.