SEMINAR

[Snowflake Data Cloud Summit 2024] WHAT’S NEW WITH ORCHESTRATION IN SNOWFLAKE
작성일: 2024-06-18

장소:

Tuesday, Jun 4 4:00 PM – 4:45 PM PDT (Wednesday, Jun 58:00 AM – 8:45 AM KST)

Room 151 (Moscone South, Upper Mezzanine)

스피커:

Manuela Wei (Senior Product Manager, Snowflake)

Joe Tobey (VP, Merkury Data Engineering, Merkle)

 

 

 

 

Snowflake Data Cloud Summit 2024에서 발표된 오케스트레이션 관련 새로운 기능에 대한 세션을 들었습니다.

스노우플레이크 Tasks는 사용자가 스노우플레이크에서 태스크를 쉽게 오케스트레이션하고 스케줄링할 수 있도록 해주는 스노우플레이크의 네이티브 오케스트레이션 기능입니다. 또한, Serverless Task는 스노우플레이크에서 관리하는 컴퓨트를 통해 이 과정을 더욱 단순화합니다.

 

Task 기능은 현재 많은 고객들이 사용하고 있으며, 이번 세션을 통해 Task 기능의 최신 업데이트와 실용적인 사용 사례를 알아보았습니다.

 

 

 

 

오케스트레이션에서 새로운 기능은 다음과 같습니다.

 

  • Task Graph: 여러 Task, 종속성, 성공/실패 알림을 사용하여 복잡한 비즈니스 프로세스 모델링
  • Task Graph Observability by Snowflake Trail: Task 실행에 대한 자세한 시각화를 제공하며 Graph 표현, 실행 세부정보, 문제 해결 기능 등
  • Triggered Tasks: 데이터 가용성을 기반으로 파이프라인 실행을 자동화하고, 스케줄링 필요성을 없애고, 낮은 대기 시간 제공
  • Serverless Task Flex: 배치 ETL 파이프라인에 유연한 윈도우를 제공하여 비용 효율적인 옵션 제공
  • 기타 새로운 기능(예정 포함): Lower Latency Tasks, Tasks Backfill, UI 업데이트

 

전반적으로 새로운 기능은 데이터 오케스트레이션에 스노우플레이크 Task를 사용하여 비용 절감, 관리 간소화를 할 수 있음을 강조하였습니다.

 

 

 

Task Graph

 

 

UI를 통해 Task 설정을 변경하거나 재시도 횟수를 확인할 수 있습니다. 데모를 통해 오류 발생시 자동으로 재시도를 하는 방법을 확인하였습니다.

 

 

 

Task Graph Observability by Snowflake Trail

Task Graph Observability는Task Graph의 실행에 대한 상세한 시각화를 제공해 사용자가 제어할 수 있는 기능으로 스노우플레이크 Trail에서 제공합니다.

 

 

Task 실행에 대한 더 깊은 통찰력을 제공하여 최근 작업 실행 시간의 변동과 추세를 쉽게 파악할 수 있으며 이를 통해 빠르게 모니터링하고, 디버깅하며, 필요한 조치를 신속히 취할 수 있습니다.

Task 의 세부 정보, 그래프, 실행 이력을 확인할 수 있으며, 실행하거나 중단/재개 등의 관리가 가능합니다.

 

 

 

Triggered Tasks

Triggered Tasks는 Snowflake 내부에서 데이터 변경 이벤트가 발생할 때 즉시 Task를 실행하는 기능입니다.

 

 

트리거된 Task를 통해 파이프라인 실행을 자동화하고 자원 활용을 최적화할 수 있습니다.

Stream에 데이터가 있을 때 Task를 트리거하기 때문에 따로 스케쥴 설정이 필요 없습니다.

 

 

 

Serverless Task Flex

 

 

Serverless Task Flex는 유연한 스케줄링 윈도우에서 배치 ETL 파이프라인을 비용 최적화하여 실행 하는 기능입니다.

컴퓨팅 자원을 관리할 필요 없이 사용자 정의 SQL, Python, Java, Scala 함수 및 저장 프로시저를 가장 비용 효율적으로 실행할 수 있습니다.

Task가 완료되어야 하는 시간을 설정하고 그 시간 안에 Task가 유연하게 실행될 수 있도록 하여 최대 42%의 비용 최적화를 제공합니다.

 

 

 

기타 새로운 기능

 

 

  • Lower latency Tasks: 데이터 파이프라인을 10초 간격으로 스케줄링하여 저지연 Task 실행
  • Tasks Backfill: Task Graph를 과거 데이터 범위에서 실행 및 관리하는 작업을 간소화
  • UI 업데이트:
    • 라이브 상태 보기
    • Task Graph 재시도 시도
    • Task 편집

 

 

 

Snowflake의 오케스트레이션 기능은 Task 설정과 관리를 직관적으로 할 수 있는 UI를 제공하여, 복잡한 비즈니스 프로세스를 모델링하고 비용을 절감하며 저지연 처리를 실현할 수 있는 새로운 기능을 도입했습니다.

오케스트레이션 기능들이 업데이트 되면서 외부의 Airflow와 같은 도구를 사용할 필요가 없어지면 데이터파이프라인 운영이 더 편리해질 것으로 생각됩니다.
Task 사용시 Graph 시각화에 대한 기능이 아쉬운 부분이 있었는데, 새로운 기능들이 빨리 업데이트되기를 기대합니다!

작성 | 이소민 매니저 CTC Cloud Solutions Architect 팀