SEMINAR

[Snowflake Data Cloud Summit 2024] CLASSIFY, TAG, AND PROTECT – A holistic approach to governing sensitive data in Snowflake
작성일: 2024-06-18

장소:

Tuesday, Jun 4 11:30 AM – 12:15 PM PDT (Wednesday, Jun 5 3:30 AM – 4:15 AM KST)

Room 157 (Moscone South, Upper Mezzanine

 

스피커:

Ankit Gupta (Senior Product Manager, Snowflake)

Raghav Ram (Tech Lead, Snowflake)

 

 

 

 

스노우플레이크의 데이터 거버넌스 솔루션인 Horizon 관련 세션을 들었습니다. 데이터를 다루는 사람들에게는 데이터 거버넌스의 중요성을 이해하는 것이 필수적인데요, 이번 세션을 통해 스노우플레이크에서 데이터 거버넌스를 어떻게 관리할 수 있는지 알아보았습니다.

 

스노우플레이크 Horizon은 민감한 데이터를 보호하고 관리하는데 필수적인 다양한 기능을 제공하여 데이터 파이프라인 운영의 효율성을 크게 향상시킬 수 있는 서비스입니다. 다음은 이번 세션에서 다룬 주요 내용입니다.

 

 

 

민감한 데이터 보호의 중요성

 

 

민감한 데이터를 보호하는 것은 데이터 거버넌스의 핵심 요소 중 하나입니다. 이와 관련하여 스노우플레이크는 다음과 같은 세 가지 측면을 강조했습니다.

 

  • 위험 관리: 적절한 보호 조치를 적용하여 무단 접근을 방지합니다.
  • 준수 및 보안: 민감한 데이터의 우발적인 다운로드 및 복사를 방지하여 규정을 준수할 수 있도록 합니다.
  • 프라이버시 보호: 개인 식별 정보(PII)와 건강 정보(PHI)와 같은 민감 데이터를 명확하게 식별하여 우발적인 공유와 사용을 방지합니다.

 

 

 

민감 데이터의 거버넌스

 

 

스노우플레이크 Horizon은 민감한 데이터의 거버넌스를 강화하는 다양한 기능을 제공하는데요, 이러한 기능들은 다음과 같습니다.

  1. Know: 데이터를 분류하고 태그를 달아 모든 민감 정보를 찾습니다.
  2. Monitor: 새로운 민감 데이터를 모니터링하고 감지하기 위해 자동 분류를 사용합니다.
  3. Protect: 무단 접근을 방지하기 위해 자동으로 정책을 적용합니다.
  4. Audit: 규정 준수를 충족하고, 열 수준의 접근 가시성을 통해 사용을 이해할 수 있습니다.

 

 

 

민감 데이터 분류

 

 

민감 데이터를 효과적으로 관리하기 위해서는 이를 정확하게 분류하는 것이 중요합니다. 스노우플레이크는 다양한 기능을 통해 민감 데이터를 분류할 수 있습니다.

  • 개인 데이터를 감지하고 분류하는 기능
  • 고유한 형식의 데이터를 분류하는 기능 (직원 ID, 제품 ID, 의료 코드 등)
  • 시스템 태그를 사용하여 자동으로 데이터를 분류하는 기능
  • 태그를 기반으로 접근 제어를 시행하는 기능
  • 규정 준수를 만족하기 위해 태그를 사용하여 개인 데이터를 감사하는 기능

 

 

 

Custom Classifiers

 

 

사용자 정의 분류기는 내부 또는 도메인 특정 민감 데이터를 감지할 수 있는 기능입니다. 정규 표현식 기반의 패턴 매칭을 사용하여 데이터와 열 이름을 분류합니다.

 

 

 

SQL 및 UI를 통한 분류

 

 

SQL API와 스노우플레이크 UI를 통해 데이터를 분류할 수 있는 기능을 사용할 수 있습니다.

SQL API를 사용하면 테이블을 분류하고 자동으로 태그를 달 수 있으며, UI를 통해 쉽게 시작하여 분류 결과를 검토하고 태그를 적용할 수 있습니다.

 

 

 

객체 태깅 및 태그 기반 마스킹

 

 

스노우플레이크는 민감한 데이터와 PII 데이터를 추적하고, 태그를 사용하여 수십만 개의 객체를 쉽게 추적 및 접근 제어할 수 있는 기능을 제공합니다.

또한, 태그를 할당하여 민감한 데이터를 보호하고, 데이터베이스/스키마 또는 객체에 직접 태그를 할당하여 민감 데이터를 쉽게 보호할 수 있습니다.

 

 

 

Auto-Classification

 

 

Auto-Classification 기능은 민감 데이터를 자동으로 분류하고 보호하는 기능입니다. 이 기능은 설정 가능한 간격으로 또는 새로운 테이블이 생성될 때마다 특정 스키마나 데이터베이스 내에서 민감 데이터를 자동으로 분류하고 태그를 붙입니다. 

 

 

자동 태그 전파

 

 

스노우플레이크는 태그가 자동으로 하위 객체에 적용되도록 구성할 수 있는 기능을 제공합니다. 이를 통해 데이터를 보호하고 체계적으로 관리할 수 있으며, 추가적인 수작업 없이 데이터의 일관성을 유지할 수 있습니다.

 

데이터 보호와 체계적인 관리를 한 번에 해결할 수 있는 유용한 기능이라고 생각합니다.

 

 

 

Access History

 

 

스노우플레이크는 규정 준수를 만족시키고 열 수준의 가시성을 통해 데이터 사용을 이해할 수 있는 액세스 히스토리 기능을 제공합니다. 이를 통해 각 쿼리에서 접근한 테이블, 뷰, 열의 감사 로그를 제공하며, 저장 비용과 성능을 최적화하기 위해 사용되지 않는 테이블과 열을 식별할 수 있습니다.

 

 

 

데이터 거버넌스 UI

 

 

데이터 거버넌스 UI는 태그된 자산의 요약과 작업을 수행할 수 있는 워크플로우를 한눈에 볼 수 있게 해줍니다. 이를 통해 태그된 자산과 보호 상태를 요약하여 인사이트를 얻고, 직관적인 UI를 따라 민감한 객체에 태그와 데이터 정책을 적용하며, 규정 준수를 보고할 수 있습니다.

 

 

이번 세션에서는 스노우플레이크 Horizon의 플랫폼이 제공하는 효율적이고 효과적인 데이터 거버넌스 기능들에 대해 알아보았습니다. Snowflake가 새로운 기능을 통해 데이터 거버넌스 역량을 강화하고, 구현을 간소화하며 관리 비용을 줄인 점이 인상적이었습니다. 이전에는 커스텀 솔루션과 많은 노력이 필요했던 부분들이 이제는 훨씬 간편해져 데이터 보안과 관리의 효율성이 크게 향상될 것이라는 기대감을 갖게 되었습니다.

작성 | 이소민 매니저 CTC Cloud Solutions Architect 팀