BLOG

AWS re:Invent 2022 세션 후기 #38 – 운영
작성일: 2022-12-02
[COP210] FINRA: Democratize data and solve issues faster with Grafana

연사 : Sumalatha Bachu, Senior Director, FINRA

Logan Kudlacik, Sr. Data Analyst, FINRA

Helen Lin, principal product manager, aws

일시 : 2022.11.30 14:30~15:30

장소 : Level 3, Chairmans 355, MGM Grand

작성자 : 메가존클라우드 Enterprise Managed Svc Group 홍은철 매니저

 

 

 

평소 관심이 있었던 grafana와 prometheus 를 주제로 세션이 열린다고 하여 참여하게 되었습니다.

 

 

가시성이 운영 및 비즈니스 결과에 미치는 영향에 대해 설명을 들었습니다.

오래된 문제의 재발을 방지하거나 운영 가시성을 확보하여 다운타임을 최소화하는 것이 중요하며, 신속하게 대응하고 복구할 수 있는 복원력이 뛰어난 어플리케이션을 보유하는 것은 고객이 플랫폼에서 만족할 수 있도록 하는 데에 매우 중요합니다.

따라서 가시성은 일상적인 운영에 영향을 미치는 것 뿐만 아니라 회사 및 비즈니스 성과를 달성하는 데에도 직접적인 영향을 미치고 있습니다.

 

 

가시성과 마찬가지로 Data Democracy도 새로운 개념이 아니며, 가시성과 Data Democracy를 통해 올바른 데이터를 수집하는 것이 첫 번째 입니다. (애플리케이션 직원 간에 데이터를 수집하거나, 부서별 메트릭을 수집하거나, 비즈니스 툴을 통해 데이터를 여러가지 형식으로 저장하거나, 사일로 데이터 항목에 저장하는 등)

 

보안 및 거버넌스 데이터도 중요한 부분입니다.

  • 데이터를 안전하게 수집, 저장 및 시각화 할 수 있어야함
  • 네트워크 액세스 정책을 정의하고, 데이터가 유휴 상태 및 전 송 상태에서 암호화되었는지 확인하고, 올바른 사용자가 액세스할 수 있도록 해야 함
  • 확장성은 두말할 나위도 없음 (컨테이너를 사용한다면 수백만 개의 메트릭을 수집해야함)
  • 데이터는 특히 비즈니스의 확장에 따라 계속 증가하기 때문에 비즈니스와 함께 확장하고 성장할 수 있는 서비스를 기반으로 구축하는 것이 향후 플랫폼을 입증하는데 중요함

 

 

대시보드의 가치를 설명해주는 장면입니다. 많은 데이터 덤프는 실제로는 유용하지 않으며, 원하는 모든 데이터를 수집할 수 있지만 좋은 시각화 도구가 필요합니다.

 

 

  • AWS에서 위의 두 가지 사례를 어떻게 결합하였는지에 대한 설명입니다.

 

운영 및 모두 democracy화 할 수 있는 단일 데이터 시각화 도구의 구축이 필요합니다.

  • Prometheus는 널리 사용되는 오픈 소스 데이터 시각화 도구로 비즈니스, 운영 지표, 로직 등 다양한 데이터 유형 생성 가능
  • 시각화, 관리 및 알람 silence 가능

 

데이터 여부에 관계 없이 데이터를 계속 저장할 수 있어야 합니다.

  • 즉 데이터 레이크에서 작업을 수행하여 알람을 제공할 수 있어야 함
  • Lake Formation 또는 외부 VM을 기반으로 비즈니스 데이터 레이크를 구축한 다음 모든 데이터 쿼리를 중앙 집중식으로 기록할 수 있음

 

 

Finra는 매일 최대 6000억건의 트랜잭션을 처리하며, 데이터를 수집하면 하루에 30만개 이상의 컴퓨팅 Edge와 Region을 가동하고 있으며, 스토리지 공간은 500PB 이상을 사용 중 입니다.

 

 

데이터를 한 곳에서 모두 사용할 수 있도록 하고, 사용자가 이러한 모든 요소를 고려하여 안전하게 데이터 중심 의사 결정을 내릴 수 있도록 제공하는 것이 Data Democracy라고 생각한다고 합니다.

 

팬데믹과 원격 근무가 새로운 표준이 됨에 따라 대부분의 벤더 기술 팀이 협업, 생산성 및 활동 방식에 사용되는 애플리케이션에서 다양한 핵심 제품 사용자 정의를 지원하고 있습니다.

 

다만, 이와 관련된 당면 과제 중 하나는 이러한 remote workspace 툴에 대한 사용량 메트릭을

확보하는 것이 있습니다. (특별히 적게 사용되거나 많이 사용되는 장치)

툴의 사용 관점이 부족하기 때문에 데이터 중심의 의사 결정을 내릴 수 없었으며, 이런 툴에 대한 적절한 요구사항이나 개선이 이루어져야 합니다.

 

협업은 성공의 열쇠이지만 협업을 이루기까지는 오랜 시간이 걸립니다.

  • 기술팀과 비즈니스팀의 협업, 팀 간의 협력 등

 

모두 고객을 만족시키고 싶어 하지만 고객 만족도 측정 기준을 측정하는 방법이 애매합니다.

  • 어떤 유형의 고객 환경 메트릭을 측정해서 매 년 개선할 수 있는지?

 

리더십을 위한 하나의 경영진 대시보드를 통해 고객이 보유한 모든 데이터를 살펴보고, 데이터 중심 의사 결정을 내리고, 이러한 툴에 대한 재무 조사 전략을 고려할 수 있어야 합니다.

 

 

서로 다른 데이터 소스를 모두 한 곳에 저장하고 데이터를 분석할 수 있어야 하기 때문에 Grafana를 선택하였습니다. Grafana는 훌륭한 대시보드 툴이며, Amazon Managed Grafana는 인프라를 자동으로 확장하고 패치를 적용하는 방식으로 백엔드 문제를 해결했다고 합니다.

 

 

활용된 사례의 기술 솔루션을 아래와 같이 설명 하였습니다

  • 서버리스를 사용해 완벽한 솔루션을 구축 했으며, Lambda, Glue ETL, Ahtena 등을 사용
  • 다이어그램의 왼쪽 부분은 데이터 수집을 위한 아키텍쳐이며, 이 프로세스는 API를 호출하고 모든 원격 작업 공간의 데이터를 검색하는 데이터 추출로부터 시작됨.
  • 데이터 변환 프로세스를 거친 후 데이터는 S3 버킷에 등록되며 사용자가 데이터를 사용할 수 있게됨.
  • 현재 구성을 기반으로 Managed Grafana 워크스페이스를 생성한 다음 대시보드를 구축
  • SAML 통합되어 사용자, 역할 및 권한에 대한 관리 쉽게 가능

 

 

대시보드를 만들기 위해 많은 도구를 사용했으며, 사용량 메트릭, 고객 경험 메트릭, 고객 경험 메트릭, 고객 만족도 메트릭, 어플리케이션 메트릭과 고위 경영진이 와서 리더십 결정을 내릴 수 있도록 경영진 리더십 대시보드를 만들었다고 합니다.

 

 

대시보드에 들어가기 전에 다양한 메트릭을 설명해주었습니다.

  • 툴을 사용하는 사용자, 사용 방법 및 사용 빈도를 파악할 수 있는 사용량 측정 기준 메트릭
  • 애플리케이션이 얼마나 잘 수행되고 있는지 이해하는데 도움이 되는 운영 메트릭

 

 

화상 회의를 위해 만든 대시보드에 대한 설명입니다. 사용자는 대시보드의 시간 범위를 쉽게 조정할 수 있으며, 패널도 그에 따라 업데이트 됩니다. 이를 통해,  그들이 하고자 하는 분석을 할 수 있게 됩니다.

 

 

범례 기능에 대한 소개 입니다. 이 기능을 사용하면 지정된 대시보드의 각 변수에 대한 요약 통계를 쉽게 구성할 수 있습니다. 이를 통해 사용자는 주어진 변수에 대한 값의 분포를 빠르고 쉽게 볼 수 있습니다.

 

 

토글 기능에 대한 설명입니다. 대시보드의 모든 사용자가 수행하려는 분석과 관련된 모든 변수를 찾는 것은 아니기 때문에 이 기능을 사용하면 사용자가 의도한 작업에 의미가 없거나 도움이 되지 않는 변수를 토글할 수 있게 됩니다.

 

 

Inspect 기능에 대한 소개입니다. 사용자가 대시보드 패널의 Back 데이터를 가져오는데 사용되는 쿼리 및 JSON 모델에 쉽게 액세스 가능합니다.

 

 

EKS 워크로드에 대해 가시성을 확보한 방법에 대한 최신 사례 설명입니다.

  • 컨테이너형 애플리케이션을 규모에 맞게 설치가 용이한 AWS에서 관리되는 EKS 사용

 

EKS를 채택할 당시의 어려움으로는

  • EKS 워크로드 메트릭의 가시성은 전체 클러스터 뿐만 아니라 task, node 등 심층 분석 및 검토하고 task 실행, 중지, 데이터 왜곡 등에 대한 확인이 어려웠음
  • 알람 설정도 쉽지 않았고, 알람이 없을 때에는 사전 예방이 아닌 문제 발생 시 대응만을 했음
  • 워크로드 관리와 성능 튜닝에 대한 어려움

예를들어, 메모리 설정이 올바른지, 데이터 상태, 데이터 대기열의 병목 현상, 과제가 있는 성능 조건을 감지하는 데 필요한 지표 부재

등이 있었고, 이로 인해 비용 증가 발생 하였습니다. EMR과 비슷한 솔루션을 구축하기 위한 옵션들을 검토했으나, 비용 및 유지보수 측면에서 Amazon을 선택하게 되었다고 합니다.

 

 

CPU, Memory 및 task 수준의 메트릭과 멋진 대시보드를 원했기 때문에 Amazon Managed Service for Prometheus, Amazon Managed Grafana 채택하게 되었습니다.

 

 

Worker 노드는 리소스의 증감에 따라 설정 해 놓은 값에 따라 자동 scaling되며, Prometheus Workspace는 Grafana를 관리하기 위해 Prometheus 서버에서만 데이터를 가져오고 푸시하는 기능이 있는 격리된 전용 작업 공간입니다. (작업 공간을 만들고 그 위에 대시보드를 구축함)

 

 

EKS 워크로드를 파악할 수 있도록 구축하고 템플릿화 한 대시보드입니다.

OS 수준 뿐 아니라 클러스터 수준 메트릭에도 초점을 맞추었으며, 네트워크 트래픽 등 다양한 메트릭이 있습니다.

 

대시보드의 목적은 애플리케이션 팀이 클러스터의 구성 뿐만 아니라 전체 클러스터 상태 성능을 파악할 수 있도록 하는 것으로, 애플리케이션 팀은 문제가 발생할 수 있는 위치를 파악할 수 있었습니다.

 

이전에는 워크로드의 문제를 찾기 위해 로그와 로그와 로그와.. 로그를 조사하는 매우 수동적이고 지루한 프로세스였다고 합니다.

 

 

모든 대시보드를 통해 문제를 보다 신속하게 파악하고 해결할 수 있었으며, 전반적으로 EKS 워크로드에 대한 운영 상태를 개선할 수 있었습니다.

 

 

관심 있으신 분들은 문서나 워크샵을 참고하셔도 좋을 것 같습니다.

 

기존의 잘못된 운영을 바꾸려는 연사의 태도와 열정이 운영 업무를 하고 있는 입장에서 자극이 많이 되는 세션이었습니다.
대시보드와 알람의 중요성을 다시 한 번 깨닫게 되는 계기가 되었고, 최근 기존 사용하고 있는 모니터링 툴 대신 prometheus 도입을 고려하고 있는 고객들이 있는데 빨리 서울 리전에 Amazon Managed Prometheus가 출시되어서 테스트를 해봤으면 좋겠습니다.

 

 

 

 

 

👉본 세션 내용 관련하여 추가 문의나 요청 사항이 있으시다면? 우측 링크로 이동하셔서 편하게 의견을 남겨주세요! https://www.megazone.com/contact/

 

👉 다른 세션 후기글이 궁금하시다면? 아래 링크를 통해 확인해 주세요!

🔷Keynote Report #1. Day1 Monday Night Live with Peter DeSantis 확인하기

🔷Keynote Report #2. Day2 Adam Selipsky Keynote 확인하기

🔷Keynote Report #3. Day3 Swami Sivasubramanian Keynote 확인하기

🔷Keynote Report #4. Day4 Dr.Werner Vogels Keynote 확인하기

 

✅1. 데이터 보호 세션 후기 확인하기

✅2. 마이그레이션 세션 후기 확인하기

✅3. 현대화 (Modernization)세션 후기 확인하기

✅4. SAP 세션 후기 확인하기

✅5. 쿠버네티스 세션 후기 확인하기

✅6. 마이그레이션2 세션 후기 확인하기

✅7. 분석 세션 후기 확인하기

✅8. AI/ML 세션 후기 확인하기

✅9. AI/ML 2 세션 후기 확인하기

✅10. 현대화 (Modernization) 2 세션 후기 확인하기

✅11. 현대화 (Modernization) 3 세션 후기 확인하기

✅12. Data Lakes 세션 후기 확인하기

✅13. 네트워킹 세션 후기 확인하기

✅14. 마이그레이션3 세션 후기 확인하기

✅15.비용 최적화 세션 후기 확인하기

✅16. 보안 세션 후기 확인하기

✅17. SAP 2 세션 후기 확인하기

✅18. 마이그레이션4 세션 후기 확인하기

✅19. DevOps 세션 후기 확인하기

✅20. 신규업데이트 세션 후기 확인하기

✅21. 스토리지 세션 후기 확인하기

✅22. Amazon 세션 후기 확인하기

✅23. 신규업데이트2 후기 확인하기

✅24. 거버넌스 후기 확인하기

✅25. 거버넌스2 후기 확인하기

✅26. DevOps 2 후기 확인하기

✅27. AI/ML 3 세션 후기 확인하기

✅28. 분석2 세션 후기 확인하기

✅29. 쿠버네티스2 세션 후기 확인하기

✅30. 분석 3 세션 후기 확인하기

✅31. 서버리스 컴퓨팅 세션 후기 확인하기

✅32. 신규 업데이트 3 세션 후기 확인하기

✅33. 신규 업데이트 4 세션 후기 확인하기

✅34. 보안 2 세션 후기 확인하기

✅35. 분석 4 세션 후기 확인하기

✅36. 모니터링 세션 후기 확인하기

✅37. AI/ML 4 세션 후기 확인하기

✅38. 운영 세션 후기 확인하기

✅39. 운영 2 세션 후기 확인하기

✅40. 데이터베이스 세션 후기 확인하기

✅41. 데이터베이스 2 세션 후기 확인하기

✅42. 보안 3 세션 후기 확인하기

✅43. SaaS 세션 후기 확인하기

✅44. 컴퓨팅 세션 후기 확인하기

✅45. 신규 업데이트 : AWS SnapStart 세션 후기 확인하기

✅46. 신규 업데이트 : 네트워크 최적화 인스턴스와 최신 Amazon EC2 네트워킹 세션 후기 확인하기

✅47. 아키텍처 세션 후기 확인하기

✅48. SAP 3 세션 후기 확인하기

✅49. 고객사례 세션 후기

✅50. SAP 4 세션 후기 확인하기

✅51. 데이터베이스, 마이그레이션 세션 후기 확인하기

✅52. 보안 4 세션 후기 확인하기

✅53. 보안 규정 세션 후기 확인하기

✅54. 데이터베이스 3 세션 후기 확인하기

✅55. 신규 업데이트 5 세션 후기 확인하기

✅56 .DevOps 3 세션 후기 확인하기

✅57. 분석 5 세션 후기 확인하기

✅58. AI/ML 5 세션 후기 확인하기

✅59. DevOps 4 세션 후기 확인하기

✅60. 신규업데이트 6 세션 후기 확인하기

✅61. 분석 6 세션 후기 확인하기

✅62. 데이터 보호 세션 후기 확인하기

✅63. AI/ML 6 세션 후기 확인하기

✅64. DevOps 5 세션 후기 확인하기

✅65. 신규업데이트 7 세션 후기 확인하기

✅66. 신규 업데이트 8 세션 후기 확인하기