BLOG

AWS re:Invent 2022 세션 후기 #8 – AI/ML
작성일: 2022-11-30
[AIM324] Accelerate your ML journey with Amazon SageMaker low-code tools

연사 : Clare O’Brien Rajkumar, Vadim Omeltchenko, Ori Goshen

일시: 2022.11.28 10:00 ~ 11:00

장소: Level 2, Venetian E, Content Hub, Green Screen, Venetian

작성자 : 메가존클라우드 Data Business Center 김윤희 매니저

 

 

기계 학습(ML) 여정이 성공하려면 지속적인 실험과 신속한 프로토타이핑이 필요합니다. 매우 정확한 모델을 만들기 위해서는 데이터 과학자들이 먼저 피처 엔지니어링, 모델 선택 및 최적화 기술을 실험해야 합니다.

이러한 프로세스는 전통적으로 시간이 많이 걸리고 비용이 많이 드는데요, 본 세션에서는 Amazon SageMaker Data Wrangler, Amazon SageMaker Autopilot, Amazon SageMaker Jump Start 등 low-code툴을 사용하여 보다 신속하고 효율적으로 실험을 수행하는 방법을 소개 하였습니다.

 

 

ML 워크플로우는 다음과 같은 4가지 단계를 거치게 됩니다. 이 중 데이터 전 처리 작업은 전체 워크플로우의 60-70%를 차지할 정도로 많은 시간이 소요됩니다. 모델을 빌드하고 학습하고 하이퍼 파라미터 튜닝 등의 작업을 진행하는 작업에서도 많은 시간이 소요됩니다. 또한 실제 데이터셋이 학습된 모델에 적합하지 않을 경우 새로 모델을 구현하는 작업이 발생할 수 있습니다.

 

 

ML과 관련된 일반적인 문제들은 다음과 같습니다.

  1. 데이터셋을 준비하고 모델을 빌드하기 위한 심도 깊은 전문지식이 필요합니다.
  2. 실험은 시간이 오래 소요되며 자원 집약적입니다.
  3. 데이터 사이언티스트들이 과하게 몰려있으며 수요는 계속 증가하고 있습니다.

 

 

Low-code ML을 사용할 경우 더 빠른 ML 워크플로우, 사용자 정의가 가능한 개방형 솔루션, 신규 및 고급 ML 실무자 모두에게 적합하다는 이점이 있습니다.

Amazon SageMaker에서 다음의  low-code서비스들을 사용하여 ML워크플로우 작업을 수행할 수 있습니다.

  • Data Wrangler : PREPARE 단계 수행이 가능합니다.
  • Autopilot : ML 워크플로우 모든 단계 수행이 가능합니다.
  • JumpStart : BUILD 단계부터 모든 단계 수행이 가능합니다.

 

 

SageMaker Data Wrangler는 ML에 대한 데이터를 빠르고 시각적으로 적용하고 준비할 수 있습니다.

데이터에 연결 하고 불러오기, 데이터 품질에 대한 통찰력 얻기, 데이터 클렌징 & 강화, 분석과 시각화, 학습을 위한 준비가 된 데이터를 추출하고 모델을 배포하는 작업을 수행합니다.

 

 

Data Wrangler는 신속한 이해와 반복이 가능합니다.

  1. ML기반 분석을 통해 데이터 품질 문제를 진단합니다.
  2. SageMaker Clarify와 통합하여 편향을 감지하고 완화합니다.
  3. 데이터에 대해 학습된 모델의 품질을 빠르게 평가하기 위한 Quick Model 기능을 지원합니다.

 

 

포인트와 클릭, 코드 스니펫, 그리고 코드를 사용한 데이터 변환이 가능합니다.

  1. 포인트와 클릭을 통해 PySpark 기반 데이터 변환 구현이 가능합니다.
  2. PySpark에서 작성된 코드 스니펫 수정이 가능합니다.
  3. PySpark, Pandas, SQL 기반 사용자 지정 변환을 작성할 수 있습니다.

 

 

Data Wrangler는 UI나 노트북에서 데이터를 규모에 맞게 처리합니다.

  1. 서버리스 처리 작업을 예약합니다.
  2. 파이프라인에서 사용할 노트북 또는 Python 파일로 오케스트레이션 코드를 내보냅니다.
  3. SageMaker Feature Store와 Amazon S3는 데이터 처리 결과를 저장할 수 있습니다.

 

 

SageMaker Autopilot은  ML 모델을 더 빠르고 시각적으로 학습, 튜닝, 배포할 수 있습니다. 데이터를 업로드 후 타겟 변수를 선택합니다. 자동화된 모델 개발이 가능합니다. 모델 리더보드, 완벽한 가시성과 제어, 등록한 모델들을 평가하고 배포하는 것이 가능합니다.

 

 

통제 : 사용자 정의된 AutoML 여정

  • 자동 데이터 전처리 혹은 SageMaker Data Wrangler 사용자 지정된 변환이 가능합니다.
  • 자동 피처 선택 혹은 자동 추출 데이터 유형 변경이 가능합니다.

 

 

가시성 : SageMaker Autopilot 모델 이해

  • 모델 리더보드와 모델 자산에는 교육 및 검증 데이터, 기능 엔지니어링 코드, 배포 가능한 모델이 포함됩니다.
  • 모델 통찰력 보고서를 사용하여 성능 지표, 모델 통찰력 차트(예: 혼동 매트릭스, ROC 곡선)를 검토합니다.
  • 요약 통계 및 기능 중요도를 이해하기 위한 설명 가능성을 보고합니다.
  • 데이터 및 데이터 품질에 대한 통찰력을 위한 데이터 탐색 보고서를 생성합니다.

 

 

SageMaker 엔드포인트 배포

  • 모델을 배포하여 UI를 통해서 혹은 API 호출을 통해 실시간 예측을 수행을 위해 SageMaker 엔드포인트로 모델을 배포합니다.
  • 제공된 데이터셋에 대한 배치 예측을 얻을 수 있습니다.
  • Data Wrangler에서 시작된 실험은 추론을 위해 모델을 배치할 때 Data Wrangler 변환을 포함합니다.

 

 

SageMaker Jumpstart에는 사전학습된 모델들이 포함되어 있습니다. ML 학습을 시작하는 데 도움이 되는 광범위한 문제 유형에 대해 사전 훈련된 오픈 소스 모델을 제공합니다. 배포 전에 이러한 모델을 증분식으로 교육하고 조정할 수 있습니다. JumpStart는 일반적인 사용 사례를 위한 인프라를 설정하는 솔루션 템플릿과 SageMaker를 사용한 기계 학습을 위한 실행 가능한 예제 노트북도 제공합니다.

 

 

기초적인 모델은 이제 SageMaker Jumpstart에서 사용할 수 있습니다.

  • 수십억 개의 매개 변수가 있는 대규모 데이터 세트에 대해 사전 학습되었습니다.
  • 텍스트 요약, 질문 답변, 디지털 아트 창작 등 많은 활용 사례에 적용 가능합니다.
  • 처음부터 모델을 학습할 경우 비용이 많이 듭니다.

 

예전의 SageMaker low-code 툴은 새로 ML을 접하는 사람에게 ML지식이 없어도 ML이 가능하다는 점에서 매력적이었지만 기능도 제한적이고 다른 서비스들과의 연계도 쉽지 않다고 느꼈습니다.

하지만 이번 세션을 통해 다양한 기능들이 추가 및 보강되었고, SageMaker Clarify와의 통합을 통해 Explainable AI로서의 이점을 물려받아 현업 종사자 분들에게도 모델의 타당성을 이해시키는데 도움이 될 것으로 보여집니다.

 


 

👉 본 세션 내용 관련하여 추가 문의나 요청 사항이 있으시다면? 우측 링크로 이동하셔서 편하게 의견을 남겨주세요! https://www.megazone.com/contact/

 

👉 다른 세션 후기글이 궁금하시다면? 아래 링크를 통해 확인해 주세요!

🔷Keynote Report #1. Day1 Monday Night Live with Peter DeSantis 확인하기

🔷Keynote Report #2. Day2 Adam Selipsky Keynote 확인하기

🔷Keynote Report #3. Day3 Swami Sivasubramanian Keynote 확인하기

🔷Keynote Report #4. Day4 Dr.Werner Vogels Keynote 확인하기

 

✅1. 데이터 보호 세션 후기 확인하기

✅2. 마이그레이션 세션 후기 확인하기

✅3. 현대화 (Modernization)세션 후기 확인하기

✅4. SAP 세션 후기 확인하기

✅5. 쿠버네티스 세션 후기 확인하기

✅6. 마이그레이션2 세션 후기 확인하기

✅7. 분석 세션 후기 확인하기

✅8. AI/ML 세션 후기 확인하기

✅9. AI/ML 2 세션 후기 확인하기

✅10. 현대화 (Modernization) 2 세션 후기 확인하기

✅11. 현대화 (Modernization) 3 세션 후기 확인하기

✅12. Data Lakes 세션 후기 확인하기

✅13. 네트워킹 세션 후기 확인하기

✅14. 마이그레이션3 세션 후기 확인하기

✅15.비용 최적화 세션 후기 확인하기

✅16. 보안 세션 후기 확인하기

✅17. SAP 2 세션 후기 확인하기

✅18. 마이그레이션4 세션 후기 확인하기

✅19. DevOps 세션 후기 확인하기

✅20. 신규업데이트 세션 후기 확인하기

✅21. 스토리지 세션 후기 확인하기

✅22. Amazon 세션 후기 확인하기

✅23. 신규업데이트2 후기 확인하기

✅24. 거버넌스 후기 확인하기

✅25. 거버넌스2 후기 확인하기

✅26. DevOps 2 후기 확인하기

✅27. AI/ML 3 세션 후기 확인하기

✅28. 분석2 세션 후기 확인하기

✅29. 쿠버네티스2 세션 후기 확인하기

✅30. 분석 3 세션 후기 확인하기

✅31. 서버리스 컴퓨팅 세션 후기 확인하기

✅32. 신규 업데이트 3 세션 후기 확인하기

✅33. 신규 업데이트 4 세션 후기 확인하기

✅34. 보안 2 세션 후기 확인하기

✅35. 분석 4 세션 후기 확인하기

✅36. 모니터링 세션 후기 확인하기

✅37. AI/ML 4 세션 후기 확인하기

✅38. 운영 세션 후기 확인하기

✅39. 운영 2 세션 후기 확인하기

✅40. 데이터베이스 세션 후기 확인하기

✅41. 데이터베이스 2 세션 후기 확인하기

✅42. 보안 3 세션 후기 확인하기

✅43. SaaS 세션 후기 확인하기

✅44. 컴퓨팅 세션 후기 확인하기

✅45. 신규 업데이트 : AWS SnapStart 세션 후기 확인하기

✅46. 신규 업데이트 : 네트워크 최적화 인스턴스와 최신 Amazon EC2 네트워킹 세션 후기 확인하기

✅47. 아키텍처 세션 후기 확인하기

✅48. SAP 3 세션 후기 확인하기

✅49. 고객사례 세션 후기

✅50. SAP 4 세션 후기 확인하기

✅51. 데이터베이스, 마이그레이션 세션 후기 확인하기

✅52. 보안 4 세션 후기 확인하기

✅53. 보안 규정 세션 후기 확인하기

✅54. 데이터베이스 3 세션 후기 확인하기

✅55. 신규 업데이트 5 세션 후기 확인하기

✅56 .DevOps 3 세션 후기 확인하기

✅57. 분석 5 세션 후기 확인하기

✅58. AI/ML 5 세션 후기 확인하기

✅59. DevOps 4 세션 후기 확인하기

✅60. 신규업데이트 6 세션 후기 확인하기

✅61. 분석 6 세션 후기 확인하기

✅62. 데이터 보호 세션 후기 확인하기

✅63. AI/ML 6 세션 후기 확인하기

✅64. DevOps 5 세션 후기 확인하기

✅65. 신규업데이트 7 세션 후기 확인하기

✅66. 신규 업데이트 8 세션 후기 확인하기