BLOG

AWS re:Invent 2022 세션 후기 #9 – AI/ML 2
작성일: 2022-11-30
[AER205] Choosing the right accelerator for training and inference

연사 : Samir Araujo, Max Liu

일시: 2022.11.28 16:45 ~ 17:45

장소: Level 3, Chairmans 368, MGM Grand

작성자 : 메가존클라우드 Data Business Center 김윤희 매니저

 

 

Amazon EC2는 머신 러닝 애플리케이션을 위한 가장 광범위하고 깊은 인스턴스 포트폴리오를 제공합니다. P4 및 G5와 같은 GPU 기반 고성능 인스턴스에서 최고의 가격 성능을 위해 AWS 실리콘으로 특별히 제작된 Trn1 및 Inf1 인스턴스에 이르기까지 각 머신 러닝 워크로드에 적합한 인스턴스가 있습니다. 이 세션에서는 이러한 인스턴스, 벤치마크 및 각 인스턴스에 대한 이상적인 사용 사례 지침에 대해 알아보았습니다.

 

 

도전과제들은 아래와 같습니다.

  • 데이터 사이언티스트들은 더 적은 시간과 비용으로 다양한 유형/크기의 ML 모델을 구축/배포해야 합니다.
  • ML 모델 구축/배포를 위한 가장 효율적인 비용대비 성능을 제공하는 최고의 하드웨어 설정을 선택해야 합니다.
  • ML 모델을 구축/배포하기 위한 최고의 비용 성능 하드웨어를 구성해야 합니다.

 

 

AI/ML을 위한 가장 광범위하고 깊은 컴퓨팅 인프라는 전통적인 ML에서의 학습/추론을 위한 M, C, R 패밀리 인스턴스, 딥러닝 추론을 위한 Inf, G 패밀리 인스턴스, 그리고 모델 학습을 위한 P, Trn 패밀리 인스턴스들이 있습니다.

 

 

ML 학습에 CPU 인스턴스를 사용하는 경우는 다음과 같습니다.

  • 전통적인 ML 모델을 학습하는 경우(표 형식의 데이터)
  • 표 형식의 데이터를 전처리 할 경우
  • 딥러닝 모델들의 프로토타입 제작
  • 더 적은 데이터셋으로 미세조정을 진행할 경우

 

 

Gravition3: ML

BERT 모델을 사용하여 SQuAD v1.1 질의응답 작업을 수행하는 NLP 워크로드를 예로 성능비교를 진행했습니다. Gravition3은 bfloat16과 SIMD 대역폭의 2배 가까이 지원하며, C7g은 C6g보다 거의 2.5배 높은 성능을 제공합니다.

 

 

SageMaker에서는 다음과 같은 이점을 얻게 됩니다.

 

1) ML 혁신을 민주화할 수 있습니다.

– 비즈니스 분석가를 포함한 더 많은 인력 그룹을 지원합니다.

2) ML 수명주기를 가속화할 수 있습니다.

– 학습 시간을 몇 시간에서 몇 분으로 단축할 수 있습니다.

3) 규모에 맞는 데이터를 준비할 수 있습니다.

– 정형 및 비정형 데이터에 액세스하고 레이블을 지정하고 처리합니다.

4) ML 프로세스 간소화가 가능합니다.

– MLOps 프로세스 자동화 및 표준화가 가능합니다.

 

 

대규모 학습 데이터셋 옵션들은 다음과 같습니다.

 

  1. 중간 규모 및 대규모 데이터셋은 S3를 통해 불러올 수 있습니다.

– File mode : 전체 데이터셋을 로컬 저장소로 복사하는 것

– Fast file mode : S3로부터 데이터셋을 스트리밍해서 불러오는 것

  1. 확장 가능한 공유 파일 시스템(EFS) 사용이 가능합니다.

– 다운로드나 스트리밍이 없음

– 다른 서비스들과 파일 시스템을 공유

  1. 고성능 파일 시스템(FSx)

– 최적화된 고성능 컴퓨팅

– S3와 기본적으로 통합 되어 있음

 

 

고객사례에 대해 살펴보자면, Finch는 자체 딥 러닝 번역 모델을 GPU 기반 인스턴스에서 AWS Incentia를 기반으로 하는 Amazon EC2 Inf1 인스턴스로 마이그레이션하여 Amazon ECS를 사용하여 사용자 지정 컨테이너를 실행했습니다. 고객은 GPU 사용에 비해 비용을 80% 이상 절감하는 동시에 고객의 처리량과 응답 시간을 유지했습니다.

 

 

두 번째 고객 사례인Amazon Robotics는 Amazon SageMaker를 사용하여 ML 모델 개발 프로세스를 현대화하고 추론 워크로드를 AWS Incentia 기반 Inf1 인스턴스로 마이그레이션 했습니다. 고객은 자체 관리 솔루션에 비해 추론 비용을 최대 70% 절감하고 모델 성능을 40% 향상했으며 하루에 2억 개 이상의 추론으로 확장할 수 있습니다.

 

 

세 번째 고객사례인 Paige는 Amazon Web Services로 전환하여 ML 워크로드를 실행하고 증가하는 데이터 공간을 관리하는 하이브리드 방식을 취했습니다. 분산 교육을 위해 고객은 Amazon EC2 P4d 인스턴스, Elastic Fabric Adapter 및 FSx for Lustre를 채택했습니다. Paige는 ML 작업을 병렬로 실행하여 내부 워크플로우 속도를 72% 향상시킬 수 있었으며, 클라우드에서 컴퓨팅 리소스를 확장함으로써 컴퓨팅 비용을 최적화하고 팀이 혁신할 수 있도록 했습니다.

 

기존 ML 프로세스를 가속화하기 위해서 데이터 관점이나 알고리즘 위주로 해결방안을 고민했었는데, 실제로 프로젝트에서는 분석 로직을 수정할 수 없고 들어오는 데이터셋도 일정한 형식인 경우가 있습니다.

본 세션을 듣고 난 후, 이런 경우 시야를 소프트웨어에만 두지 않고 하드웨어 쪽으로 돌려서 속도를 높이는 방법에 대해 배울 수 있어 유익했습니다.

 


 

👉 본 세션 내용 관련하여 추가 문의나 요청 사항이 있으시다면? 우측 링크로 이동하셔서 편하게 의견을 남겨주세요! https://www.megazone.com/contact/

 

👉 다른 세션 후기글이 궁금하시다면? 아래 링크를 통해 확인해 주세요!

🔷Keynote Report #1. Day1 Monday Night Live with Peter DeSantis 확인하기

🔷Keynote Report #2. Day2 Adam Selipsky Keynote 확인하기

🔷Keynote Report #3. Day3 Swami Sivasubramanian Keynote 확인하기

🔷Keynote Report #4. Day4 Dr.Werner Vogels Keynote 확인하기

 

✅1. 데이터 보호 세션 후기 확인하기

✅2. 마이그레이션 세션 후기 확인하기

✅3. 현대화 (Modernization)세션 후기 확인하기

✅4. SAP 세션 후기 확인하기

✅5. 쿠버네티스 세션 후기 확인하기

✅6. 마이그레이션2 세션 후기 확인하기

✅7. 분석 세션 후기 확인하기

✅8. AI/ML 세션 후기 확인하기

✅9. AI/ML 2 세션 후기 확인하기

✅10. 현대화 (Modernization) 2 세션 후기 확인하기

✅11. 현대화 (Modernization) 3 세션 후기 확인하기

✅12. Data Lakes 세션 후기 확인하기

✅13. 네트워킹 세션 후기 확인하기

✅14. 마이그레이션3 세션 후기 확인하기

✅15.비용 최적화 세션 후기 확인하기

✅16. 보안 세션 후기 확인하기

✅17. SAP 2 세션 후기 확인하기

✅18. 마이그레이션4 세션 후기 확인하기

✅19. DevOps 세션 후기 확인하기

✅20. 신규업데이트 세션 후기 확인하기

✅21. 스토리지 세션 후기 확인하기

✅22. Amazon 세션 후기 확인하기

✅23. 신규업데이트2 후기 확인하기

✅24. 거버넌스 후기 확인하기

✅25. 거버넌스2 후기 확인하기

✅26. DevOps 2 후기 확인하기

✅27. AI/ML 3 세션 후기 확인하기

✅28. 분석2 세션 후기 확인하기

✅29. 쿠버네티스2 세션 후기 확인하기

✅30. 분석 3 세션 후기 확인하기

✅31. 서버리스 컴퓨팅 세션 후기 확인하기

✅32. 신규 업데이트 3 세션 후기 확인하기

✅33. 신규 업데이트 4 세션 후기 확인하기

✅34. 보안 2 세션 후기 확인하기

✅35. 분석 4 세션 후기 확인하기

✅36. 모니터링 세션 후기 확인하기

✅37. AI/ML 4 세션 후기 확인하기

✅38. 운영 세션 후기 확인하기

✅39. 운영 2 세션 후기 확인하기

✅40. 데이터베이스 세션 후기 확인하기

✅41. 데이터베이스 2 세션 후기 확인하기

✅42. 보안 3 세션 후기 확인하기

✅43. SaaS 세션 후기 확인하기

✅44. 컴퓨팅 세션 후기 확인하기

✅45. 신규 업데이트 : AWS SnapStart 세션 후기 확인하기

✅46. 신규 업데이트 : 네트워크 최적화 인스턴스와 최신 Amazon EC2 네트워킹 세션 후기 확인하기

✅47. 아키텍처 세션 후기 확인하기

✅48. SAP 3 세션 후기 확인하기

✅49. 고객사례 세션 후기

✅50. SAP 4 세션 후기 확인하기

✅51. 데이터베이스, 마이그레이션 세션 후기 확인하기

✅52. 보안 4 세션 후기 확인하기

✅53. 보안 규정 세션 후기 확인하기

✅54. 데이터베이스 3 세션 후기 확인하기

✅55. 신규 업데이트 5 세션 후기 확인하기

✅56 .DevOps 3 세션 후기 확인하기

✅57. 분석 5 세션 후기 확인하기

✅58. AI/ML 5 세션 후기 확인하기

✅59. DevOps 4 세션 후기 확인하기

✅60. 신규업데이트 6 세션 후기 확인하기

✅61. 분석 6 세션 후기 확인하기

✅62. 데이터 보호 세션 후기 확인하기

✅63. AI/ML 6 세션 후기 확인하기

✅64. DevOps 5 세션 후기 확인하기

✅65. 신규업데이트 7 세션 후기 확인하기

✅66. 신규 업데이트 8 세션 후기 확인하기