BLOG
올해 초에 AWS에서 발표했던 것처럼 NVIDIA 기반 G4 인스턴스가 이제 출시되어 9개 AWS 리전에서 6개 크기로 사용할 수 있게 되었습니다! 또한 머신 러닝 교육 및 추론, 비디오 트랜스 코딩, 게임 스트리밍 및 원격 그래픽 워크 스테이션 응용 프로그램에 사용할 수 있습니다.
이 인스턴스에는 최대 320개의 Turing Tensor 코어, 2,560 CUDA 코어 및 16GB 메모리가 장착된 최대 4개의 NVIDIA T4 Tensor Core GPU가 탑재되어 있습니다. T4 GPU는 머신 러닝 추론, 컴퓨터 비전, 비디오 처리 및 실시간 음성 및 자연어 처리에 이상적입니다. T4 GPU는 또한 효율적인 하드웨어 기반 광선 추적을위한 RT 코어를 제공합니다. 엔비디아 쿼드로 가상 워크 스테이션(쿼드 VWS)는 이제 AWS 마켓 플레이스에서 이용하실 수 있습니다. 이는 실시간 광선 추적 렌더링을 지원하며 미디어 및 엔터테인먼트, 건축 및 석유 및 가스 응용 분야에서 흔히 볼 수 있는 창의적인 워크 플로우를 가속화 할 수 있습니다.
G4 인스턴스는 AWS-사용자 정의에 의해 구동되는 2 세대 인텔 ® 제온 ® 확장 (캐스케이드 호수) 최대 64 개의 vCPU와 프로세서, 그리고 AWS 니트로 시스템에 내장되어 있습니다. Nitro의 로컬 NVMe 스토리지 빌딩 블록은 최대 1.8TB의 빠른 로컬 NVMe 스토리지에 직접 액세스할 수 있습니다. Nitro의 네트워크 빌딩 블록은 고속 ENA 네트워킹을 제공합니다. Intel AVX512-Deep Learning Boost 기능은 Vector Neural Network Instructions(줄여서 VNNI)의 새로운 세트로 AVX512를 확장합니다. 이 명령어는 많은 추론 알고리즘의 내부 루프에 있는 낮은 정밀도의 곱셈 및 더하기 연산을 가속화합니다.
인스턴스 크기는 다음과 같습니다.
인스턴스 이름 | NVIDIA T4 텐서 코어 GPU | vCPU | 램 | 로컬 스토리지 | EBS 대역폭 | 네트워크 대역폭 |
g4dn.xlarge | 1 | 4 | 16GiB | 1 x 125GB | 최대 3.5Gbps | 최대 25Gbps |
g4dn.2xlarge | 1 | 8 | 32GiB | 1 x 225GB | 최대 3.5Gbps | 최대 25Gbps |
g4dn.4xlarge | 1 | 16 | 64GiB | 1 x 225GB | 최대 3.5Gbps | 최대 25Gbps |
g4dn.8xlarge | 1 | 32 | 128 기가 바이트 | 1 x 900GB | 7Gbps | 50Gbps |
g4dn.12xlarge | 4 | 48 | 192GiB | 1 x 900GB | 7Gbps | 50Gbps |
g4dn.16x 큰 | 1 | 64 | 256GiB | 1 x 900GB | 7Gbps | 50Gbps |
또한 앞으로 몇 달 안에 다음과 같은 베어 메탈 인스턴스도 제공될 예정입니다.
인스턴스 이름 | NVIDIA T4 텐서 코어 GPU | vCPU | 램 | 로컬 스토리지 | EBS 대역폭 | 네트워크 대역폭 |
g4dn. 금속 | 8 | 96 | 384GiB | 2 x 900GB | 14Gbps | 100Gbps |
G4 인스턴스에서 그래픽 워크로드를 실행하려면 최신 버전의 NVIDIA AMI(AWS Marketplace 에서 사용 가능)를 사용하여 필수 GRID 및 그래픽 드라이버와 함께 포함된 NVIDIA Quadro Workstation 이미지에 액세스 할 수 있도록 하십시오. 최신 최적화 및 패치는 다음에서 찾을 수 있습니다.
- NVIDIA 게임 – Windows Server 2016
- NVIDIA 게임 – Windows Server 2019
- 엔비디아 게임 – 우분투 18.04
최신 AWS Deep Learning AMI 에는 G4 인스턴스 지원이 포함됩니다. 정보 AMIS를 생산하는 팀은 g4dn.12xlarge의 인스턴스에 맞서 g3.16xlarge 인스턴스를 벤치 마크했습니다. 그 결과에 대한 주요 내용은 다음과 같습니다.
- MxNet 추론 (resnet50v2, MMS없는 정방향 통과) – 2.03배 더 빠름.
- MxNet 추론 (MMS 포함) – 1.45배 빠름.
- MxNet Training (resnet50_v1b, 1 GPU) – 2.19 배 빠름.
- Tensorflow Inference (resnet50v1.5, 정방향 패스) – 2.00 배 빠름.
- Tensorflow Service를 사용한 Tensorflow 추론 (resnet50v2) – 1.72 배 빠름.
- Tensorflow Training (resnet50_v1.5) – 2.00 배 빠름.
벤치 마크는 FP32 숫자 정밀도를 사용했습니다. 혼합 정밀도(FP16) 또는 낮은 정밀도(INT8)를 사용하면 더 큰 향상을 기대할 수 있습니다.
현재 G4 인스턴스는 2019년 10월 1일부터 서울을 포함하여 미국 동부 (버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), 미국 서부(캘리포니아), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 도쿄 리전에서 이용 가능합니다.
원문 URL: https://aws.amazon.com/ko/blogs/aws/now-available-ec2-instances-g4-with-nvidia-t4-tensor-core-gpus/
** 메가존 클라우드 TechBlog는 AWS BLOG 영문 게재 글 중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역 및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS 페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.