Amazon EC2 Trn2 인스턴스 및 UltraServer

생성형 AI 훈련 및 추론을 위한 가장 강력한 EC2 컴퓨팅

Amazon EC2 Trn2 인스턴스 및 UltraServer를 사용해야 하는 이유는 무엇인가요?

16개의 AWS Trainium2 칩으로 구동되는 Amazon EC2 Trn2 인스턴스는 생성형 AI용으로 특별히 구축되었으며, 수천억에서 조 단위 이상의 파라미터로 모델을 훈련하고 배포하는 데 가장 강력한 EC2 인스턴스입니다. Trn2 인스턴스는 현재 세대의 GPU 기반 EC2 P5e 및 P5en 인스턴스보다 30~40% 우수한 가격 대비 성능을 제공합니다. Trn2 인스턴스를 사용하면 비용을 절감하면서도 최첨단 훈련 및 추론 성능을 확보할 수 있으므로 훈련 시간을 단축하고, 더 빠르게 반복하고, 실시간 AI 기반 경험을 제공할 수 있습니다. Trn2 인스턴스를 사용하여 대규모 언어 모델(LLM), 멀티모달 모델, 확산 트랜스포머를 비롯한 모델을 훈련 및 배포하여 차세대 생성형 AI 애플리케이션을 구축할 수 있습니다.

가장 까다로운 최첨단 모델의 훈련 시간을 줄이고 획기적인 응답 시간(토큰당 지연 시간)을 제공하려면 단일 인스턴스가 제공할 수 있는 것보다 더 많은 컴퓨팅 및 메모리가 필요할 수 있습니다. Trn2 UltraServer는 AWS의 독자적인 칩 간 상호 연결인 NeuronLink를 사용하여 4개의 Trn2 인스턴스에 걸쳐 64개의 Trainium2 칩을 연결하여 단일 노드에서 사용 가능한 컴퓨팅, 메모리, 네트워크 대역폭을 4배로 늘리고 AWS에서 딥 러닝 및 생성형 AI 워크로드에 획기적인 성능을 제공합니다. 추론의 경우, UltraServer는 업계 최고의 응답 시간을 제공하여 최상의 실시간 경험을 제공합니다. 훈련의 경우, UltraServer는 모델 병렬 처리를 위한 더 빠른 집단 통신을 통해 독립 실행형 인스턴스와 비교해 모델 훈련 속도와 효율성을 향상시킵니다.

PyTorch, JAX와 같은 인기 있는 기계 학습(ML) 프레임워크에 대한 기본 지원을 제공하여 Trn2 인스턴스 및 Trn2 UltraServer에서 간편하게 시작할 수 있습니다.

이점

최첨단 파운데이션 모델을 위한 훈련 및 추론 성능 극대화

Trn2 인스턴스는 가장 강력한 EC2 인스턴스이며, 훈련 시간을 단축하고 최종 사용자에게 실시간 추론 경험을 제공하는 데 도움이 됩니다. Trn2 인스턴스는 AWS의 독자적인 칩 간 상호 연결인 NeuronLink로 상호 연결된 16개의 Trainium2 칩을 탑재하여 최대 20.8페타플롭의 FP8 컴퓨팅을 제공합니다. Trn2 인스턴스에는 총 1.5TB HBM3(46TBps 메모리 대역폭)과 3.2Tbps의 Elastic Fabric Adapter(EFAv3) 네트워킹이 포함되어 있습니다. Trn2 UltraServer(평가판으로 제공)는 NeuronLink로 연결된 64개의 Trainium2 칩을 탑재하고 있으며 최대 83.2페타플롭의 FP8 컴퓨팅, 총 6TB의 고대역폭 메모리, 총 185TBps의 메모리 대역폭, 12.8Tbps의 EFAv3 네트워킹을 제공합니다.

신뢰할 수 있고 안전하게 AI 훈련을 고성능 클러스터로 확장

효율적인 분산 훈련을 위해 Trn2 인스턴스는 3.2Tbps, Trn2 UltraServer는 12.8Tbps의 EFAv3 네트워킹을 제공합니다. EFA는 AWS Nitro System을 기반으로 합니다. 따라서 EFA를 통한 모든 통신은 전송 중에 성능 저하 없이 암호화됩니다. 또한 EFA는 정교한 트래픽 라우팅 및 혼잡 제어 프로토콜을 사용하여 수십만 개의 Trainium2 칩으로 신뢰할 수 있게 확장할 수 있습니다. Trn2 인스턴스 및 UltraServer는 단일 페타비트 규모 비차단 네트워크에서 수만 개의 Trainium 칩으로 스케일 아웃 분산 훈련을 지원하기 위해 EC2 UltraCluster에 구축되고 있습니다.

훈련 및 추론 비용 절감

Trn2 인스턴스는 현재 세대의 GPU 기반 EC2 P5e 및 P5en 인스턴스보다 30~40% 우수한 가격 대비 성능을 제공합니다.

에너지 효율적인 솔루션으로 지속 가능성 목표 달성

Trn2 인스턴스는 Trn1 인스턴스보다 에너지 효율이 3배 더 높습니다. 이러한 인스턴스와 기본 칩은 고급 실리콘 프로세스와 하드웨어 및 소프트웨어 최적화 기능을 사용하여 대규모로 생성형 AI 워크로드를 실행할 때 높은 에너지 효율성을 제공합니다.

기능

AWS Trainium2 사용 시 최대 83.2페타플롭

Trn2 인스턴스는 NeuronLink로 상호 연결된 16개의 Trainium2 칩을 탑재하여 최대 20.8페타플롭의 FP8 컴퓨팅을 제공합니다. Trn2 UltraServer는 NeuronLink 연결을 4개의 Trn2 인스턴스에 걸쳐 64개의 Trainium2 칩으로 확장하여 최대 83.2페타플롭의 FP8 컴퓨팅을 제공합니다.

최대 6TB HBM, 185TBps 대역폭

Trn2 인스턴스는 1.5TB의 액셀러레이터 메모리와 46TBps의 총 메모리 대역폭을 제공합니다. Trn2 UltraServer는 6TB의 공유 액셀러레이터 메모리와 185TBps의 총 메모리 대역폭을 제공하므로 초대형 파운데이션 모델을 수용할 수 있습니다.

고성능 네트워킹 및 스토리지

초대형 파운데이션 모델의 스케일 아웃 분산 훈련을 지원하기 위해 Trn2 인스턴스는 3.2Tbps, Trn2 UltraServer는 12.8Tbps의 EFAv3 네트워크 대역폭을 제공합니다. EFAv3을 EC2 UltraClusters와 함께 사용할 경우 EFAv2에 비해 네트워크 지연 시간이 단축됩니다. 각 Trn2 인스턴스는 최대 8TB의 로컬 NVMe 스토리지를 지원하고, 각 Trn2 UltraServer는 최대 32TB를 지원하므로 대규모 데이터세트에 더 빠르게 액세스할 수 있습니다.

첨단 AI 최적화 기능

Trn2 인스턴스 및 UltraServer는 FP32, TF32, BF16, FP16, 구성 가능한 FP8(cFP8) 데이터 유형을 지원합니다. 또한 4배 희소성(16:4), 확률 반올림, 전용 집합 엔진을 비롯한 첨단 AI 최적화 기능을 지원합니다. Neuron Kernel Interface(NKI)를 사용하면 Triton과 유사한 인터페이스를 갖춘 Python 기반 환경을 사용하여 명령어 세트 아키텍처(ISA)에 직접 액세스할 수 있으므로 기존 기술을 능가하는 새로운 모델 아키텍처와 고도로 최적화된 컴퓨팅 커널로 혁신할 수 있습니다.

100,000개 이상의 모델과 인기 있는 프레임워크 및 라이브러리 지원

Neuron은 Llama, Stable Diffusion과 같은 인기 모델 아키텍처를 포함하여 Trn2에서의 훈련 및 배포를 위해 Hugging Face 모델 허브에서 100,000개 이상의 모델을 지원합니다. Neuron은 JAX, PyTorch 그리고 NeMo, Hugging Face, PyTorch Lightning, Ray, Domino Data Lab, Data Dog과 같은 필수 도구, 프레임워크, 라이브러리와 기본적으로 통합됩니다. 분산 훈련 및 추론을 위해 즉시 모델을 최적화하는 동시에 프로파일링 및 디버깅에 대한 심층적인 인사이트를 제공합니다. 또한 Neuron은 Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster, AWS Batch와 같은 서비스와 통합됩니다.

고객 및 파트너 추천사

다음은 고객과 파트너가 Amazon EC2 Trn2 인스턴스를 사용하여 비즈니스 목표를 달성하려는 계획을 보여주는 몇 가지 예입니다.

Anthropic

Anthropic에서는 수백만 명의 사람들이 매일 Claude를 사용하여 작업합니다. AWS와 관련하여 두 가지 주요 개선 사항이 있습니다. 첫 번째는 Claude 3.5 Haiku의 새로운 ‘지연 시간 최적화 모드’로, Amazon Bedrock을 통해 Trainium2에서 60% 더 빠르게 실행됩니다. 두 번째는 수백 엑사플롭을 제공하는 수십만 개의 Trainium2 칩이 포함된 새로운 클러스터인 Project Rainier로, 이전 클러스터 크기의 5배가 넘습니다. Project Rainier는 당사의 연구와 차세대 스케일링을 지원하는 데 도움이 될 것입니다. 이는 고객에게 더 많은 인텔리전스, 더 낮은 가격, 더 빠른 속도를 의미합니다. 당사는 단지 더 빠른 AI를 구축하는 것이 아니라 확장 가능하고 신뢰할 수 있는 AI를 구축하고 있습니다.

Tom Brown, Anthropic Chief Compute Officer
Databricks

Databricks의 Mosaic AI를 통해 조직은 고품질 에이전트 시스템을 구축하고 배포할 수 있습니다. 기본적으로 데이터 레이크하우스 위에 구축되므로 고객은 엔터프라이즈 데이터를 사용하여 모델을 쉽고 안전하게 사용자 지정하고 보다 정확한 도메인별 출력을 제공할 수 있습니다. Trainium의 고성능과 비용 효율성 덕분에 고객은 저렴한 비용으로 Mosaic AI에서 모델 훈련을 확장할 수 있습니다. Mosaic AI에 대한 수요가 전 세계 모든 고객 부문으로 계속 확장됨에 따라 Trainium2의 가용성은 Databricks와 고객에게 큰 이점이 될 것입니다. 세계 최대 데이터 및 AI 기업 중 하나로서 Databricks는 Trn2를 사용하여 고객에게 더 나은 결과를 제공하고 TCO를 최대 30% 절감할 계획입니다.

Naveen Rao, Databricks VP of Generative AI
poolside

poolside에서는 AI가 경제적으로 가치 있는 작업과 과학적 진보의 대부분을 주도하는 세상을 만들고자 합니다. 우리는 소프트웨어 개발이 신경망에서 인간 수준의 지능에 도달하는 첫 번째 주요 역량이 될 것이라고 믿습니다. 검색과 학습 접근 방식을 가장 잘 결합할 수 있는 영역이기 때문입니다. 이를 위해 개발자의 손(또는 키보드)에 생성형 AI의 강력한 성능을 접목하는 파운데이션 모델, API 및 어시스턴트를 구축하고 있습니다. 이 기술을 가능하게 하는 주요 관건은 제품을 구축하고 실행하는 데 사용하는 인프라입니다. AWS Trainium2를 통해 poolside 고객은 다른 AI 액셀러레이터와는 다른 가격 대비 성능으로 사용량을 확대할 수 있을 것입니다. 또한 Trainium2 UltraServer를 사용하여 향후 모델을 훈련할 예정인데 EC2 P5 인스턴스와 비교하여 40%의 비용 절감을 기대하고 있습니다.

Eiso Kant, poolside CTO & Co-founder
Itaú Unibanco

Itaú Unibanco의 목적은 돈과 사람의 관계를 개선하여 삶에 긍정적인 영향을 미치는 동시에 변화의 기회를 확대하는 것입니다. Itaú Unibanco에서는 각 고객이 특별하다고 믿으며 AI의 강력한 기능을 활용하여 소비자 습관에 지속적으로 적응하는 직관적인 디지털 여정을 통해 고객의 요구를 충족하는 데 중점을 둡니다.

당사는 표준 추론부터 애플리케이션 미세 조정에 이르기까지 다양한 작업에서 AWS Trainium 및 Inferentia를 테스트했습니다. 이러한 AI 칩의 성능 덕분에 연구 개발에서 중요한 이정표를 달성할 수 있었습니다. 배치 및 온라인 추론 작업 모두에서 GPU에 비해 처리량이 7배 향상되었습니다. 이러한 성능 향상으로 조직 전체에 사용 사례가 확장되고 있습니다. 최신 Trainium2 칩은 생성형 AI에 획기적인 기능을 제공하고 Itau에서 혁신의 문을 열고 있습니다.

Vitor Azeka, Itaú Unibanco Head of Data Science
NinjaTech AI

Ninja는 무한한 생산성을 위한 올인원 AI 에이전트입니다. 한 번의 구독으로 세계 최고의 AI 모델에 무제한으로 액세스하면서 작문, 코딩, 브레인스토밍, 이미지 생성, 온라인 연구와 같은 최고의 AI 기술을 이용할 수 있습니다. Ninja는 에이전트 플랫폼이며 프론티어 파운데이션 모델에 필적하는 (일부 범주에서는 능가하는) 세계적 수준의 정확도를 갖춘 에이전트 혼합을 사용하는 ‘SuperAgent’를 제공합니다. Ninja의 에이전트 기술은 고객이 기대하는 고유한 실시간 경험을 제공하기 위해 최고 성능의 액셀러레이터를 필요로 합니다.

AWS Trn2가 Lama 3.1 405B를 기반으로 하는 코어 모델인 Ninja LLM에서 현재 가능한 최고의 토큰당 비용 성능과 가장 빠른 속도를 제공할 것으로 믿기 때문에 Trn2의 출시를 매우 기쁘게 생각합니다. Trn2의 짧은 지연 시간과 경쟁력 있는 가격, 온디맨드 가용성은 놀랍습니다. Trn2의 출시가 정말 기대됩니다!

Babak Pahlavan, NinjaTech AI Founder & CEO
Ricoh

RICOH 기계 학습 팀은 엔터프라이즈 솔루션 전반의 정보 흐름을 관리하고 최적화하도록 설계된 업무 공간 솔루션 및 디지털 트랜스포메이션 서비스를 개발합니다.

Trn1 인스턴스로의 마이그레이션은 간단했습니다. 당사는 4,096개의 Trainium 칩으로 구성된 클러스터를 활용하여 단 8일 만에 130억 파라미터 LLM을 사전 훈련할 수 있었습니다! 소형 모델에서 성공을 거둔 후 Llama-3-Swallow-70B를 기반으로 하는 새로운 대형 LLM을 미세 조정했으며, Trainium을 활용하면서 AWS의 최신 GPU 시스템을 사용할 때보다 훈련 비용을 50% 절감하고 에너지 효율을 25% 개선할 수 있었습니다. 최신 AWS AI 칩인 Trainium2를 활용하여 고객에게 최저 비용으로 최고의 성능을 지속적으로 제공할 수 있게 되어 기쁩니다.

Yoshiaki Umetsu, Ricoh Director, Digital Technology Development Center
PyTorch

AWS Neuron NxD Inference 라이브러리에서 가장 마음에 들었던 점은 PyTorch 모델과 원활하게 통합된다는 것입니다. NxD의 접근 방식은 간단하고 사용자 친화적입니다. 우리 팀은 짧은 시간 내에 최소한의 코드 변경으로 HuggingFace PyTorch 모델을 온보딩할 수 있었습니다. 연속 배칭, 추측 디코딩과 같은 고급 기능을 활성화하는 것은 간단했습니다. 이러한 사용 편의성은 개발자 생산성을 향상시켜 팀이 통합 문제보다는 혁신에 더 집중할 수 있습니다.

Hamid Shojanazeri, Meta PyTorch Partner Engineering Lead
Refact.ai

Refact.ai는 검색 증강 생성(RAG)으로 구동되는 코드 자동 완성과 같은 포괄적인 AI 도구를 제공하여 보다 정확한 제안을 제공하고 독점 모델과 오픈 소스 모델을 모두 사용하는 컨텍스트 인식 채팅을 제공합니다.

고객들은 EC2 G5 인스턴스에 비해 EC2 Inf2 인스턴스에서 최대 20% 더 높은 성능과 달러당 1.5배 더 높은 토큰을 경험했습니다. Refact.ai의 미세 조정 기능은 고객이 조직의 고유한 코드베이스 및 환경을 이해하고 이에 적응하는 능력을 더욱 향상시킵니다. 또한 워크플로를 더욱 신속하고 효율적으로 처리할 수 있는 Trainium2의 기능을 제공하게 되어 매우 기쁩니다. 이 고급 기술을 통해 고객은 코드베이스에 대한 엄격한 보안 표준을 유지하면서 개발자 생산성을 향상시켜 소프트웨어 개발 프로세스를 가속화할 수 있습니다.

Oleg Klimov, Refact.ai CEO & Founder
Karakuri Inc.

KARAKURI는 웹 기반 고객 지원의 효율성을 개선하고 고객 경험을 단순화하는 AI 도구를 구축합니다. 이러한 도구에는 생성형 AI 기능이 탑재된 AI 챗봇, FAQ 중앙 집중화 도구, 이메일 응답 도구가 포함되며, 이 모든 도구는 고객 지원의 효율성과 품질을 개선합니다. AWS Trainium을 활용하여 KARAKURI LM 8x7B Chat v0.1을 훈련하는 데 성공했습니다. 우리와 같은 스타트업의 경우 LLM 구축 시간과 훈련에 필요한 비용을 최적화해야 합니다. AWS Trainium과 AWS 팀의 지원으로 짧은 기간 내에 실용적인 수준의 LLM을 개발할 수 있었습니다. 또한 AWS Inferentia를 도입하여 빠르고 비용 효율적인 추론 서비스를 구축할 수 있었습니다. Trainium2가 훈련 프로세스를 혁신하여 훈련 시간을 절반으로 단축하고 효율성을 새로운 차원으로 끌어올릴 것이기 때문에 Trainium2에 대해 열광하고 있습니다!

Tomofumi Nakayama, Karakuri Inc. Co-Founder
Stockmark Inc.

Stockmark는 ‘가치 창출의 메커니즘을 재창조하고 인류를 발전시킨다’는 사명 아래 최첨단 자연어 처리 기술을 제공함으로써 혁신적인 비즈니스를 만드는 많은 기업을 돕습니다. Stockmark의 새로운 데이터 분석 및 수집 서비스인 Anews와 조직에 저장된 모든 형태의 정보를 체계화하여 생성형 AI 사용을 획기적으로 개선하는 데이터 구조화 서비스인 SAT를 사용하려면 이러한 제품을 지원하기 위한 모델을 구축하고 배포하는 방식을 재고해야 했습니다. 당사는 256개의 Trainium 액셀러레이터를 사용하여 2,200억 개 토큰으로 구성된 일본어 코퍼스 데이터세트를 기반으로 처음부터 사전 훈련된 130억 개 파라미터의 대규모 언어 모델인 stockmark-13b를 개발, 출시했습니다. Trn1 인스턴스는 훈련 비용을 20% 절감하는 데 도움이 되었습니다. Trainium을 활용하여 전례 없는 정확성과 속도로 전문가를 위한 비즈니스 크리티컬 질문에 답변할 수 있는 LLM을 성공적으로 개발할 수 있었습니다. 기업이 모델 개발을 위한 적절한 컴퓨팅 리소스를 확보하는 데 직면하고 있는 광범위한 문제를 고려할 때 이러한 성과는 특히 주목할 만합니다. Trn1 인스턴스의 속도와 비용 절감도 놀라웠지만 Trainium2가 워크플로와 고객에게 제공할 추가적인 이점을 보게 되어 매우 기쁩니다.

Kosuke Arima, Stockmark Inc. CTO & Co-founder
Brave

Brave는 사용자 개인 정보 보호 및 보안을 최우선으로 생각하는 독립형 브라우저 및 검색 엔진입니다. 7,000만 명 이상의 사용자를 보유한 당사는 웹을 더 안전하고 사용자 친화적으로 만드는 업계 최고의 보호 기능을 제공합니다. 사용자 중심 접근 방식에서 벗어난 다른 플랫폼과 달리 Brave는 개인 정보 보호, 보안, 편의성을 최우선으로 하는 데 최선을 다하고 있습니다. 주요 기능으로는 유해 스크립트 및 추적기 차단, LLM 기반 AI 지원 페이지 요약, 내장 VPN 서비스 등이 있습니다. 당사는 검색 서비스 및 AI 모델의 속도와 비용 효율성을 개선하기 위해 지속적으로 노력하고 있습니다. 이를 지원하기 위해 Trainium2를 비롯한 AWS AI 칩의 최신 기능을 활용하여 매달 수십억 건의 검색 쿼리를 처리하도록 확장하면서 사용자 경험을 개선하게 되어 매우 기쁘게 생각합니다.

Subu Sathyanarayana, Brave Software VP of Engineering
Anyscale

Anyscale은 기업을 위한 ML 및 생성형 AI 이니셔티브를 촉진하는 AI 컴퓨팅 엔진인 Ray를 개발한 회사입니다. RayTurbo로 구동되는 Anyscale의 통합 AI 플랫폼을 통해 고객은 리소스 활용도를 최적화하여 최대 4.5배 더 빠른 데이터 처리, 10배 더 저렴한 LLM을 통한 배치 추론, 5배 더 빠른 스케일링, 12배 더 빠른 반복, 50%의 온라인 모델 추론 비용 절감 효과를 볼 수 있습니다.

Anyscale은 AI 워크로드를 효율적이고 경제적으로 확장할 수 있는 최고의 도구를 기업에 제공하기 위해 최선을 다하고 있습니다. 당사의 RayTurbo 런타임으로 구동되는 AWS Trainium 및 Inferentia 칩에 대한 기본 지원을 통해 고객은 모델 훈련 및 서비스를 위한 고성능의 비용 효율적인 옵션을 이용할 수 있습니다. 이제 Trainium2에서 AWS와 협력하여 고객이 신속하게 혁신하고 대규모로 고성능의 혁신적인 AI 경험을 제공할 수 있는 새로운 기회를 열게 되어 기쁩니다.

Robert Nishihara, Anyscale Cofounder
Datadog

클라우드 애플리케이션을 위한 관찰성 및 보안 플랫폼인 Datadog은 고객이 모델 성능을 최적화하고 효율성을 개선하며 비용을 절감할 수 있도록 AWS Trainium 및 Inferentia Monitoring을 제공합니다. Datadog의 통합은 ML 운영 및 기본 칩 성능에 대한 완전한 가시성을 제공하여 선제적 문제 해결과 원활한 인프라 확장이 가능합니다. 사용자가 AI 인프라 비용을 최대 50% 절감하고 모델 훈련 및 배포 성능을 향상시키는 데 도움이 되는 AWS Trainium2 출시로 AWS와의 파트너십을 연장하게 되어 기쁩니다.

Yrieix Garnier, Datadog VP of Product Company
Hugging Face

Hugging Face는 5백만 명 이상의 연구원, 데이터 과학자, 기계 학습 엔지니어, 소프트웨어 개발자로 구성된 커뮤니티에서 2백만 개 이상의 모델, 데이터세트 및 AI 애플리케이션을 공유하는 AI 빌더를 위한 선도적인 개방형 플랫폼입니다. 지난 몇 년 동안 AWS와 협력한 덕분에 개발자는 Optimum Neuron 오픈 소스 라이브러리를 통해 AWS Inferentia 및 Trainium의 성능 및 비용 이점을 더 쉽게 경험할 수 있습니다. Hugging Face 추론 엔드포인트에 통합된 Optimum Neuron 오픈 소스 라이브러리는 이제 AWS Marketplace에서 제공되는 새로운 HUGS 자체 배포 서비스에 최적화되어 있습니다. Trainium2의 출시로 사용자는 훨씬 강력한 성능을 활용하여 모델을 더 빠르게 개발하고 배포할 수 있습니다.

Jeff Boudier, Hugging Face Head of Product
Lightning AI

PyTorch Lightning과 Lightning 스튜디오를 개발한 Lightning AI는 엔터프라이즈급 AI를 위한 가장 직관적인 올인원 AI 개발 플랫폼을 제공합니다. Lightning은 에이전트, AI 애플리케이션, 생성형 AI 솔루션을 매우 신속하게 구축할 수 있는 풀 코드, 로우 코드 및 노코드 도구를 제공합니다. 유연성을 고려하여 설계되었으며, 3백만 명 이상의 강력한 개발자 커뮤니티의 전문 지식 및 지원을 활용하여 클라우드에서 원활하게 실행됩니다.

Lightning은 이제 Lightning 스튜디오와 PyTorch Lightning, Fabric, LitServe 같은 오픈 소스 도구에 통합된 AWS AI 칩 Trainium 및 Inferentia에 대한 지원을 기본적으로 제공합니다. 이를 통해 사용자는 전환 오버헤드 없이 비용, 가용성, 성능을 최적화하고, 저렴한 비용으로 더 높은 성능을 제공하는 최신 Trainium2 칩을 비롯한 AWS AI 칩의 성능 및 비용 이점을 활용하여 대규모 사전 훈련, 미세 조정, 배포를 원활하게 수행할 수 있습니다.

Luca Antiga, Lightning AI CTO
Domino Data Lab

Domino는 환경 전반에서 AWS의 인프라, 데이터, 서비스를 비롯한 모든 데이터 과학 아티팩트를 오케스트레이션하면서 엔터프라이즈 데이터 과학 팀을 지원하기 위해 Amazon SageMaker를 거버넌스 및 협업 기능으로 보완하고 있습니다. Domino는 AWS Marketplace를 통해 SaaS 또는 자체 관리형으로 제공됩니다.

선도적인 기업은 경쟁 우위를 위한 광범위한 AI 옵션을 마스터하여 기술적 복잡성, 비용, 거버넌스의 균형을 유지해야 합니다. Domino는 고객이 첨단 기술을 이용할 수 있도록 최선을 다하고 있습니다. 획기적인 혁신으로 인해 컴퓨팅 병목 현상이 발생하고 있는 지금, 고객이 더 높은 성능, 더 낮은 비용, 더 나은 에너지 효율을 갖춘 모델을 훈련 및 배포할 수 있도록 Trainium2를 제공하게 된 것을 자랑스럽게 생각합니다.

Nick Elprin, Domino Data Lab CEO & Co-Founder

시작하기

Amazon SageMaker 사용하기

Trn2 인스턴스에 대한 SageMaker 지원이 곧 제공됩니다. 복원력이 뛰어난 컴퓨팅 클러스터, 최적화된 훈련 성능, 효율적인 기본 컴퓨팅, 네트워킹 및 메모리 리소스 활용을 제공하는 Amazon SageMaker HyperPod를 사용하여 Trn2 인스턴스에서 모델을 쉽게 훈련할 수 있습니다. 또한 SageMaker를 사용하여 Trn2 인스턴스에서 모델 배포의 규모를 조정하여 프로덕션 환경에서 모델을 보다 효율적으로 관리하고 운영 부담을 줄일 수 있습니다.

AWS Deep Learning AMI 사용하기

AWS Deep Learning AMI(DLAMI)는 딥 러닝(DL) 실무자 및 연구원에게 규모와 관계없이 AWS에서 DL을 가속화할 수 있는 인프라 및 도구를 제공합니다. DLAMI에는 사전 구성된 AWS Neuron 드라이버가 포함되므로 Trn2 인스턴스에서 DL 모델의 훈련을 최적화할 수 있습니다.

AWS Deep Learning Containers 사용하기

Trn2 인스턴스에 대한 딥 러닝 컨테이너 지원이 곧 제공됩니다. 이제 이러한 컨테이너를 사용하여 완전관리형 Kubernetes 서비스인 Amazon Elastic Kubernetes Service(Amazon EKS)와 완전관리형 컨테이너 오케스트레이션 서비스인 Amazon Elastic Container Service(Amazon ECS)에 Trn2 인스턴스를 배포할 수 있습니다. Neuron도 AWS Deep Learning Containers에 미리 설치되어 제공됩니다. Trn2 인스턴스에서 컨테이너를 실행하는 방법에 대해 자세히 알아보려면 Neuron 컨테이너 자습서를 참조하세요.

제품 세부 정보

인스턴스 크기	EC2 UltraServers에서 사용 가능	Trainium2 칩	액셀러레이터 메모리	vCPU	메모리 (TB)	인스턴스 스토리지(TB)	네트워크 대역폭(Tbps)	EBS 대역폭(Gbps)
trn2.48xlarge	아니요	16	1.5TB	192	2TB	4 x 1.92 NVMe SSD	3.2	80
trn2u.48xlarge	예(평가판)	16	1.5TB	192	2TB	4 x 1.92 NVMe SSD	3.2	80

AWS 시작하기

1단계: AWS 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

자세히 알아보기

2단계: 10분 자습서로 알아보기

간단한 자습서를 통해 자세히 알아보십시오.

자세히 알아보기

3단계: AWS를 사용하여 구축 시작

AWS 프로젝트를 시작하는 데 도움이 되는 단계별 안내서를 통해 빌드를 시작하십시오.

자세히 알아보기

Amazon EC2 Trn2 인스턴스 및 UltraServer

생성형 AI 훈련 및 추론을 위한 가장 강력한 EC2 컴퓨팅