Amazon EC2 Trn2 インスタンスと UltraServers

生成 AI トレーニングと推論のための最も強力な EC2 コンピューティング

Amazon EC2 Trn2 インスタンスと UltraServers を利用すべき理由

16 個の AWS Trainium2 チップを搭載した Amazon EC2 Trn2 インスタンスは、生成 AI 専用に構築されており、数千億から数兆を超えるパラメータを持つモデルのトレーニングとデプロイのための最も強力な EC2 インスタンスです。Trn2 インスタンスは、現世代の GPU ベースの EC2 P5e および P5en インスタンスよりも 30~40% 優れた料金パフォーマンスを実現します。Trn2 インスタンスを使用すると、コストを削減しながら最先端のトレーニングと推論パフォーマンスを実現することができるため、トレーニング時間の短縮、イテレーションの迅速化、AI を活用したリアルタイムのエクスペリエンスの提供が可能になります。Trn2 インスタンスを使用して、大規模言語モデル (LLM)、マルチモーダルモデル、拡散トランスフォーマーなどのモデルのトレーニングとデプロイを行い、次世代の生成 AI アプリケーションを構築できます。

最も要求の厳しい最先端のモデルでトレーニング時間を短縮し、画期的な応答時間 (トークンの待ち時間当たり) を実現するには、1 つのインスタンスでは提供できないほどのコンピューティングとメモリが必要になる場合があります。Trn2 UltraServers は、当社独自のチップ間インターコネクトである NeuronLink を使用して、4 つの Trn2 インスタンスに 64 個の Trainium2 チップを接続します。これにより、1 つのノードで利用できるコンピューティング、メモリ、ネットワーク帯域幅が 4 倍になり、AWS 上で深層学習と生成 AI ワークロードの飛躍的なパフォーマンスが実現します。推論に関しては、UltraServers は業界トップクラスの応答時間を実現し、最高のリアルタイム体験を実現するのに役立ちます。トレーニングに関しては、UltraServers はスタンドアロンインスタンスと比較して、モデルの並列処理のための集団通信が高速になるため、モデルトレーニングの速度と効率が向上します。

PyTorch や JAX などの一般的な機械学習 (ML) フレームワークのネイティブサポートを利用して、Trn2 インスタンスと Trn2 UltraServers を簡単に使い始めることができます。

利点

Trn2 インスタンスは最も強力な EC2 インスタンスであり、トレーニング時間を短縮し、エンドユーザーにリアルタイムの推論エクスペリエンスを提供するのに役立ちます。Trn2 インスタンスには、当社独自のチップ間相互接続である NeuronLink で相互接続された 16 個の Trainium2 チップが搭載されており、最大 20.8 FP8 ペタフロップスのコンピューティングを実現します。Trn2 インスタンスには 46 テラバイト/秒 (TBps) のメモリ帯域幅を備えた合計 1.5 TB の HBM3 があり、3.2 テラビット/秒 (Tbps) の Elastic Fabric Adapter networking (EFAv3) ネットワーキングを実現します。Trn2 UltraServer (プレビュー版) には、NeuronLink に接続された 64 個の Trainium2 チップが搭載されており、最大 83.2 ペタフロップスの FP8 コンピューティング、6 TB の合計高帯域幅メモリ、合計 185 TBps のメモリ帯域幅、12.8 Tbps の EFAv3 ネットワーキングを実現します。

効率的な分散トレーニングを可能にするために、Trn2 インスタンスは 3.2 Tbps を実現し、Trn2 UltraServer は 12.8 Tbps の EFAv3 ネットワークを提供します。EFA は AWS Nitro System 上に構築されているため、EFA を介したすべての通信は転送中に暗号化され、パフォーマンスが低下することはありません。また、EFA は高度なトラフィックルーティングと輻輳制御プロトコルを使用しているため、数十万個の Trainium2 チップまで確実にスケールできます。Trn2 インスタンスと UltraServer は EC2 UltraClusters にデプロイされています。これにより、単一ペタビットスケールのノンブロッキングネットワーク上の数万の Trainium チップにわたるスケールアウト分散トレーニングが可能になります。

Trn2 インスタンスは、現世代の GPU ベースの EC2 P5e および P5en インスタンスよりも 30~40% 優れた料金パフォーマンスを実現します。

Trn2 インスタンスには Trn1 インスタンスよりも 3 倍高いエネルギー効率があります。これらのインスタンスと基盤となるチップは、高度なシリコンプロセスおよびハードウェアとソフトウェアの最適化を使用して、生成 AI ワークロードを大規模に実行する際に高いエネルギー効率を実現します。

AWS Neuron SDK は、Trn2 インスタンスと UltraServer のパフォーマンスを最大限に引き出すのに役立つため、モデルの構築とデプロイに集中し、市場投入までの時間を短縮できます。Neuron は、JAX、PyTorch のほか、Hugging Face、PyTorch Lightning、NeMo などの重要なライブラリとネイティブに統合されています。Neuron には、オープンソースの PyTorch ライブラリである NxD Training と NxD Inference による分散トレーニングと推論のためのすぐに使える最適化機能が含まれている一方、プロファイリングとデバッグに関する深いインサイトを提供します。Neuron は StableHLO や GSPMD を含む OpenXLA もサポートしているため、PyTorch、XLA、JAX のデベロッパーは Neuron のコンパイラー最適化を Inferentia と Trainium に使用できます。Neuron を使用すると、Trn2 インスタンスを Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster、AWS Batch などのサービスや、Ray (Anyscale)、Domino Data Lab、Datadog などのサードパーティーサービスで使用できます。

特徴

Trn2 インスタンスには、NeuronLink と相互接続された 16 個の Trainium2 チップが搭載されており、最大 20.8 FP8 ペタフロップスのコンピューティングを実現します。Trn2 UltraServer は、4 つの Trn2 インスタンスにわたる 64 個の Trainium2 チップに NeuronLink 接続を拡張し、最大 83.2 FP8 ペタフロップスのコンピューティングを実現します。

Trn2 インスタンスは、46 TBps の合計メモリ帯域幅を備えた 1.5 TB のアクセラレーターメモリを実現します。Trn2 UltraServer は、185 TBps の合計メモリ帯域幅を備えた 6 TB の共有アクセラレーターメモリを提供しているため、超大規模な基盤モデルにも対応できます。

超大規模基盤モデルのスケールアウト分散トレーニングをサポートするために、Trn2 インスタンスは 3.2 Tbps、Trn2 UltraServer は 12.8 Tbps の EFAv3 ネットワーク帯域幅を備えています。EC2 UltraCluster と組み合わせると、EFAv3 は EFAv2 と比較してネットワークレイテンシーが低くなります。各 Trn2 インスタンスは最大 8 TB をサポートし、各 Trn2 UltraServer は最大 32 TB のローカル NVMe ストレージをサポートしているため、大規模なデータセットにすばやくアクセスできます。

Trn2 インスタンスと UltraServer は、FP32、TF32、BF16、FP16、および設定可能な FP8 (cFP8) データタイプをサポートします。また、4 倍の稀薄性 (16:4)、確率的四捨五入、専用のコレクティブエンジンなど、最先端の AI 最適化もサポートしています。Neuron Kernel Interface (NKI) を使用すると、Triton のようなインターフェイスを備えた Python ベースの環境を使用して命令セットアーキテクチャ (ISA) に直接アクセスできるため、既存の手法よりも優れた新しいモデルアーキテクチャや高度に最適化されたコンピューティングカーネルを革新できます。

Neuron は、Trn2 でのトレーニングとデプロイ用に、Hugging Face モデルハブで 100,000 を超えるモデルをサポートしています。これには、Llama や Stable Diffusion などの一般的なモデルアーキテクチャが含まれます。Neuron は、JAX、PyTorch のほか、NeMo、Hugging Face、PyTorch Lightning、Ray、Domino Data Lab、Data Dog などの重要なツール、フレームワーク、ライブラリとネイティブに統合されています。プロファイリングとデバッグのための深いインサイトを提供しながら、すぐに分散型トレーニングと推論用にモデルを最適化します。Neuron は Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster、AWS Batch などのサービスとも統合されています。

お客様とパートナーの声

お客様とパートナーがどのように Amazon EC2 Trn2 インスタンスを利用してビジネス目標を達成する計画を立てているかの例をいくつかご紹介します。

  • Anthropic

    Anthropic では、毎日何百万人もの人々が業務で Claude を利用しています。AWS で 2 つの大きな進歩がありました。1 つ目は、Claude 3.5 Haiku 向けの新しい「レイテンシー最適化モード」です。これは、Amazon Bedrock 経由で Trainium2 で実行され、60% の高速化を実現しています。そして 2 つ目は、Project Rainier です。これは、数十万個の Trainium2 チップを搭載した新しいクラスターで、以前のクラスターの 5 倍以上のサイズである数百エクサフロップスを実現しています。Project Rainier は、私たちの研究と次世代のスケーリングの両方を後押ししてくれます。お客様にとって、これはより多くのインテリジェンス、より低い料金、より速い速度を意味します。私たちは、より高速な AI を構築するだけでなく、スケールする信頼できる AI を構築しています。

    Anthropic、Chief Compute Officer、Tom Brown 氏
  • Databricks

    Databricks の Mosaic AI により、組織は高品質のエージェントシステムを構築してデプロイできます。データレイクハウス上にネイティブに構築されているため、お客様はエンタープライズデータを使用してモデルを簡単かつ安全にカスタマイズし、より正確でドメイン固有の出力が得られます。Trainium の高いパフォーマンスと費用対効果のおかげで、お客様は Mosaic AI のモデルトレーニングを低コストでスケールできます。Mosaic AI の需要はすべての顧客セグメントと世界中で拡大し続けているため、Trainium2 の可用性は Databricks とその顧客にとって大きなメリットとなるでしょう。データおよび AI の世界最大手企業の 1 つである Databricks は、TRN2 を使用して顧客のためにより良い結果をもたらし、TCO を最大 30% 削減することを計画しています。

    Databricks、VP of Generative AI、Naveen Rao 氏
  • poolside

    poolside では、経済的に価値のある仕事や科学の進歩の大半を AI が推進する世界を構築することを目指しています。私たちは、ソフトウェア開発がニューラルネットワークで人間レベルの知能に達する最初の主要な能力になると考えています。なぜなら、探求と学習のアプローチを最もうまく組み合わせることができる領域だからです。それを実現するために、生成 AI の力をデベロッパーの手 (またはキーボード) に届けるための基盤モデル、API、アシスタントを構築しています。このテクノロジーを実現するための主な鍵は、製品の構築と運用に使用しているインフラストラクチャです。AWS Trainium2 では、お客様は他の AI アクセラレーターとは異なるコストパフォーマンス比で poolside の使用量をスケールできます。さらに、Trainium2 UltraServer を使用して将来のモデルをトレーニングする予定です。これにより、EC2 P5 インスタンスと比較して 40% の節約が見込まれます。

    poolside、CTO & Co-founder、Eiso Kant 氏
  • Itaú Unibanco

    Itaú Unibanco の目的は、人とお金との関係を改善し、人々の生活にプラスの影響を与えながら、トランスフォーメーションの機会を拡大することです。Itaú Unibanco では、お客様一人ひとりがユニークな存在であると捉えており、AI の力を活用してコンスタントに消費者の動向に適応する直感的なデジタルジャーニーを通じてお客様のニーズを満たすことに力を入れています。

    標準的な推論からファインチューニングされたアプリケーションまで、AWS Trainium と Inferentia をさまざまなタスクにわたってテストしてきました。これらの AI チップの性能により、私たちは研究開発において重要なマイルストーンを達成することができました。バッチ推論タスクとオンライン推論タスクの両方で、GPU と比較してスループットが 7 倍向上しました。この性能の向上により、組織全体でユースケースの拡がりが見られます。最新世代の Trainium2 チップは、GenAI の画期的な機能を解き放ち、Itau のイノベーションへの扉を開いています。

    Itaú Unibanco、Head of Data Science、Vitor Azeka 氏
  • NinjaTech AI

    Ninja は、Unlimited Productivity にとってオールインワンの AI エージェントです。1 つのサブスクリプションで、世界最高の AI モデルに無制限にアクセスでき、書き込み、コーディング、ブレインストーミング、画像生成、オンラインリサーチなどの最も有用な AI スキルにもアクセスできます。Ninja はエージェント型プラットフォームであり、フロンティア基盤モデルに匹敵する (一部のカテゴリーではそれを上回っている) 世界クラスの精度を持つエージェントを組み合わせた「SuperAgent」を提供しています。Ninja の Agentic テクノロジーは、お客様が期待するユニークなリアルタイム体験を提供するために、最高性能のアクセラレーターを必要とします。 

    AWS TRN2 のローンチにワクワクしています。なぜなら、Llama 3.1 405B をベースにしたコアモデル Ninja LLM では、トークンあたり最高のコストパフォーマンスを発揮し、現在到達できる最速のスピードを実現できると考えているからです。Trn2 の低レイテンシーと、競争力のある料金設定、オンデマンドの可用性には目を見張るものがあります。Trn2 の登場にかつてないほどワクワクしています。

    NinjaTech AI、Founder & CEO、Babak Pahlavan 氏
  • Ricoh

    リコーの機械学習チームは、エンタープライズソリューション全体の情報の流れを管理および最適化するように設計されたワークプレイスソリューションとデジタルトランスフォーメーションサービスを開発しています。

    Trn1 インスタンスへの移行は簡単で明瞭でした。4,096 個の Trainium チップのクラスターを利用して、わずか 8 日間で 13B パラメータの LLM を事前トレーニングすることができました。 小さなモデルで成功を収めた後、Llama-3-Swallow-70B をベースにした新しい大規模 LLM をファインチューニングしました。Trainium を活用することで、AWS で最新の GPU マシンを使用する場合と比較して、トレーニングコストを 50% 削減し、エネルギー効率を 25% 向上させることができました。最新世代の AWS AI チップである Trainium2 を活用して、引き続きお客様に最高のパフォーマンスを最低のコストで提供できることを嬉しく思います。

    リコー、デジタル技術開発センター所長、梅津 良昭氏
  • PyTorch

    AWS Neuron NxD 推論ライブラリで私が最も気に入ったのは、PyTorch モデルとシームレスに統合できることです。NxD のアプローチは単純明快でユーザーフレンドリーです。私たちのチームは、最小限のコード変更で短期間で HuggingFace PyTorch モデルをオンボーディングすることができました。連続バッチ処理や投機的デコーディングなどの高度な機能を有効にするのは簡単でした。この使いやすさによってデベロッパーの生産性が向上し、チームは統合の課題に煩わされることなく、イノベーションに集中できるようになります。

    Meta、PyTorch Partner Engineering Lead、Hamid Shojanazeri 氏
  • Refact.ai

    Refact.ai には、Retrieval-Augmented Generation (RAG) を利用したコードオートコンプリートなどの包括的な AI ツールが用意されています。これにより、より正確な提案が可能になり、独自モデルとオープンソースモデルの両方を使用してコンテキストに応じたチャットが可能になります。

    お客様の話から、EC2 Inf2 インスタンスでは、EC2 G5 インスタンスと比較して、パフォーマンスが最大 20% 高く、1 USD あたりのトークンが 1.5 倍高いことが分かっています。Refact.ai のファインチューニング機能により、お客様が組織独自のコードベースと環境を把握し、それに適応する能力をさらに高めます。また、Trainium2 の機能を提供できることを嬉しく思います。これにより、ワークフローの処理がさらに高速で効率的になります。この高度なテクノロジーにより、コードベースの厳しいセキュリティ基準を順守しながらデベロッパーの生産性を高めることができるため、お客様はソフトウェア開発プロセスを加速できます。

    Refact.ai、CEO & Founder、Oleg Klimov 氏
  • Karakuri Inc.

    カラクリは、ウェブベースのカスタマーサポートの効率を高め、カスタマーエクスペリエンスを簡素化する AI ツールを構築しています。これらのツールには、生成 AI 機能を搭載した AI チャットボット、FAQ 一元化ツール、E メール返信ツールなどがあり、これらはすべてカスタマーサポートの効率と品質を向上させます。AWS Trainium を活用して、KARAKURI LM 8x7B Chat v0.1 のトレーニングに成功しました。私たちのようなスタートアップ企業にとっては、LLM の構築にかかる時間とトレーニングに必要なコストを最適化する必要があります。AWS Trainium と AWS チームのサポートのおかげで、短期間で実践的なレベルの LLM を開発することができました。また、AWS Inferentia を採用したことで、高速で費用対効果の高い推論サービスを構築できました。Trainium2 はトレーニングプロセスに革命をもたらし、トレーニング時間を半分に短縮し、効率を新たな高みへと導いてくれるので、Trainium2 から力をもらっています。

    カラクリ株式会社、共同創設者、中山 智文氏
  • Stockmark Inc.

    ストックマークは、「価値創造の仕組みを再発明し、人間性を高める」という使命のもと、最先端の自然言語処理技術を提供することで、多くの企業が革新的なビジネスを創造し、構築できるよう支援しています。ストックマークの新しいデータ分析および収集サービスである Anews と SAT は、組織に保存されているあらゆる形態の情報を整理することで生成 AI の利用を劇的に改善するデータ構造化サービスです。私たちは、これらの製品をサポートするモデルを構築およびデプロイする方法を再考する必要がありました。256 個の Trainium アクセラレーターを使用して、Stockmark-13b を開発してリリースしました。Stockmark-13b は、日本の 2200 億トークンのコーパスデータセットでゼロから事前にトレーニングされた、130 億のパラメータを持つ大規模な言語モデルです。Trn1 インスタンスにより、トレーニングコストを 20% 削減できました。Trainium を活用して、プロフェッショナル向けのビジネスクリティカルな質問にこれまでにない正確さとスピードで回答できる LLM の開発に成功しました。この成果は、企業がモデル開発のための十分な計算リソースを確保する上で直面する課題が広範囲に及んでいることを考えると、特に注目に値します。Trn1 インスタンスの驚異的な速度とコスト削減により、Trainium2 が当社のワークフローとお客様にさらにどのようなメリットをもたらすのかを見るのを楽しみにしています。

    ストックマーク株式会社、CTO 兼共同創立者、有馬 幸介氏
  • Brave

    Brave は、ユーザーのプライバシーとセキュリティを最優先することを目的とした独立したブラウザおよび検索エンジンです。7,000 万人以上のユーザーを抱える当社は、ウェブをより安全で使いやすいものにする業界トップクラスの保護機能を提供しています。ユーザー中心のアプローチから脱却した他のプラットフォームとは異なり、Brave はプライバシー、セキュリティ、利便性を最優先することに引き続き取り組んでいます。主な機能には、有害なスクリプトやトラッカーのブロック、LLM による AI 支援ページサマリー、組み込み VPN サービスなどがあります。私たちは、検索サービスと AI モデルの速度と費用対効果の向上に継続的に取り組んでいます。これをサポートするために、Trainium2 を含む AWS AI チップの最新機能を活用して、毎月数十億件の検索クエリを処理するようにスケールしながら、ユーザーエクスペリエンスを向上できることを嬉しく思います。

    Brave Software、VP of Engineering、Subu Sathyanarayana 氏
  • Anyscale

    Anyscale は、企業向けに機械学習と生成 AI イニシアチブを促進する AI コンピューティングエンジンである Ray を開発している企業です。RayTurbo を利用した Anyscale の統合 AI プラットフォームでは、リソースの利用を最適化することで、データ処理が最大 4.5 倍速くなり、LLM によるバッチ推論のコストが 10 分の一になり、スケーリングが 5 倍速くなり、イテレーションが 12 倍速くなり、オンラインモデル推論のコストを 50% 削減できます。

    Anyscale では、AI ワークロードを効率的かつ費用対効果の高い方法でスケールするための最適なツールで企業の力になれるよう取り組んでいます。RayTurbo ランタイムを搭載した AWS Trainium チップと Inferentia チップのネイティブサポートにより、お客様はモデルトレーニングとサービスのための高性能で費用対効果の高いオプションを利用できます。私たちは今、Trainium2 で AWS と力を合わせ、お客様が迅速にイノベーションを起こし、高性能で変革的な AI 体験を大規模に提供するための新しい機会を開拓できることを嬉しく思います。

    Anyscale、Cofounder、Robert Nishihara 氏
  • Datadog

    クラウドアプリケーションのオブザーバビリティおよびセキュリティプラットフォームである Datadog は、AWS Trainium と Inferentia Monitoring をお客様に提供して、モデルのパフォーマンスを最適化し、効率を高め、コストを削減できるようにしています。Datadog の統合により、ML の運用と基盤となるチップのパフォーマンスを完全に可視化できるため、プロアクティブな問題解決とシームレスなインフラストラクチャスケーリングが可能になります。AWS Trainium2 のローンチに向けて、AWS とのパートナーシップを拡大できることを嬉しく思います。これにより、ユーザーは AI インフラストラクチャのコストを最大 50% 削減し、モデルトレーニングとデプロイのパフォーマンスを向上させることができます。

    Datadog、VP of Product Compan、Yrieix Garnier 氏
  • Hugging Face

    Hugging Face は AI ビルダー向けの主要なオープンプラットフォームであり、200 万を超えるモデル、データセット、AI アプリケーションが、500 万人以上の研究者、データサイエンティスト、機械学習エンジニア、ソフトウェアデベロッパーのコミュニティで共有されています。私たちは過去数年にわたって AWS と協力してきました。これにより、デベロッパーは Optimum Neuron オープンソースライブラリを通じて、AWS Inferentia と Trainium のパフォーマンスとコスト上のメリットをより簡単に体験できます。このライブラリは Hugging Face 推論エンドポイントに統合され、AWS Marketplace で利用できる新しい HUGS セルフデプロイサービス内で最適化されています。Trainium2 のローンチにより、ユーザーはさらに高い性能を利用して、モデルをより迅速に開発およびデプロイできるようになります。

    Hugging Face、Head of Product、Jeff Boudier 氏
  • Lightning AI

    PyTorch Lightning と Lightning Studios の開発元である Lightning AI は、エンタープライズグレードの AI 向けの最も直感的なオールインワン AI 開発プラットフォームを提供しています。Lightning には、エージェント、AI アプリケーション、生成 AI ソリューションを迅速に構築するためのフルコード、ローコード、ノーコードのツールが用意されています。柔軟性を重視して設計されており、300 万人以上の強力なデベロッパーコミュニティの専門知識とサポートを活用して、お客様のクラウドでも当社のクラウドでもシームレスに実行できます。

    Lightning は現在、AWS AI チップ、Trainium、Inferentia をネイティブでサポートしています。これらは Lightning Studios と PyTorch Lightning、Fabric、LitServe などのオープンソースツールに統合されています。これにより、ユーザーはシームレスに事前トレーニング、ファインチューニング、大規模デプロイが可能になり、切り替えのオーバーヘッドなしでコスト、可用性、パフォーマンスを最適化できます。また、最新世代の Trainium2 チップを含む AWS AI チップのパフォーマンスとコスト上のメリットにより、低コストでより高いパフォーマンスを発揮できます。

    Lightning AI、CTO、Luca Antiga 氏
  • Domino Data Lab

    Domino は、環境全体で AWS 上のインフラストラクチャ、データ、サービスなど、すべてのデータサイエンスのアーティファクトをオーケストレートし、ガバナンスとコラボレーション機能で Amazon SageMaker を補完して、企業のデータサイエンスチームをサポートしています。Domino は、AWS Marketplace を介して SaaS またはセルフマネージドとして利用できます。

    先駆的な企業は、技術的な複雑さ、コスト、ガバナンスのバランスを取り、競争上の優位性を維持するために広範な AI オプションを習得する必要があります。Domino では、最先端のテクノロジーへのアクセスをお客様に提供することに注力しています。コンピューティングが非常に画期的なイノベーションのボトルネックとなっている中、当社は、お客様がより高いパフォーマンス、より低いコスト、より優れたエネルギー効率でモデルをトレーニングおよびデプロイできるよう、Trainium2 へのアクセスをお客様に提供できることを誇りに思っています。

    Domino Data Lab、CEO 兼共同創業者、Nick Elprin 氏

開始方法

SageMaker による Trn2 インスタンスのサポートは、まもなく開始される予定です。Amazon SageMaker HyperPod を使用すると、Trn2 インスタンスでモデルのトレーニングを簡単に行うことができます。Amazon SageMaker HyperPod は、回復力のあるコンピューティングクラスター、最適化されたトレーニングパフォーマンス、および基盤となるコンピューティング、ネットワーク、メモリリソースの効率的な利用を実現します。また、SageMaker を使用して Trn2 インスタンスへのモデルデプロイをスケールし、本番環境でより効率的にモデルを管理し、運用上の負担を軽減することもできます。

AWS Deep Learning AMI (DLAMI) では、深層学習 (DL) の専門家と研究者にあらゆる規模の AWS での DL を加速させるためのインフラストラクチャとツールを提供しています。AWS Neuron ドライバーは、DLAMI にあらかじめ設定されており、Trn2 インスタンスで DL モデルを最適にトレーニングすることができます。

Trn2 インスタンスの Deep Learning Containers サポートが間もなく開始されます。このようなコンテナを使用して、フルマネージド Kubernetes サービスである Amazon Elastic Kubernetes Service (Amazon EKS) と、フルマネージドコンテナオーケストレーションサービスである Amazon Elastic Container Service (Amazon ECS) で Trn2 インスタンスをデプロイできるようになりました。また、Neuron は AWS Deep Learning Containers に事前インストールされており、使用可能です。Trn2 インスタンスでのコンテナ実行の詳細については、Neuron Containers チュートリアルを参照してください。

製品の詳細

インスタンスサイズ EC2 UltraServers で利用可能 Trainium2 チップ アクセラレーター
メモリ

vCPU メモリ
(TB)
インスタンスストレージ (TB) ネットワーク帯域幅 (Tbps) EBS 帯域幅 (Gbps)
trn2.48xlarge 16 1.5 TB 192 2 TB 4 x 1.92 NVMe SSD 3.2 80
trn2u.48xlarge (プレビュー) 16 1.5 TB 192 2 TB 4 x 1.92 NVMe SSD 3.2 80