Project Ceiba

世界でも極めて高速な AI スーパーコンピュータをクラウド上に構築

世界でも極めて高速な AI スーパーコンピュータをクラウド上に構築

AWS と NVIDIA の画期的なコラボレーションである Project Ceiba は、世界でも極めて高速な AI スーパーコンピュータをクラウド上に構築することで、AI の限界を押し広げようとしています。専ら AWS でホストされるこの最先端のスーパーコンピュータは、NVIDIA の AI 分野における研究開発の取り組みを支えます。

最先端のイノベーションを推進

NVIDIA の研究開発チームは、Project Ceiba の強力なパワーを活用して、大規模言語モデル (LLM)、グラフィックス (画像、動画、3D 生成)、シミュレーション、デジタル生物学、ロボット工学、自律走行車、NVIDIA Earth-2 による気候予測など、幅広い最先端分野の進歩を推進します。この画期的なイニシアティブは、生成 AI を進歩させる NVIDIA の取り組みを推し進め、さまざまな分野にわたる人工知能とそのアプリケーションの未来を形作ります。

設計パターン

スケーラブルな AI インフラストラクチャ

Project Ceiba は、NVIDIA DGX Cloud アーキテクチャを通じて利用できます。DGX Cloud は、デベロッパーのためのエンドツーエンドのスケーラブルな AI プラットフォームです。最新の NVIDIA アーキテクチャ上に構築され、あらゆるレイヤーで AWS と共同設計されたスケーラブルなキャパシティを提供します。DGX Cloud は今年後半に AWS で利用可能になり、AWS は GB200 を搭載した NVIDIA Blackwell アーキテクチャベースの DGX Cloud を提供する最初のクラウドサービスプロバイダーになります。Project Ceiba は、AWS の専用 AI インフラストラクチャ上に構築され、この規模のスーパーコンピュータに必要となる膨大なスケール、強化されたセキュリティ、比類のないパフォーマンスを実現するように設計されています。

設計パターン

処理された AI のエクサフロップス (現在世界最速のスーパーコンピュータである Frontier の約 375 倍の性能)

スーパーチップあたり。超高速のデータ転送と処理を実現

NVIDIA Blackwell GPU の個数 (この種で初のスーパーコンピュータ)

特徴

この共同プロジェクトにより、業界を定義するいくつかのマイルストーンが確立されました:
Project Ceiba の設定には、20,736 個の NVIDIA GB200 Grace Blackwell スーパーチップが含まれています。この種では初のスーパーコンピュータは、NVIDIA の最新の GB200 NVL72 を使用して構築されています。これは、第 5 世代の NVLink を備えた液冷式のラックスケールシステムで、10,368 個の NVIDIA Grace CPU に接続された 20,736 個の Blackwell GPU までスケールします。このスーパーコンピュータは、414 エクサフロップスの膨大な AI を処理できます。これは、現在世界最速のスーパーコンピュータである Frontier の約 375 倍の性能です。世界中の現在のスーパーコンピューティング性能をすべて統合しても、414 エクサフロップスで表されるコンピューティング性能の 1% にも達しません。これをわかりやすく説明すると、世界で最も先進的なノートパソコン 60 億台超を連携して動作させるのに相当します。これをさらに詳しく見ると、地球上のすべての人間が 1 秒間に 1 回の計算を実行した場合、Project Ceiba がわずか 1 秒で達成できる処理をこれらの人間が実行するには、1,660 年を超える期間がかかります。

Project Ceiba は、第 4 世代の AWS Elastic Fabric Adapter (EFA) ネットワークによって実現される大規模なスケールアウト機能を活用した最初のシステムであり、スーパーチップあたり前例のない 1,600 Gbps の低レイテンシーと、高帯域幅のネットワークスループットを提供し、超高速のデータ転送と処理を可能にします。 

液体冷却は何年も前から存在しています。ゲーマーは、個人で使用するゲーム用コンピュータでこれを用いるでしょう。これは新しいテクノロジーではありませんが、AWS は Project Ceiba 以前より、コスト効率の観点から、液体冷却ではなく空冷を意図的に選択してきました。電力密度の課題に対処し、Project Ceiba でこの比類のないコンピューティング性能を実現するために、AWS はより効率的で持続可能な高性能コンピューティングソリューションを実現することを目的として、データセンターでの液体冷却の使用を大規模に開拓しました。

Project Ceiba には、極めて機密性の高い AI データさえも保護するように設計された業界最先端のセキュリティ機能が組み込まれます。AWS Nitro System および EFA テクノロジーと統合された GPU 間の安全な通信を提供する NVIDIA の Blackwell GPU アーキテクチャにより、生成 AI ワークロードのための安全なエンドツーエンドの暗号化データを実現できます。この共同ソリューションは、インフラストラクチャオペレーターからの完全な分離を維持したまま、機密 AI データを復号して GPU にロードします。これらすべては、データの処理に使用されるアプリケーションの信頼性を検証しながら実行されます。Nitro System を使用すると、お客様はアプリケーションを AWS Key Management System (KMS) に対して暗号的に検証し、必要なチェックに合格した場合にのみデータを復号できるため、生成 AI ワークロードを通過するデータを確実にエンドツーエンドで暗号化できます。詳細については、このブログをお読みいただき、セキュア AI のウェブページにアクセスしてください。