Amazon FSx for Lustre のお客様
-
Adobe
Adobe は、世界を変える革新的な製品を生み出すというシンプルなアイデアに基づいて 40 年前に設立されました。Adobe は、あらゆる場所で、誰でも、あらゆるデジタルエクスペリエンスを想像、創造、実現できるようにする画期的なテクノロジーを提供しています。
課題: Adobe は、オープンソースモデルに頼るのではなく、クリエイティブなユースケースに合わせてカスタマイズされた独自の基盤生成 AI モデルをトレーニングすることにしました。
ソリューション: Adobe は、モデルのイテレーションを迅速に実行するための AI トレーニングプラットフォームとデータパイプラインを構築することを目的として、AWS 上に AI Superhighway を作成しました。Adobe は、NVIDIA GPU を搭載し、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Block Store (Amazon EBS)、および Amazon Elastic Fabric Adapter (EFA) を利用する、Amazon Elastic Compute Cloud (Amazon EC2) P5 および P4d インスタンスを使用してソリューションを構築しました。Adobe はまた、膨大な量のデータのためのデータレイクおよびプライマリリポジトリとして、Amazon Simple Storage Service (Amazon S3) を利用しました。Adobe は、データへの高速アクセスを実現し、GPU リソースがアイドル状態にならないようにするために、Amazon FSx for Lustre の高性能ファイルストレージを利用しました。
-
LG AI Research
LG AI Research LG AI Research は、世界をリードする AI のエキスパートとともに、最適な研究環境を提供して、最先端の AI テクノロジーを活用することで、AI の次の時代の先頭に立ち、お客様とともに明るい未来を実現することを目指しています。
課題: LG AI Research は、その基盤モデルである EXAONE を 1 年以内に本番環境にデプロイする必要がありました。EXAONE は「expert AI for everyone」(あらゆる人々のためのエキスパート AI) を意味しており、画像とテキストデータの両方を利用する 3,000 億個のパラメータを備えたマルチモーダルモデルです。
ソリューション: LG AI Research は、大規模な基盤モデルをトレーニングするために Amazon SageMaker を利用するとともに、データをインスタンスに分散してモデルのトレーニングを加速するために Amazon FSx for Lustre を利用しました。LG AI Research は、その基盤モデルである EXAONE を 1 年以内に本番環境にデプロイする必要がありました。LG AI Research は 1 年以内に EXAONE を成功裏にデプロイし、個別のインフラストラクチャ管理チームの必要性をなくすことで、コストを約 35% 削減しました。
-
Paige
Paige は、がん診断に効率と信頼性をもたらす本格的な AI 対応のウェブベースソリューションを提供する、先駆的なデジタルパソロジートランスフォーメーションプロバイダーです。
課題: Paige のオンプレミスソリューションは限界を迎えていました。同社の目標は、がんの病理診断を支援する AI および ML モデルをトレーニングすることでした。Paige は、コンピューティングキャパシティが多いほど、より迅速にモデルをトレーニングして診断上の問題の解決をサポートできることに気付きました。
ソリューション: ML トレーニングワークロードを実行するために、Paige は、NVIDIA A100 Tensor Core GPU を搭載した Amazon EC2 P4d インスタンスを選択しました。これは、クラウドでの ML トレーニングと HPC アプリケーションのために高いパフォーマンスを提供します。Paige は、人気のある高性能ファイルシステム上に構築されたフルマネージド共有ストレージである Amazon FSx for Lustre を利用しています。同社はこのサービスを Amazon S3 バケットの一部と接続しました。これは、開発チームが高性能ファイルシステム上にデータを手動で事前にロードすることなく、ペタバイト規模の ML 入力データに対処するのに役立ちます。AWS ソリューションを利用した結果、Paige は、ML のために AWS インフラストラクチャを利用して、オンプレミスデータの 10 倍の量をトレーニングできるようになりました。 また、Paige は、Amazon EC2 と Amazon FSx for Lustre を利用して、社内ワークフローを 72% 高速化することができました。
-
Toyota
Toyota Research Institute は、オブジェクト認識機械学習のトレーニング時間を短縮するために、FSx for Lustre を採用することにしました。
Toyota Research Institute (TRI) は、自動運転車 (AV) のテスト運転から大量のセンサーデータを収集して処理しています。各トレーニングデータセットは、オンプレミスの NAS デバイスにステージングされ、強力な GPU コンピューティングクラスターで処理される前に、Amazon Simple Storage Service (Amazon S3) に転送されます。TRI は、同社のコンピューティングリソースと組み合わせ、ML モデルのトレーニングを高速化し、データサイエンティストがより迅速にインサイトを得ることができるようにするために、高性能ファイルシステムを必要としていました。
-
Shell
Shell は、石油、ガス、石油化学製品から、風力、太陽光、水素に至るまで、さまざまなエネルギーの動的なポートフォリオを提供しています。Shell は、顧客の生活に必要なエネルギーを誇りをもって供給しています。
課題: Shell は、モデルの構築、テスト、検証のために HPC に依拠しています。2020 年から 2022 年にかけて、GPU 利用率は平均 90% 未満となり、その結果として、プロジェクトが遅延し、新しいアルゴリズムの実験が制限されました。
ソリューション: Shell は、Amazon EC2 クラスターと Amazon FSx for Lustre を利用してクラウドにバーストすることで、オンプレミスのコンピューティングキャパシティを強化します。このソリューションにより、Shell は迅速にスケールアップおよびスケールダウンし、必要な場合にのみ、追加のコンピューティングキャパシティを購入できるようになります。Shell の GPU が最大限に活用されるようになったため、コンピューティングのコストが削減され、機械学習モデルのテストが高速化されています。
-
Storengy
ENGIE Group の子会社である Storengy は、天然ガスの大手サプライヤーです。同社は、ガス貯蔵、地熱ソリューション、カーボンフリーエネルギー生産、貯蔵テクノロジーを世界中の企業に提供しています。
製品が適切に保管されているようにするため、Storengy はハイテクシミュレーターを利用して地下のガス貯蔵を評価します。これは、ハイパフォーマンスコンピューティング (HPC) ワークロードの広範な利用を必要とするプロセスです。同社はまた、HPC テクノロジーを利用して、天然ガスの発見と探査を実行しています。
-
Smartronix
Smartronix は FSx for Lustre を活用して、SAS Grid のデプロイ用に、信頼性の高いハイパフォーマンスを実現しています。
Smartronix は、クラウドソリューション、サイバーセキュリティ、システム統合、世界規模の C5ISR とデータ分析、およびミッションに焦点を当てたエンジニアリングを、世界をリードする多くの商業組織や連邦組織に提供しています。Smartronix は、SAS Grid を利用して州全体の新型コロナウイルスの日次統計を分析および提供していましたが、セルフマネージド並列ファイルシステムの管理と保護が困難であることがわかりました。
-
Netflix
Netflix は、受賞歴のあるさまざまなテレビ番組、映画、アニメ、ドキュメンタリーなどを提供するストリーミングサービスです。
課題: Netflix は、メディア用 ML モデル、ポストプロダクションのサムネイル、VFX、数千の動画や数百万のクリップのトレーラーの生成に大規模な分散トレーニングを利用しています。Netflix では、ノード間レプリケーションと 40% の GPU アイドル時間により、長い待ち時間が発生していました。
ソリューション: Netflix はデータロードパイプラインを再設計し、すべての動画/音声クリップを事前に計算することで効率を高めました。Netflix はまた、コンピューティングパフォーマンスを高速化するために、Amazon UltraClusters (EC2 P4d インスタンス) を選択しました。Amazon FSx for Lustre のパフォーマンスにより、Netflix は GPU を最大限に活用し、GPU のアイドル時間を実質的になくすことができます。Netflix は、事前計算と FSx for Lustre を利用して 3~4 倍の改善を実現し、モデルのトレーニング時間を 1 週間から 1~2 日に短縮できました。
-
Hyundai
Hyundai Motor Company は、自社ブランドの車両を 200 を超える国々に輸出する、世界的に高い認知度を誇る自動車メーカーとして成長しました。
課題: 自動運転でよく利用されるアルゴリズムの 1 つに、セマンティックセグメンテーションがあります。これは、画像のすべてのピクセルにオブジェクトクラスの注釈を付けるタスクです。これらのクラスとしては、道路、人、車、建物、植生、空などが考えられます。Hyundai は精度をテストし、特定の状況における不十分な予測パフォーマンスを修正するために追加の画像を収集します。しかし、これは困難な可能性があります。なぜなら、モデルのトレーニングと予定期限の遵守のために時間に余裕を確保しながら、すべての新しいデータを準備するのに十分な時間を設けることができないことが多いからです。
ソリューション: Hyundai は、単一 GPU から分散トレーニングに移行することを目的として、モデルトレーニングを自動化するために Amazon SageMaker を選択するとともに、データの並列処理のために Amazon SageMaker ライブラリを選択しました。データのコピーを待つことなくモデルをトレーニングするために、Amazon FSx for Lustre を選択しました。また、永続的なデータストレージとして Amazon S3 を選択しました。Hyundai は、8 個の GPU インスタンス (または合計 64 個の GPU) で最大 93% のスケーリング効率を達成しました。FSx for Lustre を利用することで、Hyundai は待ち時間なしで、同じデータに対して複数のトレーニングジョブと実験を実行できるようになりました。
-
Rivian
Rivian は、世界が永遠に冒険的な場所であり続けるようにすることを使命としています。当社は、より高い責任感をもって世界を探索する方法があると信じており、持続可能な輸送への移行をエキサイティングなものにすることを決意しています。
電気自動車メーカーの Rivian は、短期化するエンジニアリングのスケジュールに対応し、物理的なプロトタイプの必要性を減らすために、高度なモデリングとシミュレーションの手法を採用しています。高いコンピューティング性能を活用してシミュレーションを使用することによって、エンジニアは新しいコンセプトをテストし、設計を迅速に市場に投入できます。
-
DENSO
デンソーは、駐車や車線変更などの機能でドライバーを支援する先進運転支援システム (ADAS) 用のイメージセンサーを開発しています。
課題: ADAS 画像認識に必要な ML モデルを開発するために、デンソーは、オンプレミス環境で GPU クラスターを構築しました。しかし、複数の ML エンジニアが限られた GPU リソースを共有していたため、特に新製品のリリース前の繁忙期には生産性に影響が生じました。
ソリューション: Amazon SageMaker と Amazon FSx for Lustre を採用することで、デンソーは、データ取得、モデル開発、学習、評価にかかる時間を短縮し、ADAS 画像認識モデルの作成を加速することができました。
-
Joby Aviation
Joby Aviation は AWS を利用して輸送に革命を起こしています。
課題: Joby のエンジニアは、ハイパフォーマンスコンピューティング (HPC) を利用して、それぞれ数百の CPU コアを使用する複雑でコンピューティングを多用する数値流体力学 (CFD) シミュレーションを何千回も実行しており、完了するまでに何時間もかかることがあります。
ソリューション: Amazon Elastic Compute Cloud (Amazon EC2) と Amazon FSx for Lustre を利用することで、Joby はオンプレミスの高性能コンピューティングインフラストラクチャと比較して CFD ワークロードからより迅速に結果を得ることができました。
-
T-Mobile
T-Mobile は、Amazon FSx for Lustre を利用することで、年間 150 万 USD のコスト削減を実現し、SAS Grid ワークロードの速度を 2 倍にしました。
課題: T-Mobile は、自社のセルフマネージド SAS Grid ワークロードで、高い管理オーバーヘッドとパフォーマンスの問題に直面していました。
ソリューション: T-Mobile は、自社の SAS Grid インフラストラクチャを移行およびスケールするために、フルマネージド型の高性能ファイルシステムである Amazon FSx for Lustre をデプロイしました。T-Mobile は、Amazon FSx と S3 の緊密な統合を利用して、ストレージのオーバーヘッドを削減し、オペレーションを最適化しました。
-
Netflix
Netflix のエピソードドラマ『ザ・クラウン』のシーズン 4 の制作は思いがけない困難に直面しました。制作後の VFX 作業の開始が予定されていたちょうどその頃、新型コロナウイルス (COVID-19) によるパンデミックで世界がロックダウンに入ってしまったのです。強化されたスループットを実現するための Amazon FSx Lustre ファイルサーバーを含め、AWS でクラウドベースのワークフローを採用することで、10 名のアーティストで構成される Netflix の社内 VFX チームは、同シーズンの 10 のエピソードの、600 を超える VFX ショットをシームレスに完了することができました。期間はわずか 8 か月、すべてリモート勤務体制で行われました。
-
Maxar
Maxar が AWS を利用して気象スーパーコンピュータよりも 58% 速く予測を提供。
課題: 地球インテリジェンスと宇宙インフラストラクチャの分野において、信頼されるパートナーでありイノベーターでもある Maxar Technologies は、オンプレミスのスーパーコンピュータよりも迅速に天気予報を提供する必要がありました。
ソリューション: Maxar は AWS と協力して、Amazon Elastic Compute Cloud (Amazon EC2) (安全で信頼性の高いコンピューティングリソース用)、Amazon FSx for Lustre (アプリケーションの読み取り/書き込みスループットを高速化するため)、AWS ParallelCluster (AWS 上で HPC コンピューティング環境を迅速に構築するため) などの主要テクノロジーを備えた HPC ソリューションを作成しました。
-
INEOS TEAM UK
INEOS TEAM UK は、AWS を利用してアメリカズカップのヨット設計を加速しています。
課題: 2018 年に結成された INEOS TEAM UK は、世界最古の国際的なスポーツトロフィーであるアメリカズカップを英国が獲得することを目指しています。アメリカズカップでは、イベントの 150 日前まで水上テストを行うことができないため、勝利を収めるヨットを設計する上で、モノハルとフォイリングの高性能数値流体力学 (CFD) シミュレーションが鍵となります。
ソリューション: INEOS TEAM UK では、アメリカズカップのヨットの数千の設計シミュレーションのためにオンプレミス環境では 1 か月以上かけていたのが、AWS を利用することで 1 週間で処理できるようになりました。INEOS TEAM UK は、2021 年の第 36 回アメリカズカップに出場しました。チームは Amazon EC2 スポットインスタンスで実行されている HPC 環境を利用しています。 毎週実行される数千のシミュレーションで高速ディスクパフォーマンスを実現するために、チームは Amazon FSx for Lustre を利用して、Amazon Simple Storage Service (S3) に基づく高速かつスケーラブルで安全な高性能ファイルシステムを利用しました。
-
Hive VFX
Hive VFX は、スタジオの初期費用を削減し、AWS 上でクラウド VFX スタジオとして運営されています。
課題: Hive は、世界中のリモートアーティストが良質なコンテンツを生み出せるよう、小規模で独立したクラウドスタジオを立ち上げるために、高性能なインフラストラクチャを必要としていました。
ソリューション: Amazon S3 と統合されたフルマネージド Amazon FSx for Lustre を利用することで、多額の先行投資や専門性の高い社内 IT チームなしで、AWS のコンピューティングリソースに迅速にアクセスできるようになりました。FSx Lustre と S3 間のファイルデータとファイル許可のシームレスな同期により、Hive VFX は大量の画像を保存し、大陸を越えてプロジェクトデータを共有できるようになりました。
-
Lyell
Lyell は、Amazon FSx for Lustre を利用して、細胞ベースのがん治療研究を加速しています。
課題: Lyell は、タンパク質の大規模な計算設計を実行する必要がある、根治的な細胞ベースのがん治療を提供します。これらのワークロードは従来、オンプレミスで実行されていましたが、同社では 1 か月に 1 回の実験しか実行できないため、よりスケーラブルで費用対効果の高いソリューションを必要としていました。
ソリューション: ファイルシステムを FSx for Lustre に移行したことで、データサイエンティストは EC2 インスタンスと Amazon FSx ファイルシステムで構成される何千もの HPC クラスターをスピンアップおよびスピンダウンできるようになりました。これにより、処理量の多い実験を迅速に実行でき、ワークロードの期間中のみ、コンピューティングとストレージの料金を支払うようにすることができました。
-
BlackThorn Therapeutics
BlackThorn Therapeutics は、FSx for Lustre を利用してインサイトを得るまでの時間を短縮しています。
課題: 標準的な DiY クラウドファイルシステムを使用して磁気共鳴画像 (MRI) データを処理するには、大量のリソースと時間が必要でした。BlackThorn は、データサイエンスと機械学習のワークフローを簡素化するために、多くのコンピューティングを活用する共有ファイルストレージソリューションを必要としていました。
ソリューション: Amazon FSx for Lustre は Amazon S3 と Amazon SageMaker と統合されるため、ML トレーニングデータセットの処理が高速化されるほか、Amazon EC2 インスタンスを利用したコンピューティングへのシームレスなアクセスを可能にします。
-
Qubole
Qubole は、Amazon FSx for Lustre を利用してコストを削減しつつ、データの耐久性を向上させます。
課題: Qubole は、顧客のために分析および AI/ML ワークロードを処理するための高性能ストレージソリューションを求めていました。EC2 スポットフリートに保存されている中間データを簡単に保存して処理する必要がありました。
ソリューション: Qubole は Amazon FSx for Lustre を利用して、並列高速ファイルシステムを通じて中間データを保存および処理しました。