Kunden von Amazon FSx für Lustre
-
Adobe
Adobe wurde vor 40 Jahren mit der einfachen Idee gegründet, innovative Produkte zu entwickeln, die die Welt verändern. Adobe bietet bahnbrechende Technologien, die es jedem überall ermöglichen, sich digitale Erlebnisse vorzustellen, zu schaffen und zum Leben zu erwecken.
Herausforderung: Anstatt sich auf Open-Source-Modelle zu verlassen, hat Adobe beschlossen, seine eigenen grundlegenden generativen KI-Modelle zu trainieren, die auf kreative Anwendungsfälle zugeschnitten sind.
Lösung: Adobe hat in AWS eine KI-Superautobahn eingerichtet, um eine KI-Trainingsplattform und Daten-Pipelines für die schnelle Iteration von Modellen zu erstellen. Adobe hat seine Lösung mit Instances von Amazon Elastic Compute Cloud (Amazon EC2) P5 und P4d entwickelt, die von NVIDIA-GPUs, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Block Store (Amazon EBS) und Amazon Elastic Fabric Adapter (EFA) betrieben werden. Adobe nutzte auch Amazon Simple Storage Service (Amazon S3) als Data Lake und primäres Repository für die großen Datenmengen. Adobe nutzte die Hochleistungsdateispeicherung Amazon FSx Lustre, um einen schnellen Zugriff auf Daten zu ermöglichen und sicherzustellen, dass GPU-Ressourcen niemals ungenutzt bleiben.
-
LG AI Research
LG AI Research Gemeinsam mit weltweit führenden KI-Experten möchte LG AI Research die nächste Ära der KI anführen, um gemeinsam mit Ihnen die vielversprechende Zukunft zu verwirklichen, indem wir ein optimales Forschungsumfeld bieten und modernste KI-Technologien nutzen.
Herausforderung: LG AI Research musste sein Basismodell, EXAONE, innerhalb eines Jahres in der Produktion einsetzen. EXAONE, die Abkürzung für „Expert AI for Everyone“, ist ein multimodales Modell mit 300 Milliarden Parametern, das sowohl Bilder als auch Textdaten verwendet.
Lösung: LG AI Research nutzte Amazon SageMaker, um sein umfangreiches Foundation-Modell zu trainieren, und Amazon FSx für Lustre, um Daten auf Instances zu verteilen, um das Modelltraining zu beschleunigen. LG AI Research musste sein Basismodell, EXAONE, innerhalb eines Jahres in der Produktion einsetzen. LG AI Research hat EXAONE innerhalb eines Jahres erfolgreich eingeführt und die Kosten um rund 35 Prozent gesenkt, da kein separates Infrastrukturmanagementteam mehr erforderlich war.
-
Paige
Paige ist der führende Anbieter für die Transformation digitaler Pathologie und bietet eine umfassende, KI-fähige, webbasierte Lösung, die die Krebsdiagnose effizient und zuverlässig macht.
Herausforderung: Die On-Premises-Lösungen von Paige waren voll ausgeschöpft. Ihr Ziel war es, KI- und ML-Modelle zu trainieren, um bei der Krebserkrankung zu helfen. Paige entdeckte, dass sie ihre Modelle umso schneller trainieren und diagnostische Probleme lösen können, je mehr Rechenkapazität sie haben.
Lösung: Für die Ausführung ihrer ML-Training-Workloads entschied sich Paige für Amazon-EC2-P4d-Instances, die auf NVIDIA A100-Tensor-Core-GPUs basieren und eine hohe Leistung für ML-Trainings- und HPC-Anwendungen in der Cloud bieten. Paige verwendet Amazon FSx für Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf einem beliebten Hochleistungsdateisystem basiert. Das Unternehmen hat diesen Service mit einigen seiner Amazon-S3-Buckets verbunden, sodass seine Entwicklungsteams Petabyte an ML-Eingabedaten verarbeiten können, ohne Daten manuell auf Hochleistungsdateisystemen vorab bereitstellen zu müssen. Das Ergebnis der AWS-Lösung ist, dass Paige mithilfe der AWS-Infrastruktur für ML die zehnfache Menge an On-Premises-Daten trainieren kann. Paige erlebte außerdem 72 % schnellere interne Workflows mit Amazon EC2 und Amazon FSx für Lustre.
-
Toyota
Das Toyota Research Institute entscheidet sich für FSx für Lustre, um die Trainingszeiten für Machine Learning bei der Objekterkennung zu verkürzen.
Das Toyota Research Institute (TRI) sammelt und verarbeitet große Mengen an Sensordaten aus seinen Testfahrten mit autonomen Fahrzeugen (AV). Jeder Trainingsdatensatz wird auf einem On-Premises-NAS-Gerät gespeichert und an Amazon Simple Storage Service (Amazon S3) übertragen, bevor er auf einem leistungsstarken GPU-Compute-Cluster verarbeitet wird. TRI benötigte ein leistungsstarkes Dateisystem, um seine Rechenressourcen zu kombinieren, das ML-Modelltraining zu beschleunigen und die Erkenntnisse für seine Datenwissenschaftler zu beschleunigen.
-
Shell
Shell bietet ein dynamisches Portfolio an Energieoptionen – von Öl, Gas und Petrochemikalien bis hin zu Wind, Sonne und Wasserstoff – Shell ist stolz darauf, seinen Kunden die Energie zu liefern, die sie für ihr Leben benötigen.
Herausforderung: Shell setzt bei der Modellerstellung, beim Testen und bei der Validierung auf HPC. Von 2020 bis 2022 lag die GPU-Auslastung im Durchschnitt bei weniger als 90 %, was zu Projektverzögerungen und Einschränkungen bei der Erprobung neuer Algorithmen führte.
Lösung: Shell erweitert seine Rechenkapazität On-Premises, indem es mit Amazon-EC2-Clustern und Amazon FSx für Lustre in die Cloud geht. Diese Lösung gibt Shell die Möglichkeit, schnell nach oben und unten zu skalieren und zusätzliche Rechenkapazität nur dann zu erwerben, wenn sie benötigt wird. Die GPUs von Shell sind jetzt voll ausgelastet, was die Rechenkosten senkt und das Testen von Modellen für Machine Learning beschleunigt.
-
Storengy
Storengy, eine Tochtergesellschaft der ENGIE Group, ist ein führender Erdgaslieferant. Das Unternehmen bietet Gasspeicher, geothermische Lösungen, kohlenstofffreie Energieerzeugung und Speichertechnologien für Unternehmen auf der ganzen Welt an.
Um sicherzustellen, dass seine Produkte ordnungsgemäß gelagert werden, verwendet Storengy Hightech-Simulatoren zur Bewertung der unterirdischen Gasspeicherung. Dieser Prozess erfordert den umfassenden Einsatz von Hochleistungsrechnern (HPC). Das Unternehmen verwendet die HPC-Technologie auch für die Entdeckung und Exploration von Erdgas.
-
Smartronix
Smartronix nutzt FSx für Lustre, um eine zuverlässige Hochleistung für ihre SAS-Grid-Implementierungen bereitzustellen.
Smartronix bietet Cloud-Lösungen, Cybersicherheit, Systemintegration, weltweites C5ISR und Datenanalyse sowie missionsorientiertes Engineering für viele der weltweit führenden Handels- und Bundesorganisationen. Smartronix verließ sich bei der Analyse und Bereitstellung der landesweiten täglichen COVID-Statistiken auf SAS Grid und stellte fest, dass das selbstverwaltete, parallele Dateisystem schwierig zu verwalten und zu schützen war.
-
Netflix
Netflix ist ein Streaming-Service, der eine Vielzahl preisgekrönter Fernsehsendungen, Filme, Anime, Dokumentarfilme und mehr bietet.
Herausforderung: Netflix verwendet groß angelegte, verteilte Schulungen für Medien-ML-Modelle, für Miniaturansichten nach der Produktion, visuelle Effekte und die Generierung von Trailern für Tausende von Videos und Millionen von Clips. Bei Netflix gab es aufgrund der knotenübergreifenden Replikation und einer GPU-Leerlaufzeit von 40 % lange Wartezeiten.
Lösung: Netflix hat seine Pipeline zum Laden von Daten neu gestaltet und ihre Effizienz verbessert, indem alle Video-/Audioclips vorab berechnet wurden. Netflix entschied sich auch für Amazon UltraClusters (EC2-P4d-Instances), um die Rechenleistung zu beschleunigen. Die Leistung von Amazon FSx für Lustre ermöglicht es Netflix, GPUs zu überlasten und GPU-Leerlaufzeiten praktisch zu eliminieren. Netflix verzeichnet mit Pre-Compute und FSx für Lustre jetzt eine Verbesserung um das Drei- bis Vierfache, wodurch die Trainingszeit der Modelle von einer Woche auf 1-2 Tage reduziert wird.
-
Hyundai
Die Hyundai Motor Company hat sich zu einem weltweit anerkannten Automobilhersteller entwickelt, der seine Markenfahrzeuge in über 200 Länder exportiert.
Herausforderung: Einer der Algorithmen, die beim autonomen Fahren häufig verwendet werden, ist die semantische Segmentierung. Dabei handelt es sich um eine Aufgabe, bei der jedes Pixel eines Bildes mit einer Objektklasse annotiert wird. Diese Klassen können Straße, Person, Auto, Gebäude, Vegetation, Himmel usw. sein. Hyundai testet die Genauigkeit und sammelt zusätzliche Bilder, um die unzureichende Vorhersageleistung in bestimmten Situationen zu korrigieren. Dies kann jedoch eine Herausforderung sein, da oft nicht genügend Zeit zur Verfügung steht, um alle neuen Daten vorzubereiten und gleichzeitig genügend Zeit zu haben, um das Modell zu trainieren und die geplanten Termine einzuhalten.
Lösung: Hyundai entschied sich für Amazon SageMaker zur Automatisierung des Modelltrainings und für die Amazon-SageMaker-Bibliothek für Datenparallelität, um von einer einzelnen GPU zu verteiltem Training überzugehen. Sie entschieden sich für Amazon FSx für Lustre, um Modelle zu trainieren, ohne auf Datenkopien warten zu müssen. Sie entschieden sich auch für Amazon S3 für ihren dauerhaften Datenspeicher. Hyundai erreichte mit 8 GPU-Instances oder insgesamt 64 GPUs eine Skalierungseffizienz von bis zu 93 %. FSx für Lustre ermöglichte es Hyundai, mehrere Trainingsjobs und Experimente mit denselben Daten ohne Wartezeit durchzuführen.
-
Rivian
Rivian hat es sich zur Aufgabe gemacht, die Welt für immer abenteuerlich zu machen. Wir glauben, dass es eine verantwortungsvollere Art gibt, die Welt zu erkunden, und sind entschlossen, den Übergang zu einem nachhaltigen Verkehr aufregend zu gestalten.
Der Elektrofahrzeughersteller Rivian setzt auf fortschrittliche Modellierungs- und Simulationstechniken, um beschleunigte Entwicklungszeitpläne einzuhalten und den Bedarf an physischen Prototypen zu verringern. Mithilfe von Simulationen mit hoher Rechenkapazität können Ingenieure neue Konzepte testen und ihre Entwürfe schnell auf den Markt bringen.
-
DENSO
Denso entwickelt Bildsensoren für fortschrittliche Fahrerassistenzsysteme (ADAS), die Fahrer bei Funktionen wie Parken und Spurwechseln unterstützen.
Herausforderung: Um die erforderlichen ML-Modelle für die ADAS-Bilderkennung zu entwickeln, hatte DENSO GPU-Cluster in seiner On-Premises-Umgebung aufgebaut. Allerdings teilten sich mehrere ML-Techniker begrenzte GPU-Ressourcen, was sich negativ auf die Produktivität auswirkte – insbesondere in der geschäftigen Zeit vor der Veröffentlichung eines neuen Produkts.
Lösung: Durch die Einführung von Amazon SageMaker und Amazon FSx für Lustre konnte Denso die Erstellung von ADAS-Bilderkennungsmodellen beschleunigen, indem die Zeit für Datenerfassung, Modellentwicklung, Lernen und Evaluierung reduziert wurde.
-
Joby Aviation
Joby Aviation nutzt AWS, um den Transport zu revolutionieren.
Herausforderung: Die Ingenieure von Joby verlassen sich auf High Performance Computing (HPC), um Tausende komplexer, rechenintensiver CFD-Simulationen (Computational Fluid Dynamics) durchzuführen, die jeweils Hunderte von CPU-Kernen verwenden und deren Durchführung viele Stunden dauern kann.
Lösung: Durch die Verwendung von Amazon Elastic Compute Cloud (Amazon EC2) und Amazon FSx für Lustre konnte Joby im Vergleich zu einer On-Premises-Hochleistungsrecheninfrastruktur schnellere Ergebnisse mit seinen CFD-Workloads erzielen.
-
T-Mobile
T-Mobile erzielt jährliche Einsparungen in Höhe von 1,5 Mio. USD und verdoppelt die Geschwindigkeit von SAS-Grid-Workloads mithilfe von Amazon FSx für Lustre.
Herausforderung: T-Mobile hatte mit seinem selbst verwalteten SAS-Grid-Workload einen hohen Verwaltungsaufwand und Leistungsprobleme.
Lösung: T-Mobile implementierte Amazon FSx für Lustre, ein vollständig verwaltetes Hochleistungsdateisystem, für die Migration und Skalierung seiner SAS-Grid-Infrastruktur. T-Mobile nutzte die enge Integration von Amazon FSx und S3, um den Speicheraufwand zu reduzieren und den Betrieb zu optimieren.
-
Netflix
Die Produktion der vierten Staffel des Netflix-Episodendramas „The Crown“ stieß auf unerwartete Probleme, als sich der weltweite Lockdown aufgrund der COVID-19-Pandemie mit dem geplanten Beginn der Postproduktion für visuelle Effekte überschnitt. Durch die Einführung eines cloudbasierten Workflows auf AWS, einschließlich des Amazon-FSx-Lustre-Dateiservers für einen verbesserten Durchsatz, gelang es dem aus 10 VFX-Spezialisten bestehenden internen Team von Netflix, mehr als 600 VFX-Szenen für die 10 Folgen der neuen Staffel in gerade einmal 8 Monaten fertigzustellen – und das, obwohl die gesamte Arbeit remote ausgeführt wurde.
-
Maxar
Maxar verwendet AWS, um Prognosen 58 % schneller als sein Wetter-Supercomputer zu liefern.
Herausforderung: Maxar Technologies, ein vertrauenswürdiger Partner und Innovator in den Bereichen Erdintelligenz und Weltrauminfrastruktur, musste im Vergleich zu seinem On-Premises-Supercomputer Wettervorhersagen schneller liefern.
Lösung: Maxar arbeitete mit AWS zusammen, um eine HPC-Lösung mit Schlüsseltechnologien wie Amazon Elastic Compute Cloud (Amazon EC2) für sichere, hochzuverlässige Rechenressourcen, Amazon FSx für Lustre zur Beschleunigung des Lese-/Schreibdurchsatzes seiner Anwendung und AWS ParallelCluster zum schnellen Aufbau von HPC-Rechenumgebungen auf AWS zu entwickeln.
-
INEOS TEAM UK
INEOS TEAM UK beschleunigt mithilfe von AWS die Bootskonstruktion für den America's Cup.
Herausforderung: Das 2018 gegründete INEOS TEAM UK hat sich zum Ziel gesetzt, den America's Cup – die älteste internationale Sporttrophäe der Welt – nach Großbritannien zu bringen. Der America's Cup beschränkt die Tests auf dem Wasser auf nicht mehr als 150 Tage vor der Veranstaltung, sodass leistungsstarke numerische Strömungssimulationen (CFD) von Einrumpfbooten und Foils von entscheidender Bedeutung für ein erfolgreiches Bootsdesign sind.
Lösung: Mit AWS kann INEOS TEAM UK Tausende von Konstruktionssimulationen für sein America's-Cup-Boot in einer Woche verarbeiten, im Gegensatz zu mehr als einem Monat in einer On-Premises-Umgebung. INEOS TEAM UK nahm 2021 an der 36. Ausgabe des America's Cup teil. Das Team verwendet eine HPC-Umgebung, die auf Amazon-EC2-Spot-Instances läuft. Um eine schnelle Festplattenleistung für die Tausende von Simulationen zu gewährleisten, die jede Woche durchgeführt werden, nutzte das Team außerdem Amazon FSx für Lustre, um ein schnelles, skalierbares und sicheres Hochleistungsdateisystem basierend auf Amazon Simple Storage Service (S3) bereitzustellen.
-
Hive VFX
Hive VFX senkt die anfänglichen Studiokosten und wird als Cloud-VFX-Studio auf AWS betrieben.
Herausforderung: Hive benötigte eine leistungsstarke Infrastruktur, um ein kleines, unabhängiges Cloud-Studio einzurichten, in dem Künstler auf der ganzen Welt hochwertige Inhalte erstellen können.
Lösung: Das vollständig verwaltete Amazon FSx für Lustre, integriert in Amazon S3, bot schnellen Zugriff auf AWS-Rechenressourcen ohne große Vorabinvestitionen oder internes IT-Team-Know-How. Die nahtlose Synchronisation von Dateidaten und Dateiberechtigungen zwischen FSx Lustre und S3 ermöglichte es Hive VFX, eine große Menge an Bildern zu speichern und Projektdaten über Kontinente hinweg auszutauschen.
-
Lyell
Lyell beschleunigt seine Forschung zur zellbasierten Krebsbehandlung mit Amazon FSx für Lustre.
Herausforderung: Lyell bietet kurative, zellbasierte Krebsbehandlungen an, für die ein groß angelegtes rechnergestütztes Design von Proteinen erforderlich ist. Diese Workloads wurden traditionell vor Ort ausgeführt, aber das Unternehmen benötigte eine skalierbarere, kostengünstigere Lösung, da sie auf die Durchführung von nur einem Experiment pro Monat beschränkt war.
Lösung: Seit der Migration ihres Dateisystems zu FSx für Lustre können Datenwissenschaftler Tausende von HPC-Clustern, die aus EC2-Instances und Amazon-FSx-Dateisystemen bestehen, auf- und abschalten. Dadurch können sie verarbeitungsintensive Experimente schnell ausführen und nur für die Dauer der Workload für Rechen- und Speicherkosten bezahlen.
-
BlackThorn Therapeutics
BlackThorn Therapeutics beschleunigt die Zeit bis zur Erkenntnisgewinnung mit FSx für Lustre.
Herausforderung: Die Verarbeitung von Magnetresonanztomographie-Daten (MRT) unter Verwendung von Standard-DiY-Cloud-Dateisystemen war ressourcen- und zeitintensiv. BlackThorn benötigte eine rechenintensive, gemeinsam genutzte Dateispeicherlösung, um seine Workflows in den Bereichen Datenwissenschaft und Machine Learning zu vereinfachen.
Lösung: Amazon FSx für Lustre ist in Amazon S3 und Amazon SageMaker integriert und bietet eine schnelle Verarbeitung ihrer ML-Trainingsdatensätze sowie einen nahtlosen Zugriff auf Rechenleistung mithilfe von Amazon-EC2-Instances.
-
Qubole
Qubole verbessert die Datenbeständigkeit und senkt gleichzeitig die Kosten mit Amazon FSx für Lustre.
Herausforderung: Qubole war auf der Suche nach einer leistungsstarken Speicherlösung für die Verarbeitung von Analyse- und KI/ML-Workloads für seine Kunden. Sie mussten die in ihrer EC2-Spot-Flotte enthaltenen Zwischendaten einfach speichern und verarbeiten.
Lösung: Qubole verwendete Amazon FSx für Lustre, um Zwischendaten über sein paralleles Hochgeschwindigkeitsdateisystem zu speichern und zu verarbeiten.