Amazon SageMaker HyperPod

Scala e velocizza lo sviluppo di modelli di IA generativa su migliaia di acceleratori di IA

Che cos'è SageMaker HyperPod?

Amazon SageMaker HyperPod rimuove i carichi indifferenziati necessari per la creazione di modelli di IA generativa. Aiuta a scalare rapidamente le attività di sviluppo del modello come addestramento, messa a punto o inferenza su un cluster di centinaia o migliaia di acceleratori IA. SageMaker HyperPod consente la governance centralizzata di tutte le attività di sviluppo del modello, offrendoti piena visibilità e controllo sulla priorità delle diverse attività e sul modo in cui le risorse di calcolo vengono assegnate a ciascuna attività, aiutandoti a massimizzare l'utilizzo di GPU e AWS Trainium del tuo cluster e ad accelerare l'innovazione.

Con SageMaker HyperPod, puoi distribuire e parallelizzare in modo efficiente il carico di lavoro di addestramento su tutti gli acceleratori. SageMaker HyperPod applica automaticamente le migliori configurazioni di formazione per i modelli più diffusi disponibili al pubblico, per aiutarti a raggiungere rapidamente prestazioni ottimali. Inoltre, monitora anche continuamente il tuo cluster per eventuali guasti dell'infrastruttura, ripara automaticamente il problema e ripristina i carichi di lavoro senza intervento umano, il tutto aiutandoti a risparmiare fino al 40% del tempo di formazione.

Vantaggi di SageMaker HyperPod

L'innovazione della governance delle attività di SageMaker HyperPod offre visibilità e controllo completi sull'assegnazione delle risorse di calcolo nelle attività di sviluppo dei modelli di IA generativa, come formazione e inferenza. SageMaker HyperPod gestisce automaticamente le code di attività, garantendo che alle attività più critiche venga assegnata la priorità e che le attività stesse vengano completate in tempo e nel rispetto del budget, utilizzando al contempo le risorse di calcolo in modo più efficiente per ridurre i costi di sviluppo dei modelli anche del 40%.
Con le ricette SageMaker HyperPod, data scientist e sviluppatori di tutte le competenze beneficiano di prestazioni all'avanguardia mentre iniziano ad addestrare e perfezionare i modelli di IA generativa disponibili in pochi minuti. SageMaker HyperPod fornisce anche strumenti integrati di sperimentazione e osservabilità che consentono di migliorare le prestazioni del modello.
SageMaker HyperPod ti consente di dividere automaticamente i tuoi modelli e i set di dati di addestramento tra le istanze del cluster AWS per aiutarti a scalare in modo efficiente i carichi di lavoro di addestramento. Ti consente di ottimizzare il tuo lavoro di addestramento per l'infrastruttura di rete AWS e la topologia dei cluster. Inoltre, semplifica i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio dei checkpoint e garantendo un sovraccarico minimo durante l'addestramento.
SageMaker HyperPod fornisce un ambiente di addestramento resiliente per lo sviluppo dei modelli grazie alla capacità automatica di rilevare, diagnosticare e ripristinare automaticamente i guasti infrastrutturali, consentendoti di eseguire continuamente carichi di lavoro di sviluppo dei modelli per mesi senza interruzioni.

Presentazione della governance delle attività in SageMaker HyperPod

Massimizza l'utilizzo e ottieni la visibilità completa delle risorse di calcolo, riducendo al contempo i costi.

Ulteriori informazioni