Addestramento del modello Amazon SageMaker

Addestra ed esegui il fine-tuning dei modelli di ML e IA generativa

Cos'è l'addestramento del modello SageMaker?

L'Addestramento del modello Amazon SageMaker riduce i tempi e i costi necessari per addestrare e ottimizzare i modelli di machine learning (ML) su larga scala senza la necessità di gestire l'infrastruttura. Puoi sfruttare l'infrastruttura di calcolo ML dalle prestazioni più elevate attualmente disponibile e Amazon SageMaker AI può scalare automaticamente l'infrastruttura, da una a migliaia di GPU. Per addestrare più velocemente i modelli di deep learning, SageMaker AI ti aiuta a selezionare e perfezionare i set di dati in tempo reale. Le librerie di addestramento distribuite di SageMaker possono suddividere automaticamente modelli di grandi dimensioni e set di dati di addestramento tra le istanze di GPU AWS oppure è possibile utilizzare librerie di terze parti, come DeepSpeed, Horovod o Megatron. Addestra i modelli di fondazione (FM) per settimane e mesi senza interruzioni monitorando e riparando automaticamente i cluster di formazione.

Vantaggi di un addestramento conveniente

SageMaker AI offre un'ampia scelta di GPU e CPU, nonché acceleratori AWS come AWS Trainium e AWS Inferentia per consentire l'addestramento dei modelli su larga scala. È possibile dimensionare automaticamente l'infrastruttura, da una a migliaia di GPU.
SageMaker AI ti consente di dividere automaticamente i tuoi modelli e i set di dati di addestramento tra le istanze del cluster AWS per aiutarti a scalare in modo efficiente i carichi di lavoro di addestramento. Ti consente di ottimizzare il tuo lavoro di addestramento per l'infrastruttura di rete AWS e la topologia dei cluster. Puoi anche utilizzare ricette ottimizzate per beneficiare di prestazioni all'avanguardia e iniziare rapidamente ad addestrare e a mettere a punto modelli di IA generativa disponibili al pubblico in pochi minuti. Semplifica inoltre i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio degli stessi e garantendo un sovraccarico minimo durante l'addestramento.
SageMaker AI può ottimizzare automaticamente il modello regolando migliaia di combinazioni di parametri dell'algoritmo per arrivare alle previsioni più accurate. Utilizza strumenti di debug e profilazione per correggere rapidamente i problemi di prestazioni e ottimizzare le prestazioni di addestramento.
SageMaker AI consente di eseguire esperimenti di ML efficienti per aiutare a monitorare più facilmente le iterazioni dei modelli di ML. Migliora le prestazioni di addestramento dei modelli visualizzando l'architettura del modello per identificare e risolvere i problemi di convergenza.

Modelli di treni su larga scala

Processi di addestramento completamente gestiti

I processi di addestramento di SageMaker offrono un'esperienza utente completamente gestita per l'addestramento di grandi FM distribuiti, rimuovendo il carico indifferenziato associato alla gestione dell'infrastruttura. I processi di addestramento di SageMaker avviano automaticamente un cluster di addestramento resiliente e distribuito, monitorano l'infrastruttura e ripristinano automaticamente i guasti per garantire un'esperienza di addestramento senza interruzioni. Una volta completato l'addestramento, SageMaker arresta il cluster e ti viene fatturato il tempo netto di addestramento. Inoltre, i processi di addestramento di SageMaker offrono la flessibilità necessaria per scegliere il tipo di istanza corretto e più adatto a un carico di lavoro individuale (per esempio, pre-addestrare un modello linguistico di grandi dimensioni (large language model, LLM) in un cluster P5 oppure ottimizzare un LLM open source in istanze p4d) per ottimizzare ulteriormente il budget di addestramento. I processi di addestramento di SageMaker offrono infine un'esperienza utente coerente per tutti i team ML, con vari livelli di competenza tecnica e tipi di carico di lavoro differenti.

Ulteriori informazioni

SageMaker HyperPod

Amazon SageMaker HyperPod è un'infrastruttura appositamente progettata per gestire in modo efficiente i cluster di calcolo per lo sviluppo di modelli di fondazione (FM) scalabili. Consente tecniche avanzate di addestramento dei modelli, controllo dell'infrastruttura, ottimizzazione delle prestazioni e migliore osservabilità dei modelli. SageMaker HyperPod è preconfigurato con le librerie di addestramento distribuite di SageMaker, che consentono di suddividere automaticamente i modelli e i set di dati di addestramento tra le istanze del cluster AWS per permettere di utilizzare in modo efficiente l'infrastruttura di calcolo e di rete del cluster. Consente un ambiente più resiliente grazie alla capacità di rilevare, diagnosticare e ripristinare automaticamente i guasti hardware, permettendo così l'addestramento continuo degli FM per mesi e riducendo il tempo di addestramento fino al 40%.

Ulteriori informazioni

Addestramento distribuito ad alte prestazioni

SageMaker AI velocizza l'esecuzione dell'addestramento distribuito suddividendo automaticamente i modelli e i set di dati di addestramento tra gli acceleratori AWS. Ti consente di ottimizzare il lavoro di addestramento per l'infrastruttura di rete e la topologia dei cluster AWS. Semplifica inoltre i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio degli stessi e garantendo un sovraccarico minimo durante l'addestramento. Con le ricette, data scientist e sviluppatori di tutte le competenze beneficiano di prestazioni all'avanguardia mentre iniziano rapidamente ad addestrare e perfezionare i modelli di IA generativa disponibili al pubblico, tra cui Llama 3.1 405B, Mixtral 8x22B e Mistral 7B. Le ricette includono uno stack di addestramento che è stato testato da AWS, eliminando settimane di noioso lavoro testando diverse configurazioni di modelli. Puoi passare da istanze basate su GPU a istanze basate su AWS Trainium con una modifica di ricetta di una riga e abilitare il checkpoint automatico dei modelli per una migliore resilienza di addestramento. Esegui inoltre i carichi di lavoro in produzione sulla funzione di addestramento di SageMaker di tua scelta.

Ulteriori informazioni

Strumenti integrati per la massima precisione e il minor costo

Regolazione automatica dei modelli

SageMaker AI può ottimizzare automaticamente il modello regolando migliaia di combinazioni di parametri dell'algoritmo per arrivare alle previsioni più accurate, risparmiando settimane di sforzi. Ti aiuta a trovare la versione migliore di un modello eseguendo molti processi di addestramento sul tuo set di dati.

flussi di lavoro di addestramento ML

Managed Spot Training

SageMaker AI aiuta a ridurre i costi di addestramento anche del 90% eseguendo automaticamente i processi di addestramento quando la capacità di elaborazione diventa disponibile. Questi processi di addestramento sono inoltre resistenti alle interruzioni causate dai cambiamenti di capacità.

Ulteriori informazioni

Debug

Debugger Amazon SageMaker acquisisce le metriche e profila i processi di addestramento in tempo reale, in modo da poter correggere rapidamente i problemi di prestazioni prima di implementare il modello in produzione. È anche possibile connettersi in remoto all'ambiente di addestramento dei modelli in SageMaker per il debug con accesso al container di addestramento sottostante.

Regolazione automatica dei modelli

Profiler

Il profilatore Amazon SageMaker ti aiuta a ottimizzare le prestazioni di addestramento con approfondimenti granulari sulla profilazione hardware, tra cui metriche aggregati di utilizzo di GPU e CPU, grafici di traccia GPU/CPU ad alta risoluzione, annotazioni personalizzate e visibilità sull'utilizzo a precisione mista.
Managed Spot Tarining

Strumenti integrati per l'interattività e il monitoraggio

Amazon SageMaker con MLFlow

Utilizza MLFlow con l'addestramento SageMaker per acquisire parametri di input, configurazioni e risultati per poter identificare rapidamente i modelli con le migliori prestazioni per il tuo caso d'uso. L'interfaccia utente MLFlow consente di analizzare i tentativi di addestramento dei modelli e registrare facilmente i modelli candidati per la produzione in un solo passaggio.

debug

Amazon SageMaker con TensorBoard

Amazon SageMaker con TensorBoard ti aiuta a risparmiare tempo di sviluppo visualizzando l'architettura del modello per identificare e risolvere i problemi di convergenza, come la perdita di convalida, la non convergenza o la scomparsa dei gradienti.

Gestione degli esperimenti

Formazione flessibile e veloce

Personalizzazione completa

SageMaker AI è dotato di librerie e strumenti integrati per facilitare e accelerare l'addestramento dei modelli. SageMaker AI funziona con i modelli di ML open source più diffusi come GPT, BERT e DALL·E, framework di ML, come PyTorch e TensorFlow, e trasformatori, come Hugging Face. Con SageMaker AI, puoi utilizzare le librerie e gli strumenti open source più diffusi, come DeepSpeed, Megatron, Horovod, Ray Tune e TensorBoard, in base alle tue esigenze.

Profiler

Conversione del codice locale

Amazon SageMaker Python SDK permette di eseguire il codice di ML creato nell'ambiente di sviluppo integrato (IDE) e nei notebook locali preferiti, insieme alle dipendenze di runtime associate, come processi di addestramento dei modelli di ML su larga scala con modifiche minime al codice. Devi solo aggiungere una riga di codice (decoratore Python) al tuo codice ML locale. SageMaker Python SDK prende il codice insieme ai set di dati e alla configurazione dell'ambiente di lavoro e lo esegue come processo di addestramento di SageMaker.

Ulteriori informazioni

flussi di lavoro di addestramento ML automatizzati

L'automazione dei flussi di lavoro di addestramento tramite Pipeline Amazon SageMaker consente di creare un processo ripetibile per orchestrare le fasi di sviluppo del modello per una rapida sperimentazione e riqualificazione del modello. È possibile eseguire i passaggi a intervalli regolari o quando vengono avviati determinati eventi, oppure è possibile eseguirli manualmente in base alle esigenze.

Ulteriori informazioni

Piani di addestramento flessibili

Per rispettare le tempistiche e i budget di addestramento, SageMaker AI ti aiuta a creare i piani di addestramento più convenienti che utilizzano risorse di calcolo provenienti da più blocchi di capacità di calcolo. Una volta approvati i piani di formazione, SageMaker AI effettua automaticamente il provisioning dell'infrastruttura ed esegue i lavori di addestramento su queste risorse di calcolo senza richiedere alcun intervento manuale, facendo risparmiare settimane di attività nella gestione del processo di addestramento per allineare i lavori alla disponibilità di calcolo.

Novità

  • Data (dalla più alla meno recente)
Nessun risultato trovato
1