Cos'è l'addestramento del modello SageMaker?
L'Addestramento del modello Amazon SageMaker riduce i tempi e i costi necessari per addestrare e ottimizzare i modelli di machine learning (ML) su larga scala senza la necessità di gestire l'infrastruttura. Puoi sfruttare l'infrastruttura di calcolo ML dalle prestazioni più elevate attualmente disponibile e Amazon SageMaker AI può scalare automaticamente l'infrastruttura, da una a migliaia di GPU. Per addestrare più velocemente i modelli di deep learning, SageMaker AI ti aiuta a selezionare e perfezionare i set di dati in tempo reale. Le librerie di addestramento distribuite di SageMaker possono suddividere automaticamente modelli di grandi dimensioni e set di dati di addestramento tra le istanze di GPU AWS oppure è possibile utilizzare librerie di terze parti, come DeepSpeed, Horovod o Megatron. Addestra i modelli di fondazione (FM) per settimane e mesi senza interruzioni monitorando e riparando automaticamente i cluster di formazione.
Vantaggi di un addestramento conveniente
Modelli di treni su larga scala
Processi di addestramento completamente gestiti
I processi di addestramento di SageMaker offrono un'esperienza utente completamente gestita per l'addestramento di grandi FM distribuiti, rimuovendo il carico indifferenziato associato alla gestione dell'infrastruttura. I processi di addestramento di SageMaker avviano automaticamente un cluster di addestramento resiliente e distribuito, monitorano l'infrastruttura e ripristinano automaticamente i guasti per garantire un'esperienza di addestramento senza interruzioni. Una volta completato l'addestramento, SageMaker arresta il cluster e ti viene fatturato il tempo netto di addestramento. Inoltre, i processi di addestramento di SageMaker offrono la flessibilità necessaria per scegliere il tipo di istanza corretto e più adatto a un carico di lavoro individuale (per esempio, pre-addestrare un modello linguistico di grandi dimensioni (large language model, LLM) in un cluster P5 oppure ottimizzare un LLM open source in istanze p4d) per ottimizzare ulteriormente il budget di addestramento. I processi di addestramento di SageMaker offrono infine un'esperienza utente coerente per tutti i team ML, con vari livelli di competenza tecnica e tipi di carico di lavoro differenti.
SageMaker HyperPod
Amazon SageMaker HyperPod è un'infrastruttura appositamente progettata per gestire in modo efficiente i cluster di calcolo per lo sviluppo di modelli di fondazione (FM) scalabili. Consente tecniche avanzate di addestramento dei modelli, controllo dell'infrastruttura, ottimizzazione delle prestazioni e migliore osservabilità dei modelli. SageMaker HyperPod è preconfigurato con le librerie di addestramento distribuite di SageMaker, che consentono di suddividere automaticamente i modelli e i set di dati di addestramento tra le istanze del cluster AWS per permettere di utilizzare in modo efficiente l'infrastruttura di calcolo e di rete del cluster. Consente un ambiente più resiliente grazie alla capacità di rilevare, diagnosticare e ripristinare automaticamente i guasti hardware, permettendo così l'addestramento continuo degli FM per mesi e riducendo il tempo di addestramento fino al 40%.
Addestramento distribuito ad alte prestazioni
SageMaker AI velocizza l'esecuzione dell'addestramento distribuito suddividendo automaticamente i modelli e i set di dati di addestramento tra gli acceleratori AWS. Ti consente di ottimizzare il lavoro di addestramento per l'infrastruttura di rete e la topologia dei cluster AWS. Semplifica inoltre i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio degli stessi e garantendo un sovraccarico minimo durante l'addestramento. Con le ricette, data scientist e sviluppatori di tutte le competenze beneficiano di prestazioni all'avanguardia mentre iniziano rapidamente ad addestrare e perfezionare i modelli di IA generativa disponibili al pubblico, tra cui Llama 3.1 405B, Mixtral 8x22B e Mistral 7B. Le ricette includono uno stack di addestramento che è stato testato da AWS, eliminando settimane di noioso lavoro testando diverse configurazioni di modelli. Puoi passare da istanze basate su GPU a istanze basate su AWS Trainium con una modifica di ricetta di una riga e abilitare il checkpoint automatico dei modelli per una migliore resilienza di addestramento. Esegui inoltre i carichi di lavoro in produzione sulla funzione di addestramento di SageMaker di tua scelta.
Strumenti integrati per la massima precisione e il minor costo
Regolazione automatica dei modelli
SageMaker AI può ottimizzare automaticamente il modello regolando migliaia di combinazioni di parametri dell'algoritmo per arrivare alle previsioni più accurate, risparmiando settimane di sforzi. Ti aiuta a trovare la versione migliore di un modello eseguendo molti processi di addestramento sul tuo set di dati.
Managed Spot Training
SageMaker AI aiuta a ridurre i costi di addestramento anche del 90% eseguendo automaticamente i processi di addestramento quando la capacità di elaborazione diventa disponibile. Questi processi di addestramento sono inoltre resistenti alle interruzioni causate dai cambiamenti di capacità.
Debug
Debugger Amazon SageMaker acquisisce le metriche e profila i processi di addestramento in tempo reale, in modo da poter correggere rapidamente i problemi di prestazioni prima di implementare il modello in produzione. È anche possibile connettersi in remoto all'ambiente di addestramento dei modelli in SageMaker per il debug con accesso al container di addestramento sottostante.
Profiler
Strumenti integrati per l'interattività e il monitoraggio
Amazon SageMaker con MLFlow
Utilizza MLFlow con l'addestramento SageMaker per acquisire parametri di input, configurazioni e risultati per poter identificare rapidamente i modelli con le migliori prestazioni per il tuo caso d'uso. L'interfaccia utente MLFlow consente di analizzare i tentativi di addestramento dei modelli e registrare facilmente i modelli candidati per la produzione in un solo passaggio.
Amazon SageMaker con TensorBoard
Amazon SageMaker con TensorBoard ti aiuta a risparmiare tempo di sviluppo visualizzando l'architettura del modello per identificare e risolvere i problemi di convergenza, come la perdita di convalida, la non convergenza o la scomparsa dei gradienti.
Formazione flessibile e veloce
Personalizzazione completa
SageMaker AI è dotato di librerie e strumenti integrati per facilitare e accelerare l'addestramento dei modelli. SageMaker AI funziona con i modelli di ML open source più diffusi come GPT, BERT e DALL·E, framework di ML, come PyTorch e TensorFlow, e trasformatori, come Hugging Face. Con SageMaker AI, puoi utilizzare le librerie e gli strumenti open source più diffusi, come DeepSpeed, Megatron, Horovod, Ray Tune e TensorBoard, in base alle tue esigenze.
Conversione del codice locale
Amazon SageMaker Python SDK permette di eseguire il codice di ML creato nell'ambiente di sviluppo integrato (IDE) e nei notebook locali preferiti, insieme alle dipendenze di runtime associate, come processi di addestramento dei modelli di ML su larga scala con modifiche minime al codice. Devi solo aggiungere una riga di codice (decoratore Python) al tuo codice ML locale. SageMaker Python SDK prende il codice insieme ai set di dati e alla configurazione dell'ambiente di lavoro e lo esegue come processo di addestramento di SageMaker.
flussi di lavoro di addestramento ML automatizzati
L'automazione dei flussi di lavoro di addestramento tramite Pipeline Amazon SageMaker consente di creare un processo ripetibile per orchestrare le fasi di sviluppo del modello per una rapida sperimentazione e riqualificazione del modello. È possibile eseguire i passaggi a intervalli regolari o quando vengono avviati determinati eventi, oppure è possibile eseguirli manualmente in base alle esigenze.
Piani di addestramento flessibili
Per rispettare le tempistiche e i budget di addestramento, SageMaker AI ti aiuta a creare i piani di addestramento più convenienti che utilizzano risorse di calcolo provenienti da più blocchi di capacità di calcolo. Una volta approvati i piani di formazione, SageMaker AI effettua automaticamente il provisioning dell'infrastruttura ed esegue i lavori di addestramento su queste risorse di calcolo senza richiedere alcun intervento manuale, facendo risparmiare settimane di attività nella gestione del processo di addestramento per allineare i lavori alla disponibilità di calcolo.
Risorse
Novità
- Data (dalla più alla meno recente)