O que é treinamento de modelos do SageMaker?
O Treinamento de modelos do Amazon SageMaker reduz o tempo e o custo para treinar e ajustar modelos de machine learning (ML) em grande escala sem a necessidade de gerenciar a infraestrutura. Você pode aproveitar a infraestrutura de computação de ML de maior performance atualmente disponível, e o Amazon SageMaker AI pode aumentar ou reduzir automaticamente a escala da infraestrutura, de uma a milhares de GPUs. Para treinar modelos de aprendizado profundo com mais rapidez, a IA do SageMaker ajuda você a selecionar e refinar conjuntos de dados em tempo real. As bibliotecas de treinamento distribuídas do SageMaker podem dividir automaticamente grandes modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS, ou você pode usar bibliotecas de terceiros, como DeepSpeed, Horovod ou Megatron. Treine modelos de base (FMs) por semanas e meses sem interrupções, monitorando e reparando automaticamente os clusters de treinamento.
Benefícios do treinamento econômico
Treine modelos em grande escala
Trabalhos de treinamento totalmente gerenciados
Os trabalhos de treinamento do SageMaker fornecem uma experiência de usuário totalmente gerenciada para o treinamento distribuído de grandes FMs, removendo o esforço pesado e não diferenciado associado ao gerenciamento da infraestrutura. Os trabalhos de treinamento do SageMaker configuram automaticamente um cluster de treinamento distribuído resiliente, monitoram a infraestrutura e se recuperam de forma automática de falhas para garantir uma experiência de treinamento sem complicações. Após a conclusão do treinamento, o SageMaker desativa o cluster e você recebe cobranças pelo tempo efetivo de treinamento. Além disso, com os trabalhos de treinamento do SageMaker, você tem a flexibilidade de escolher o tipo de instância mais adequado para cada workload (por exemplo, treinar previamente um grande modelo de linguagem (LLM) em um cluster P5 ou ajustar um LLM de código aberto em instâncias p4d) para otimizar ainda mais seu orçamento de treinamento. Adicionalmente, os trabalhos de treinamento do SagerMaker oferecem uma experiência de usuário consistente para as equipes de ML, independentemente dos níveis de conhecimento técnico e dos tipos de workload.
SageMaker HyperPod
O Amazon SageMaker HyperPod é uma infraestrutura com o propósito específico de gerenciar com eficiência os clusters de computação para escalar o desenvolvimento de modelos de base (FM). Ele possibilita o uso de técnicas avançadas de treinamento de modelos, o controle da infraestrutura, a otimização da performance e a obtenção de uma observabilidade aprimorada dos modelos. O SageMaker HyperPod é configurado previamente com bibliotecas de treinamento distribuído do SageMaker, permitindo que você divida automaticamente modelos e conjuntos de dados de treinamento entre instâncias de clusters da AWS, ajudando a utilizar de forma eficiente a infraestrutura de computação e de rede do cluster. Ele possibilita um ambiente mais resiliente ao detectar, diagnosticar e se recuperar automaticamente de falhas de hardware, permitindo que você treine continuamente os FMs por meses, sem interrupções, reduzindo o tempo de treinamento em até 40%.
Treinamento distribuído de alta performance
O SageMaker AI permite que divida automaticamente os modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudar a escalar com eficiência as workloads de treinamento. Ele ajuda a otimizar o trabalho de treinamento para a infraestrutura de rede e a topologia de clusters da AWS. Também simplifica a verificação do modelo por meio das receitas, ao otimizar a frequência de salvamento dos pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento. Com as receitas, cientistas de dados e desenvolvedores de todos os conjuntos de habilidades se beneficiam do desempenho de última geração e, ao mesmo tempo, começam a treinar e ajustar rapidamente modelos de IA generativa, incluindo o Llama 3.1 405B, o Mixtral 8x22B e o Mistral 7B. As receitas incluem uma pilha de treinamento que foi testada pela AWS, o que elimina semanas de trabalho tedioso ao testar diferentes configurações de modelos. Você pode alternar entre instâncias baseadas em GPU e baseadas no AWS Trainium com uma alteração de receita de uma linha e habilitar o ponto de verificação automatizado de modelos para melhorar a resiliência do treinamento. Além disso, execute workloads em produção no atributo de treinamento do SageMaker de sua escolha.
Ferramentas integradas para maior precisão e menor custo
Ajuste automático de modelos
A IA do SageMaker pode ajustar automaticamente o modelo ajustando milhares de combinações de parâmetros de algoritmos para chegar às previsões mais precisas, economizando semanas de esforço. Ele ajuda você a encontrar a melhor versão de um modelo executando vários trabalhos de treinamento em seu conjunto de dados.
Treinamento gerenciado de spots
A IA do SageMaker ajuda a reduzir os custos de treinamento em até 90 porcento executando automaticamente as tarefas de treinamento quando a capacidade computacional se torna disponível. Esses trabalhos de treinamento também são resistentes às interrupções causadas por mudanças na capacidade.
Depuração
O Amazon SageMaker Debugger captura métricas e perfis de tarefas de treinamento em tempo real, para que você possa corrigir rapidamente os problemas de performance antes de implantar o modelo na produção. Você também pode se conectar remotamente ao ambiente de treinamento de modelos no SageMaker para depuração com acesso ao contêiner de treinamento subjacente.
Profiler
Ferramentas integradas para interatividade e monitoramento
Amazon SageMaker com MLflow
Use o MLflow com o treinamento do SageMaker para capturar parâmetros de entrada, configurações e resultados, permitindo que você identifique rapidamente os modelos de melhor performance para seu caso de uso. A interface do usuário do MLflow permite que você analise tentativas de treinamento de modelos e registre facilmente modelos candidatos para produção com uma única etapa.
Amazon SageMaker com TensorBoard
O Amazon SageMaker com TensorBoard ajuda você a economizar tempo de desenvolvimento visualizando a arquitetura do modelo para identificar e corrigir problemas de convergência, como perda de validação que não convergem ou gradientes que estão desaparecendo.
Treinamento flexível e rápido
Personalização completa
A IA do SageMaker vem com bibliotecas e ferramentas integradas para tornar o treinamento de modelos mais fácil e rápido. A IA do SageMaker trabalha com modelos de ML muito usados, com código aberto, como GPT, BERT e DALL·E; estruturas de ML, como PyTorch e TensorFlow; e transformadores, como Hugging Face. Com a IA do SageMaker, você pode usar bibliotecas e ferramentas comuns de código aberto, como DeepSpeed, Megatron, Horovod, Ray Tune e TensorBoard, de acordo com suas necessidades.
Conversão de código local
O Amazon SageMaker Python SDK ajuda você a executar código de ML criado em seu ambiente de desenvolvimento integrado (IDE) preferido e cadernos locais, juntamente com as dependências associadas de runtime, como trabalhos de treinamento de modelos de ML em grande escala, com o mínimo de alterações de código. Você só precisa adicionar uma linha de código (Python decorator) ao seu código de ML local. O SDK para Python do SageMaker usa o código junto aos conjuntos de dados e a configuração do ambiente de trabalho e o executa como um trabalho de treinamento do SageMaker.
Automatize os fluxos de trabalho de treinamento de ML
A automatização de fluxos de trabalho de treinamento usando o Amazon SageMaker Pipelines ajuda você a criar um processo reproduzível para orquestrar as etapas do desenvolvimento de modelos para rápida experimentação e reciclagem do treinamento de modelos. Você pode executar etapas automaticamente em intervalos regulares ou quando determinados eventos forem iniciados, ou executá-las manualmente, conforme necessário.
Planos de treinamento flexíveis
Para cumprir os cronogramas e orçamentos de treinamento, a IA do SageMaker ajuda a criar os planos de treinamento mais econômicos que usam recursos computacionais de vários blocos de capacidade computacional. Depois de aprovar os planos de treinamento, a IA do SageMaker provisiona automaticamente a infraestrutura e executa os trabalhos de treinamento nesses recursos computacionais sem exigir nenhuma intervenção manual, o que economiza semanas de esforço com gerenciamento do processo de treinamento para alinhar os trabalhos à disponibilidade computacional.
Recursos
Novidades
- Data (do mais recente ao mais antigo)