Treinamento do Amazon SageMaker Model

Treine e ajuste modelos de ML e IA generativa

O que é treinamento de modelos do SageMaker?

O Treinamento de modelos do Amazon SageMaker reduz o tempo e o custo para treinar e ajustar modelos de machine learning (ML) em grande escala sem a necessidade de gerenciar a infraestrutura. Você pode aproveitar a infraestrutura de computação de ML de maior performance atualmente disponível, e o Amazon SageMaker AI pode aumentar ou reduzir automaticamente a escala da infraestrutura, de uma a milhares de GPUs. Para treinar modelos de aprendizado profundo com mais rapidez, a IA do SageMaker ajuda você a selecionar e refinar conjuntos de dados em tempo real. As bibliotecas de treinamento distribuídas do SageMaker podem dividir automaticamente grandes modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS, ou você pode usar bibliotecas de terceiros, como DeepSpeed, Horovod ou Megatron. Treine modelos de base (FMs) por semanas e meses sem interrupções, monitorando e reparando automaticamente os clusters de treinamento.

Benefícios do treinamento econômico

O SageMaker AI oferece uma ampla variedade de GPUs e CPUs, bem como aceleradores da AWS, como o AWS Trainium e o AWS Inferentia, para permitir o treinamento de modelos em grande escala. Você aumenta ou diminui automaticamente a infraestrutura, de uma a milhares de GPUs.
O SageMaker AI permite que divida automaticamente os modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudar a escalar com eficiência as workloads de treinamento. Ele ajuda a otimizar o trabalho de treinamento para a infraestrutura de rede e a topologia de clusters da AWS. Você também pode usar receitas otimizadas para se beneficiar do desempenho de última geração e começar rapidamente a treinar e ajustar modelos de IA generativa disponíveis publicamente em minutos. Também simplifica a verificação do modelo por meio das receitas, ao otimizar a frequência de salvamento dos pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento.
O SageMaker AI pode ajustar automaticamente seu modelo ajustando milhares de combinações de parâmetros de algoritmos para chegar às previsões mais precisas. Use ferramentas de depuração e criação de perfil para corrigir rapidamente os problemas de performance e otimizar a performance do treinamento.
O SageMaker AI permite experimentos eficientes de ML para ajudar a rastrear com mais facilidade as iterações do modelo de ML. Melhore a performance do treinamento de modelos visualizando a arquitetura do modelo para identificar e corrigir problemas de convergência.

Treine modelos em grande escala

Trabalhos de treinamento totalmente gerenciados

Os trabalhos de treinamento do SageMaker fornecem uma experiência de usuário totalmente gerenciada para o treinamento distribuído de grandes FMs, removendo o esforço pesado e não diferenciado associado ao gerenciamento da infraestrutura. Os trabalhos de treinamento do SageMaker configuram automaticamente um cluster de treinamento distribuído resiliente, monitoram a infraestrutura e se recuperam de forma automática de falhas para garantir uma experiência de treinamento sem complicações. Após a conclusão do treinamento, o SageMaker desativa o cluster e você recebe cobranças pelo tempo efetivo de treinamento. Além disso, com os trabalhos de treinamento do SageMaker, você tem a flexibilidade de escolher o tipo de instância mais adequado para cada workload (por exemplo, treinar previamente um grande modelo de linguagem (LLM) em um cluster P5 ou ajustar um LLM de código aberto em instâncias p4d) para otimizar ainda mais seu orçamento de treinamento. Adicionalmente, os trabalhos de treinamento do SagerMaker oferecem uma experiência de usuário consistente para as equipes de ML, independentemente dos níveis de conhecimento técnico e dos tipos de workload.

Saiba mais

SageMaker HyperPod

O Amazon SageMaker HyperPod é uma infraestrutura com o propósito específico de gerenciar com eficiência os clusters de computação para escalar o desenvolvimento de modelos de base (FM). Ele possibilita o uso de técnicas avançadas de treinamento de modelos, o controle da infraestrutura, a otimização da performance e a obtenção de uma observabilidade aprimorada dos modelos. O SageMaker HyperPod é configurado previamente com bibliotecas de treinamento distribuído do SageMaker, permitindo que você divida automaticamente modelos e conjuntos de dados de treinamento entre instâncias de clusters da AWS, ajudando a utilizar de forma eficiente a infraestrutura de computação e de rede do cluster. Ele possibilita um ambiente mais resiliente ao detectar, diagnosticar e se recuperar automaticamente de falhas de hardware, permitindo que você treine continuamente os FMs por meses, sem interrupções, reduzindo o tempo de treinamento em até 40%.

Saiba mais

Treinamento distribuído de alta performance

O SageMaker AI permite que divida automaticamente os modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudar a escalar com eficiência as workloads de treinamento. Ele ajuda a otimizar o trabalho de treinamento para a infraestrutura de rede e a topologia de clusters da AWS. Também simplifica a verificação do modelo por meio das receitas, ao otimizar a frequência de salvamento dos pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento. Com as receitas, cientistas de dados e desenvolvedores de todos os conjuntos de habilidades se beneficiam do desempenho de última geração e, ao mesmo tempo, começam a treinar e ajustar rapidamente modelos de IA generativa, incluindo o Llama 3.1 405B, o Mixtral 8x22B e o Mistral 7B. As receitas incluem uma pilha de treinamento que foi testada pela AWS, o que elimina semanas de trabalho tedioso ao testar diferentes configurações de modelos. Você pode alternar entre instâncias baseadas em GPU e baseadas no AWS Trainium com uma alteração de receita de uma linha e habilitar o ponto de verificação automatizado de modelos para melhorar a resiliência do treinamento. Além disso, execute workloads em produção no atributo de treinamento do SageMaker de sua escolha.

Saiba mais

Ferramentas integradas para maior precisão e menor custo

Ajuste automático de modelos

A IA do SageMaker pode ajustar automaticamente o modelo ajustando milhares de combinações de parâmetros de algoritmos para chegar às previsões mais precisas, economizando semanas de esforço. Ele ajuda você a encontrar a melhor versão de um modelo executando vários trabalhos de treinamento em seu conjunto de dados.

Fluxos de trabalho de treinamento de ML

Treinamento gerenciado de spots

A IA do SageMaker ajuda a reduzir os custos de treinamento em até 90 porcento executando automaticamente as tarefas de treinamento quando a capacidade computacional se torna disponível. Esses trabalhos de treinamento também são resistentes às interrupções causadas por mudanças na capacidade.

Saiba mais

Depuração

O Amazon SageMaker Debugger captura métricas e perfis de tarefas de treinamento em tempo real, para que você possa corrigir rapidamente os problemas de performance antes de implantar o modelo na produção. Você também pode se conectar remotamente ao ambiente de treinamento de modelos no SageMaker para depuração com acesso ao contêiner de treinamento subjacente.

Ajuste automático de modelos

Profiler

O Amazon SageMaker Profiler ajuda você a otimizar a performance do treinamento com insights granulares de criação de perfil de hardware, incluindo métricas agregadas de utilização de GPU e CPU, gráficos de rastreamento de GPU/CPU de alta resolução, anotações personalizadas e visibilidade da utilização de precisão mista.
Treinamento do Spot gerenciado

Ferramentas integradas para interatividade e monitoramento

Amazon SageMaker com MLflow

Use o MLflow com o treinamento do SageMaker para capturar parâmetros de entrada, configurações e resultados, permitindo que você identifique rapidamente os modelos de melhor performance para seu caso de uso. A interface do usuário do MLflow permite que você analise tentativas de treinamento de modelos e registre facilmente modelos candidatos para produção com uma única etapa.

depuração

Amazon SageMaker com TensorBoard

O Amazon SageMaker com TensorBoard ajuda você a economizar tempo de desenvolvimento visualizando a arquitetura do modelo para identificar e corrigir problemas de convergência, como perda de validação que não convergem ou gradientes que estão desaparecendo.

Gerenciamento de experimentos

Treinamento flexível e rápido

Personalização completa

A IA do SageMaker vem com bibliotecas e ferramentas integradas para tornar o treinamento de modelos mais fácil e rápido. A IA do SageMaker trabalha com modelos de ML muito usados, com código aberto, como GPT, BERT e DALL·E; estruturas de ML, como PyTorch e TensorFlow; e transformadores, como Hugging Face. Com a IA do SageMaker, você pode usar bibliotecas e ferramentas comuns de código aberto, como DeepSpeed, Megatron, Horovod, Ray Tune e TensorBoard, de acordo com suas necessidades.

Profiler

Conversão de código local

O Amazon SageMaker Python SDK ajuda você a executar código de ML criado em seu ambiente de desenvolvimento integrado (IDE) preferido e cadernos locais, juntamente com as dependências associadas de runtime, como trabalhos de treinamento de modelos de ML em grande escala, com o mínimo de alterações de código. Você só precisa adicionar uma linha de código (Python decorator) ao seu código de ML local. O SDK para Python do SageMaker usa o código junto aos conjuntos de dados e a configuração do ambiente de trabalho e o executa como um trabalho de treinamento do SageMaker.

Saiba mais

Automatize os fluxos de trabalho de treinamento de ML

A automatização de fluxos de trabalho de treinamento usando o Amazon SageMaker Pipelines ajuda você a criar um processo reproduzível para orquestrar as etapas do desenvolvimento de modelos para rápida experimentação e reciclagem do treinamento de modelos. Você pode executar etapas automaticamente em intervalos regulares ou quando determinados eventos forem iniciados, ou executá-las manualmente, conforme necessário.

Saiba mais

Planos de treinamento flexíveis

Para cumprir os cronogramas e orçamentos de treinamento, a IA do SageMaker ajuda a criar os planos de treinamento mais econômicos que usam recursos computacionais de vários blocos de capacidade computacional. Depois de aprovar os planos de treinamento, a IA do SageMaker provisiona automaticamente a infraestrutura e executa os trabalhos de treinamento nesses recursos computacionais sem exigir nenhuma intervenção manual, o que economiza semanas de esforço com gerenciamento do processo de treinamento para alinhar os trabalhos à disponibilidade computacional.

Novidades

  • Data (do mais recente ao mais antigo)
Nenhum resultado encontrado
1