Amazon SageMaker HyperPod

Reduza em até 40% o tempo necessário para treinar modelos de base e escale com eficiência em mais de mil aceleradores de IA

O que é o SageMaker HyperPod?

O Amazon SageMaker HyperPod remove o trabalho árduo e não especializado relacionado ao desenvolvimento e à otimização da infraestrutura de machine learning (ML). Ele é configurado previamente com as bibliotecas de treinamento distribuído do SageMaker, que dividem automaticamente as workloads de treinamento entre mais de mil aceleradores de IA, permitindo que as workloads sejam processadas em paralelo para obtenção de uma performance aprimorada do modelo. O SageMaker HyperPod garante que seu treinamento de FM não seja interrompido ao salvar pontos de verificação periodicamente. Ele detecta automaticamente falhas de hardware quando ocorrem, repara ou substitui a instância com problema, e retoma o treinamento a partir do último ponto de verificação salvo, removendo a necessidade de você gerenciar manualmente esse processo. O ambiente resiliente permite o treinamento contínuo de modelos por semanas ou meses em um ambiente distribuído, sem interrupções, economizando até 40% do tempo de treinamento. Além disso, o SageMaker HyperPod é altamente personalizável, permitindo a execução e a escalabilidade eficientes das workloads de FM, além de facilitar o compartilhamento da capacidade de computação entre diferentes workloads, desde o treinamento em grande escala até a inferência.

Benefícios do SageMaker HyperPod

O Amazon SageMaker HyperPod é pré-configurado com bibliotecas de treinamento distribuídas do Amazon SageMaker, permitindo que você divida automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudá-lo a escalar workloads de treinamento com eficiência.
As bibliotecas de treinamento distribuídas do Amazon SageMaker otimizam seu trabalho de treinamento para infraestrutura de rede e topologia de cluster da AWS por meio de duas técnicas: paralelismo de dados e paralelismo de modelos. O paralelismo de modelos divide modelos grandes demais para caber em uma única GPU em partes menores antes de distribuí-los em várias GPUs para serem treinados. O paralelismo de dados divide grandes conjuntos de dados para treinar simultaneamente a fim de melhorar a velocidade do treinamento.
O SageMaker HyperPod permite um ambiente de treinamento mais resiliente ao detectar, diagnosticar e se recuperar automaticamente de falhas, permitindo que você treine continuamente os FMs por meses sem interrupções.