Amazon EC2 Capacity Blocks para ML

Reserve instâncias com computação acelerada nos Amazon EC2 UltraClusters para executar suas workloads de ML

Comece a usar Blocos de capacidade do EC2

Por que usar Blocos de capacidade do EC2 para ML?

Com os blocos de capacidade do Amazon Elastic Compute Cloud (Amazon EC2) para ML, você pode facilmente reservar instâncias com computação acelerada para uma data de início futura. Os blocos de capacidade fornecem suporte para as instâncias P5en, P5e, P5 e P4d do Amazon EC2, que são equipadas com as mais recentes GPUs NVIDIA H200 Tensor Core, NVIDIA H100 Tensor Core e NVIDIA A100 Tensor Core, respectivamente, além das instâncias Trn2 e Trn1, com tecnologia do AWS Trainium. Os Blocos de capacidade do EC2 são colocados em Amazon EC2 UltraClusters projetados para workloads de machine learning (ML) de alta performance. Você pode reservar instâncias com computação acelerada por até seis meses em clusters que medem de uma a 64 instâncias (512 GPUs ou 1024 chips Trainium), proporcionando flexibilidade para executar uma ampla variedade de workloads de ML. Os blocos de capacidade do EC2 podem ser reservados com até oito semanas de antecedência.

Benefícios

Planeje com confiança

Planeje seu desenvolvimento de ML com confiança, garantindo a disponibilidade de capacidade futura para instâncias com computação acelerada.

Conectividade de rede de baixa latência e alto throughput

E, com os Blocos de capacidade do EC2 para ML, você obtém conectividade de baixa latência e alto throughput por meio de colocalização em UltraClusters do Amazon EC2 para treinamento distribuído.

Alta performance

Obtenha acesso previsível a instâncias com computação acelerada e o mais alto desempenho no Amazon EC2 para machine learning.

Casos de uso

Treinar ou ajustar modelos de ML usando instâncias de computação aceleradas

Obtenha acesso ininterrupto às instâncias com computação acelerada que você reserva para concluir o ajuste e o treinamento de modelo de ML.

Obter instâncias com computação acelerada pelo tempo necessário para executar seus experimentos

Execute experimentos e crie protótipos que exijam instâncias de computação aceleradas por períodos curtos.

Planejar picos futuros na demanda por aplicações de ML

Atenda às suas necessidades de crescimento reservando a quantidade certa de capacidade para atender aos seus clientes.

NVIDIA

A demanda por computação acelerada está crescendo exponencialmente à medida que empresas de todo o mundo adotam a IA generativa para remodelar seus negócios. Com os novos Blocos de capacidade EC2 da AWS para ML, as empresas de IA do mundo agora podem alugar o H100 não apenas um servidor por vez, mas em uma escala dedicada, disponível exclusivamente na AWS, permitindo o treinamento de grandes modelos de linguagem de maneira rápida e econômica e a execução de inferências na nuvem exatamente quando precisarem.

Ian Buck, vice-presidente de computação em hiperescala e HPC da NVIDIA
Arcee

A Arcee fornece uma plataforma de IA que permite o desenvolvimento e o avanço do que chamamos de SLMS: modelos de linguagem pequenos, especializados, seguros e escaláveis. Os Blocos de capacidade do Amazon EC2 para ML são uma parte importante do nosso cenário de computação de ML para treinar SLMs na AWS, pois nos fornecem acesso confiável à capacidade da GPU quando precisamos dela. Isso, por sua vez, significa que tanto nossa equipe interna quanto nossos clientes podem se beneficiar com a flexibilidade. Saber que podemos obter um cluster de GPUs em alguns dias e sem compromisso de longo prazo mudou todo o jogo para nós.

Mark McQuade, CEO e cofundador da Arcee
Amplify Partners

Fizemos parcerias com vários fundadores que utilizam aprendizado profundo e grandes modelos de linguagem para trazer inovações revolucionárias ao mercado. Acreditamos que o acesso previsível e oportuno à capacidade computacional da GPU é fundamental para permitir que os fundadores não só deem vida às suas ideias rapidamente, como também continuem a repetir sua visão e oferecer cada vez mais valor aos clientes. A disponibilidade de até 512 GPUs NVIDIA H100 por meio dos Blocos de capacidade do EC2 é um divisor de águas no atual ambiente de restrição de fornecimento, pois acreditamos que ela fornecerá às startups a capacidade computacional necessária de GPUs, quando precisarem dela, sem assumir compromissos de capital de longo prazo. Estamos ansiosos para apoiar os fundadores que estão desenvolvendo na AWS, aproveitando os blocos de capacidade de GPUs e seu portfólio líder do setor de serviços de machine learning e IA generativa.

Mark LaRosa, parceiro operacional da Amplify Partners
Canva

Hoje, o Canva capacita mais de 150 milhões de usuários ativos mensais a criar recursos visuais envolventes que podem ser publicados em qualquer lugar. Estamos usando instâncias P4de do EC2 para treinar modelos multimodais que potencializam novas ferramentas de IA generativa, permitindo que nossos usuários experimentem suas ideias com liberdade e rapidez. Ao tentarmos treinar modelos maiores, precisamos ter a capacidade de escalar centenas de GPUs de forma previsível durante nossos treinamentos. É empolgante ver a AWS lançando Blocos de capacidade do EC2 com suporte para instâncias P5. Agora, podemos obter acesso previsível a até 512 GPUs NVIDIA H100 em UltraClusters do EC2 de baixa latência para treinar modelos ainda maiores do que antes.

Greg Roodt, diretor de plataformas de dados do Canva
Dashtoon

A Dashtoon combina IA de ponta com criatividade para transformar contadores de histórias em artistas capazes de criar quadrinhos digitais independentemente de suas habilidades artísticas ou conhecimentos técnicos, quebrando as barreiras tradicionais na criação de conteúdo ilustrado. Temos mais de 80 mil usuários ativos mensais (MAUs) usando nossa aplicação para consumir quadrinhos, enquanto nossos criadores geram mais de 100 mil imagens por dia no Dashtoon Studio. Usamos a AWS desde o início e usamos instâncias P5 do Amazon EC2 para treinar e ajustar modelos multimodais, incluindo Stable Diffusion XL, GroundingDino e Segment Anything. Vimos a performance melhorar 3 vezes ao usar instâncias P5, equipadas com GPUs NVIDIA H100, em comparação com o uso de instâncias P4d equivalentes, equipadas com GPUs NVIDIA A100. Nossos conjuntos de dados de treinamento variam em tamanho e, à medida que buscamos escalar nosso modelo de treinamento, os Blocos de capacidade do Amazon EC2 para ML nos permitem ser flexíveis com nossas necessidades de GPU, com prazos de entrega previsíveis e baixos (logo no dia seguinte), o que nos ajuda a reduzir o tempo de lançamento de novos recursos para os usuários. Estamos entusiasmados em continuar aproveitando os Blocos de capacidade do EC2 para acelerar nossa inovação.

Soumyadeep Mukherjee, cofundador e diretor de tecnologia da Dashtoon
Leonardo.Ai

“Nossa equipe na Leonardo aproveita a IA generativa para permitir que profissionais criativos e entusiastas produzam recursos visuais com qualidade, velocidade e consistência de estilo incomparáveis. Nossa base se baseia em um conjunto de modelos de IA aperfeiçoados e ferramentas poderosas, oferecendo controle granular antes e depois de pressionar o botão para gerar. Utilizamos uma ampla variedade de serviços da AWS não só para criar e treinar nossos modelos, como também para hospedá-los para apoiar o uso de milhões de clientes ativos mensais. Estamos muito satisfeitos com o lançamento dos Blocos de capacidade do EC2 para ML. Ele nos permite acessar elasticamente a capacidade da GPU para treinamento e experimentação, preservando a opção de mudar para diferentes instâncias do EC2 capazes de melhor atender aos nossos requisitos de computação.

Peter Runham, diretor de tecnologia, Leonardo.Ai
OctoAI

Na OctoAI, capacitamos os criadores de aplicações a executar, ajustar e escalar facilmente a IA generativa, otimizando a execução do modelo e usando a automação para escalar seus serviços e reduzir a carga de engenharia. Nossa capacidade de ampliar a capacidade da GPU por curtos períodos é fundamental, especialmente quando trabalhamos com clientes que buscam escalar rapidamente suas aplicações de ML de zero a milhões de usuários como parte do lançamento de seus produtos. Os Blocos de capacidade do EC2 para ML nos permitem criar previsivelmente diferentes tamanhos de clusters de GPU que correspondam aos aumentos de escala planejados por nossos clientes, ao mesmo tempo em que oferecem possíveis economias de custo em comparação com confirmações de capacidade de longo prazo ou implantação local.

Luis Ceze, CEO da OctoAI
Snorkel

A plataforma de desenvolvimento de dados de IA da Snorkel ajuda as empresas a criar e usar IA rapidamente. Cada vez mais, isso inclui destilar informações de LLMs com uso intensivo de computação em modelos especializados menores, exigindo picos de computação de curto prazo durante o desenvolvimento. Os Blocos de capacidade do EC2 para ML têm o potencial de oferecer uma grande melhoria em relação às opções existentes para adquirir capacidade de GPU. O acesso garantido à capacidade de GPU de curto prazo e a alta performance de rede dos UltraClusters do EC2 são fatores essenciais para os fluxos de trabalho de desenvolvimento de IA que as empresas precisam apoiar hoje e nos próximos anos.

Braden Hancock, cofundador e chefe de tecnologia da Snorkel