Clientes do AWS Trainium

Veja como os clientes estão usando o AWS Trainium para criar, treinar e ajustar modelos de aprendizado profundo.

Anthropic

Na Anthropic, milhões de pessoas usam o Claude todos os dias para desempenharem suas funções no trabalho. Anunciamos dois importantes avanços com a AWS: primeiro, um novo “modo otimizado para latência” para o modelo Claude 3.5 Haiku que apresenta uma performance 60% superior no Trainium2 por meio do Amazon Bedrock. E, segundo, o Project Rainier, que consiste em um novo cluster com centenas de milhares de chips do Trainium2, fornecendo centenas de exaflops, o que representa mais de cinco vezes a capacidade do nosso cluster anterior. O Project Rainier será fundamental para o avanço de nossa pesquisa e para a próxima geração de escalabilidade. Para os nossos clientes, isso representa mais inteligência, preços mais competitivos e maior agilidade. Não estamos apenas desenvolvendo uma IA mais rápida, estamos criando uma IA confiável e com capacidade de escalabilidade.

Tom Brown, diretor de computação, Anthropic
Databricks

O Mosaic AI da Databricks possibilita que as organizações desenvolvam e implementem sistemas de agentes de alta qualidade. Essa solução é desenvolvida nativamente usando o data lakehouse, o que possibilita que os clientes personalizem seus modelos com dados empresariais de forma fácil e segura, e forneçam resultados mais precisos e específicos para o domínio. Devido à alta performance e à eficiência de custos do Trainium, os clientes podem ampliar o treinamento de modelos no Mosaic AI a um custo reduzido. A disponibilidade do Trainium2 representará um grande benefício para a Databricks e seus clientes, à medida que a demanda pelo Mosaic AI continua a escalar em todos os segmentos de clientes e ao redor do mundo. A Databricks, uma das principais empresas de dados e IA do mundo, planeja usar as instâncias Trn2 para fornecer resultados superiores e reduzir o TCO em até 30% para seus clientes.

Naveen Rao, vice-presidente de IA generativa, Databricks
poolside

Na Poolside, estamos determinador a criar um mundo em que a IA será responsável pela maior parte do trabalho de valor econômico e do progresso científico. Acreditamos que o desenvolvimento de software será a primeira grande funcionalidade das redes neurais a atingir a inteligência de nível humano, pois é o domínio em que podemos integrar as abordagens de Pesquisa e Aprendizado de forma eficiente. Para tornar isso possível, estamos desenvolvendo modelos de base, uma API e um Assistente para fornecer as capacidades da IA generativa às mãos (ou ao teclado) dos seus desenvolvedores. Um elemento fundamental para possibilitar essa tecnologia é a infraestrutura que estamos usando para desenvolver e executar nossos produtos. Com o AWS Trainium2, nossos clientes terão a capacidade de escalar o uso do modelo da Poolside a uma relação entre preço e performance única em comparação com outros aceleradores de IA. Além disso, planejamos treinar futuros modelos com os servidores UltraServers do Trainium2, com uma economia esperada de 40% em comparação às instâncias P5 do EC2.

Eiso Kant, diretor de tecnologia e cofundador, Poolside
Itaú Unibanco

O Itaú Unibanco tem como propósito melhorar a relação das pessoas com o dinheiro, promovendo um impacto positivo em suas vidas e ampliando suas oportunidades de transformação. No Itaú Unibanco, acreditamos que cada cliente é único e nos concentramos em atender às necessidades deles por meio de jornadas digitais intuitivas, que usam a capacidade da IA para se adaptar constantemente aos hábitos de consumo.

Realizamos testes com o AWS Trainium e com o Inferentia em várias tarefas, abrangendo desde a inferência padrão até aplicações com ajustes. A performance desses chips de IA possibilitou que atingíssemos marcos significativos em nossa pesquisa e desenvolvimento. Para tarefas de inferência em lote e on-line, constatamos uma melhoria de sete vezes no throughput em comparação com as GPUs. Essa performance aprimorada está promovendo a expansão de novos casos de uso em toda a organização. A geração mais recentes de chips do Trainium2 revela recursos inovadores para a IA generativa, possibilitando inovações no Itaú.

Vitor Azeka, diretor do departamento de ciência de dados, Itaú Unibanco
NinjaTech AI

O Ninja trata-se um agente de IA completo para a obtenção de produtividade ilimitada: uma assinatura simples e acesso ilimitado aos melhores modelos de IA do mundo, além de habilidades avançadas, como: produção textual, programação, geração de ideias, criação de imagens e pesquisa on-line. O Ninja é uma plataforma com capacidades de agentes e disponibiliza o “SuperAgent”, que emprega um conjunto de agentes com precisão de alto nível, comparável aos modelos de base mais avançados e superando-os em determinadas categorias. A tecnologia Agentic do Ninja requer aceleradores de máxima performance para proporcionar as experiências em tempo real únicas que nossos clientes demandam.

Estamos extremamente entusiasmados com o lançamento das instâncias Trn2 da AWS, pois acreditamos que elas oferecerão o melhor custo por performance de token e a velocidade mais rápida atualmente disponível para o nosso modelo principal, Ninja LLM, baseado no Llama 3.1 405B. É impressionante observar a baixa latência das instâncias Trn2 combinada com preços competitivos e disponibilidade sob demanda. Estamos extremamente entusiasmados com a chegada das instâncias Trn2.

Babak Pahlavan, fundador e diretor executivo, NinjaTech AI
Ricoh

A equipe de machine learning da RICOH desenvolve soluções para o ambiente de trabalho e serviços de transformação digital projetados para gerenciar e otimizar o fluxo de informações em nossas soluções empresariais.

A migração para as instâncias Trn1 foi realizada de forma fácil e sem complicações. Conseguimos treinar previamente nosso grande modelo de linguagem (LLM) com 13 bilhões de parâmetros em apenas oito dias, utilizando um cluster de 4.096 chips do Trainium. Após o sucesso obtido com nosso modelo menor, ajustamos um novo grande modelo de linguagem baseado no Llama-3-Swallow-70B. Ao usar o Trainium, conseguimos reduzir os custos de treinamento em 50% e aprimorar a eficiência energética em 25%, em comparação com o uso das máquinas de GPU mais recentes na AWS. Estamos animados em adotar a mais recente geração de chips de IA da AWS, o Trainium2, para continuar fornecendo aos nossos clientes a melhor performance com o menor custo.

Yoshiaki Umetsu, diretor do centro de desenvolvimento de tecnologia digital, Ricoh
PyTorch

O aspecto que mais me agradou na biblioteca NxD Inference do AWS Neuron foi sua integração sem complicações com os modelos da PyTorch. A abordagem do NxD é simples e fácil de usar. Nossa equipe conseguiu integrar os modelos da HuggingFace com PyTorch com alterações mínimas no código em um curto período de tempo. Habilitar recursos avançados, como o agrupamento em lote contínuo e a decodificação especulativa, foi uma tarefa simples. Essa facilidade de uso aumenta a produtividade dos desenvolvedores, permitindo que as equipes dediquem mais tempo à inovação e menos aos desafios de integração.

Hamid Shojanazeri, responsável pelo departamento de engenharia de parcerias da PyTorch, Meta
Refact.ai

A Refact.ai disponibiliza ferramentas avançadas de IA, como o preenchimento automático de código baseado na geração aumentada via recuperação (RAG), fornecendo sugestões mais precisas, e um chat contextual que usa tanto modelos proprietários quanto de código aberto.

Os clientes observaram um aumento de até 20% na performance e 1,5 vezes mais tokens por dólar com as instâncias Inf2 do EC2 em comparação com as instâncias G5 do EC2. As funcionalidades de ajuste da ferramenta Refact.ai aprimoram ainda mais a capacidade dos nossos clientes de compreender e se adaptar à base de código e ao ambiente exclusivos de suas organizações. Estamos igualmente entusiasmados em disponibilizar as funcionalidades do Trainium2, que proporcionarão um processamento ainda mais rápido e eficiente aos nossos fluxos de trabalho. Essa tecnologia avançada possibilitará que nossos clientes acelerem o processo de desenvolvimento de software ao aumentar a produtividade dos desenvolvedores enquanto mantêm padrões rigorosos de segurança para a base de código.

Oleg Klimov, diretor executivo e fundador, Refact.ai
Karakuri Inc.

A KARAKURI desenvolve ferramentas de IA para melhorar a eficiência do suporte ao cliente baseado na Web e simplificar a experiência do cliente. Essas ferramentas incluem chatbots baseados em IA e equipados com funções de IA generativa, ferramentas de centralização de perguntas frequentes e uma ferramenta de resposta por e-mail, que em conjunto aumentam a eficiência e a qualidade do suporte fornecido ao cliente. Com o uso do AWS Trainium, obtivemos sucesso no treinamento do KARAKURI LM 8x7B Chat v0.1. Para startups, como a nossa, é essencial otimizar o tempo de desenvolvimento e os custos associados ao treinamento de LLMs. Com o apoio do AWS Trainium e da equipe da AWS, conseguimos desenvolver um LLM de nível prático em um curto período de tempo. Além disso, ao adotar o AWS Inferentia, conseguimos desenvolver um serviço de inferência rápido e econômico. Estamos entusiasmados com o Trainium2, pois ele revolucionará nosso processo de treinamento, reduzindo o tempo de treinamento pela metade e elevando a eficiência a novos patamares.

Tomofumi Nakayama, cofundador, Karakuri Inc.
Stockmark Inc.

Com a missão de “reinventar o mecanismo de criação de valor e promover a humanidade”, a Stockmark ajuda muitas empresas a criar e construir negócios inovadores fornecendo tecnologia de processamento de linguagem natural de ponta. O novo serviço de análise e coleta de dados da Stockmark, chamado Anews, e o SAT, um serviço de estruturação de dados que aprimora significativamente o uso de IA generativa ao organizar todas as informações armazenadas em uma organização, nos levou a repensar a forma como desenvolvemos e implantamos modelos para apoiar esses produtos. Com 256 aceleradores do Trainium, desenvolvemos e lançamos o stockmark-13b, um grande modelo de linguagem com 13 bilhões de parâmetros, treinado previamente desde o início com um conjunto de dados de corpus japonês com 220 bilhões de tokens. As instâncias Trn1 foram fundamentais para reduzir nossos custos de treinamento em 20%. Com o uso do Trainium, conseguimos desenvolver com sucesso um LLM capaz de responder a perguntas essenciais para os negócios com uma precisão e agilidade sem precedentes. Esta conquista é especialmente relevante considerando o desafio generalizado que as empresas enfrentam para garantir recursos computacionais adequados para o desenvolvimento de modelos. Com a notável velocidade e redução de custos das instâncias Trn1, estamos empolgados para observar os benefícios adicionais que o Trainium2 proporcionará aos nossos fluxos de trabalho e clientes.

Kosuke Arima, diretor de tecnologia e cofundador, Stockmark Inc.
Brave

O Brave é um navegador e mecanismo de pesquisa autônomo, dedicado a priorizar a privacidade e a segurança do usuário. Com uma base de mais de 70 milhões de usuários, fornecemos proteções líderes no mercado que tornam a Web mais segura e mais intuitiva para os usuários. Ao contrário de outras plataformas que se afastaram de abordagens centradas no usuário, o Brave mantém seu compromisso com a privacidade, a segurança e a conveniência como prioridades. Os principais recursos fornecidos incluem o bloqueio de scripts e rastreadores prejudiciais, geração de resumos de páginas assistidos por IA e com a tecnologia de LLMs, serviços de VPN integrados, e muito mais. Nós nos esforçamos continuamente para aprimorar a velocidade e a eficiência de custo de nossos serviços de pesquisa e modelos de IA. Com o objetivo de apoiar isso, estamos entusiasmados em usar as funcionalidades mais recentes dos chips de IA da AWS, como o Trainium2, para aprimorar a experiência do usuário enquanto escalamos nossa capacidade de lidar com bilhões de consultas de pesquisa mensais.

Subu Sathyanarayana, vice-presidente de engenharia, Brave Software
Anyscale

A Anyscale é a responsável pelo Ray, um mecanismo de computação baseado em IA que impulsiona iniciativas de machine learning e IA generativa para empresas. Com a plataforma unificada de IA da Anyscale, orientada pelo RayTurbo, os clientes experimentam até 4,5 vezes mais rapidez no processamento de dados, uma redução de 10 vezes no custo de inferência em lote com LLMs, 5 vezes mais agilidade na escalabilidade, 12 vezes mais rapidez nas iterações e uma economia de 50% nos custos de inferência de modelos on-line, ao otimizar a utilização dos recursos.

Na Anyscale, estamos comprometidos em capacitar as empresas com as melhores ferramentas para escalar as workloads de IA de forma eficiente e econômica. Com suporte nativo para chips do AWS Trainium e do Inferentia, baseados no nosso runtime RayTurbo, nossos clientes podem contar com opções de alta performance e com ótimo custo-benefício para o treinamento e a execução de modelos. Agora, é com entusiasmo que nos unimos à AWS no Trainium2, criando novas oportunidades para nossos clientes inovarem de forma ágil e fornecerem experiências de IA transformadoras e de alta performance em grande escala.

Robert Nishihara, cofundador, Anyscale
Datadog

A Datadog, uma plataforma de observabilidade e de segurança para aplicações na nuvem, disponibiliza monitoramento do AWS Trainium e do Inferentia para que os clientes otimizem a performance dos modelos, aumentem a eficiência e reduzam os custos. A integração da Datadog proporciona visibilidade completa das operações de machine learning e da performance dos chips subjacentes, possibilitando a resolução proativa de problemas e uma escalabilidade contínua da infraestrutura. Estamos entusiasmados em ampliar nossa parceria com a AWS para o lançamento do AWS Trainium2, que auxilia os usuários na redução de custos com infraestrutura de IA em até 50% e no aprimoramento da performance no treinamento e na implantação de modelos.

Yrieix Garnier, vice-presidente da empresa de produtos, Datadog
Hugging Face

A Hugging Face é a principal plataforma aberta para desenvolvedores de IA, com mais de 2 milhões de modelos, conjuntos de dados e aplicações de IA compartilhados por uma comunidade de mais de 5 milhões de pesquisadores, cientistas de dados, engenheiros de machine learning e desenvolvedores de software. Nos últimos anos, trabalhamos em colaboração com a AWS, para facilitar aos desenvolvedores o acesso aos benefícios de performance e de custo do AWS Inferentia e do Trainium, por meio da biblioteca de código aberto Optimum Neuron, integrada aos Inference Endpoints da Hugging Face, e agora otimizada em nosso novo serviço de implantação automática HUGS, disponível no AWS Marketplace. Com o lançamento do Trainium2, nossos usuários terão acesso a uma performance superior para desenvolver e implantar modelos com mais rapidez.

Jeff Boudier, diretor do departamento de produtos, Hugging Face
Lightning AI

A Lightning AI, criadora do PyTorch Lightning e do Lightning Studios, disponibiliza a plataforma de desenvolvimento de IA mais intuitiva e completa para IA de nível empresarial. A Lightning fornece ferramentas de código completo, de baixo código e sem código para o desenvolvimento de agentes, aplicações de IA e soluções de IA generativa, com velocidade característica das soluções da Lightning. Projetada para fornecer flexibilidade, a solução funciona sem complicações na nuvem que você usa ou na nossa, aproveitando a experiência e o suporte de uma comunidade de desenvolvedores com mais de 3 milhões de integrantes.

Agora, o Lightning oferece suporte nativo para os chips de IA da AWS, o Trainium e o Inferentia, que estão integrados ao Lightning Studios e às ferramentas de código aberto, como PyTorch Lightning, Fabric e LitServe. Isso proporciona aos usuários a capacidade de realizar treinamentos prévios, ajustes e implantações sem complicações em grande escala, otimizando custo, a disponibilidade e a performance sem sobrecarga de transição. Além disso, os benefícios de performance e de custo dos chips de IA da AWS, incluem a mais recente geração de chips do Trainium2, que fornecem maior performance a um custo reduzido.

Luca Antiga, diretor de tecnologia, Lightning AI
Domino Data Lab

A Domino orquestra todos os artefatos de ciência de dados, incluindo infraestrutura, dados e serviços na AWS em todos os ambientes, complementando o Amazon SageMaker com recursos de governança e colaboração para apoiar equipes corporativas de ciência de dados. O Domino está disponível no AWS Marketplace como SaaS ou autogerenciado.

As empresas líderes devem equilibrar a complexidade técnica, os custos e a governança, dominando opções abrangentes de IA para obter uma vantagem competitiva. Na Domino, temos o compromisso de oferecer aos clientes acesso a tecnologias de ponta. Com a computação como um gargalo para tantas inovações revolucionárias, temos orgulho de oferecer aos clientes acesso ao Trainium2 para que eles possam treinar e implantar modelos com maior desempenho, menor custo e melhor eficiência energética.

Nick Elprin, diretor executivo e cofundador, Domino Data Lab
Scale.ai

A escala está acelerando o desenvolvimento de aplicações de IA. Com as soluções de IA generativa da Scale, ajudamos as empresas a acelerar a adoção da IA generativa e aumentar o ROI gerando dados de alta qualidade e fornecendo soluções de tecnologia que permitem que nossos clientes criem, implantem e avaliem as melhores ferramentas e aplicações de IA. No início deste ano, a Scale fez uma parceria com a AWS para ser sua primeira parceira de personalização e avaliação de modelos. À medida que ajudamos nossos clientes a acelerar seu roteiro de IA para criar soluções de IA generativa, ofereceremos o AWS Trainium e o Inferentia para reduzir os custos de treinamento e implantação de seus modelos de código aberto. Estamos entusiasmados em ver o AWS Trainium 2 trazer maior economia de custos.

Vijay Kaunamurthy, CTO de campo
Money Forward, Inc.

A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e justa.

Lançamos um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduzimos nossa latência de inferência em 97% em relação a instâncias comparáveis baseadas em GPU, além de reduzir os custos. Como continuamos ajustando modelos personalizados de PNL periodicamente, também é importante reduzir os tempos e custos de treinamento de modelos. Com base em nossa experiência de migração bem-sucedida da workload de inferência em instâncias Inf1 e em nosso trabalho inicial em instâncias Trn1 do EC2 baseadas no AWS Trainium, esperamos que as instâncias Trn1 forneçam valor adicional para melhorar a performance e o custo de ML de ponta a ponta.

Takuya Nakade, CTO da Money Forward, Inc.
Mimecast

A Magic é uma empresa integrada de produtos e pesquisas que desenvolve IA para tornar o mundo mais produtivo.

Na Mimecast, processamos cerca de 1,4 bilhão de e-mails todos os dias e os analisamos quanto a possíveis riscos. É uma tarefa crucial e é vital que entreguemos e-mails seguros, sem riscos e sem atrasos. Nossos clientes abrangem mais de 100 países e, em média, cada organização usa 4,9 serviços da Mimecast. A plataforma inclui segurança avançada de e-mail, segurança de colaboração, arquivamento de e-mail, DMARC, proteção interna contra riscos e conscientização sobre segurança com uma abordagem centrada no ser humano. Não queremos sacrificar a precisão, por isso construímos nossos modelos internamente para atingir níveis de precisão e recall bem acima de 90%. Com base nesses requisitos, as instâncias Inferentia 2 foram a maneira mais adequada de avançar. A eficiência excepcional do Inferentia 2 nos permite alcançar uma latência notável, oferecendo experiências em tempo real para nossos clientes. Os chips de IA da AWS combinados com o SageMaker facilitam muito a escalabilidade horizontal para atender à nossa demanda em tempo real. Além disso, usamos uma política de escalabilidade programada personalizada para escalar até centenas de instâncias nos horários de pico com quase zero despesas gerais de latência.

Felix Laumann, diretor de ciência de dados
Jax (Google)

A CACTUS tem um conjunto de produtos e soluções para pesquisadores e organizações que melhoram a forma como a pesquisa é financiada, publicada, comunicada e descoberta.

O AWS Neuron foi projetado para facilitar o uso de frameworks populares, como o JAX com Trainium, ao mesmo tempo em que minimiza as alterações de código e a integração com soluções específicas do fornecedor. O Google e a AWS estão colaborando para permitir que os clientes comecem a usar instâncias Trn2 rapidamente usando o JAX para treinamento e inferência em grande escala por meio de sua integração nativa com o OpenXLA. Com uma ampla colaboração e agora a disponibilidade do Trainium2, o Google espera ver uma maior adoção do JAX, um marco significativo para toda a comunidade de ML.

Bill Jia, vice-presidente de engenharia do Google
Watashiha

O Watashiha oferece um serviço de chatbot de IA inovador e interativo, o “OGIRI AI”, que incorpora humor para fornecer uma resposta divertida e imediata para uma pergunta.

Usamos grandes modelos de linguagem para incorporar humor e oferecer uma experiência mais relevante e coloquial aos clientes em nossos serviços de IA. Isso exige o pré-treinamento e o ajuste desses modelos com frequência. Fizemos o pré-treinamento de um modelo japonês baseado em GPT na instância Trn1.32xlarge do EC2, usando o paralelismo dos tensores e dados. O treinamento foi concluído em 28 dias com uma redução de custo de 33% em relação à nossa infraestrutura anterior baseada em GPU. Como nossos modelos continuam crescendo rapidamente em complexidade, esperamos que as instâncias Trn1n tenham o dobro da largura de banda da rede da Trn1 para acelerar o treinamento de modelos maiores.

Yohei Kobashi, CTO da Watashiha, K.K.
Amazon

O mecanismo de pesquisa de produtos da Amazon indexa bilhões de produtos, atende a bilhões de consultas de clientes diariamente e é um dos serviços mais usados no mundo.

Estamos treinando grandes modelos de linguagem (LLM) que são multimodais (texto + imagem), multilíngues, multilocais, pré-treinados em várias tarefas e que abrangem várias entidades (produtos, consultas, marcas, avaliações etc.) para melhorar a experiência de compra do cliente. As instâncias Trn1 fornecem uma maneira mais sustentável de treinar LLMs, oferecendo a melhor performance/watt em comparação com outras soluções aceleradas de machine learning e nos oferecem alta performance com o menor custo. Planejamos explorar o novo tipo de dados FP8 configurável e o arredondamento estocástico acelerado por hardware para aumentar ainda mais a eficiência do nosso treinamento e a velocidade do desenvolvimento.

Trishul Chilimbi, vice-presidente de pesquisa da Amazon
Meta

O que mais gostei na biblioteca AWS Neuron NxD Inference é a facilidade com que ela se integra a modelos PyTorch. A abordagem da NxD é simples e fácil de usar. Nossa equipe conseguiu integrar os modelos da HuggingFace com PyTorch com alterações mínimas no código em um curto período de tempo. Habilitar recursos avançados, como o agrupamento em lote contínuo e a decodificação especulativa, foi uma tarefa simples. Essa facilidade de uso aumenta a produtividade dos desenvolvedores, permitindo que as equipes dediquem mais tempo à inovação e menos aos desafios de integração.

Hamid Shojanazeri, parceiro líder da Pytorch, Engineering Meta