Clientes de AWS Trainium

Descubra cómo los clientes utilizan AWS Trainium para crear, entrenar y ajustar modelos de aprendizaje profundo.
  • Anthropic

    En Anthropic, millones de personas confían a diario en Claude para realizar sus trabajos. Anunciamos dos avances importantes con AWS. En primer lugar, un nuevo “modo optimizado para latencia” para Claude 3.5 Haiku, que funciona un 60 % más rápido en Trainium2 a través de Amazon Bedrock. En segundo lugar, el Proyecto Rainier. Se trata de un clúster nuevo con cientos de miles de chips Trainium2 que ofrecen cientos de exaflops, lo que supone más de cinco veces el tamaño de nuestro clúster anterior. El Proyecto Rainier ayudará a impulsar tanto nuestra investigación como nuestra próxima generación de escalamiento. Para nuestros clientes, esto significa más inteligencia, precios más bajos y velocidades más rápidas. No solo estamos creando una IA más rápida, sino también una IA fiable que escale.

    Tom Brown, Chief Compute Officer de Anthropic
  • Databricks

    Mosaic AI de Databricks permite a las organizaciones crear e implementar sistemas de agentes de calidad. Se crea de forma nativa sobre el data lakehouse, lo que permite a los clientes personalizar sus modelos de forma fácil y segura con datos empresariales y ofrecer resultados más precisos y específicos de cada dominio. Gracias al alto rendimiento y la rentabilidad de Trainium, los clientes pueden escalar el entrenamiento del modelo en Mosaic AI a un costo bajo. La disponibilidad de Trainium2 será un beneficio importante para Databricks y sus clientes, ya que la demanda de Mosaic AI sigue creciendo en todos los segmentos de clientes y en todo el mundo. Databricks, una de las empresas de datos e IA más grandes del mundo, planea utilizar TRN2 para ofrecer mejores resultados y reducir el TCO hasta en un 30 % para sus clientes.

    Naveen Rao, VP of Generative AI de Databricks
  • poolside

    En poolside, queremos construir un mundo en el que la IA impulse la mayoría del trabajo de valor económico y el progreso científico. Creemos que el desarrollo de software será la primera capacidad importante de las redes neuronales que alcance el nivel de inteligencia humana, ya que es el dominio en el que mejor se pueden combinar los enfoques de búsqueda y aprendizaje. Por lo tanto, estamos creando modelos fundacionales, una API y un asistente para llevar el poder de la IA generativa a las manos (o al teclado) de los desarrolladores. Una de las claves para habilitar esta tecnología es la infraestructura que utilizamos para crear y ejecutar nuestros productos. Gracias a AWS Trainium2, nuestros clientes podrán escalar el uso de poolside con una relación precio-rendimiento diferente a la de otros aceleradores de IA. Además, planeamos entrenar los modelos futuros con Trainium2 UltraServer, con un ahorro previsto del 40 % en comparación con las instancias P5 de EC2.

    Eiso Kant, CTO & Co-founder de poolside
  • Itaú Unibanco

    El propósito de Itaú Unibanco es mejorar la relación de las personas con el dinero, lo que crea un impacto positivo en sus vidas y amplía sus oportunidades de transformación. En Itaú Unibanco, creemos que cada cliente es único y nos enfocamos en satisfacer sus necesidades a través de viajes digitales intuitivos, que aprovechan el poder de la IA para adaptarse constantemente a sus hábitos de consumo.

    Probamos AWS Trainium e Inferentia en varias tareas, que van desde la inferencia estándar hasta aplicaciones refinadas. El rendimiento de estos chips de IA nos ha permitido alcanzar hitos importantes en la investigación y el desarrollo. En las tareas de inferencia por lotes y en línea, observamos que el rendimiento mejoró 7 veces en comparación con las GPU. Este rendimiento mejorado está impulsando la expansión de más casos de uso en toda la organización. La última generación de chips Trainium2 desbloquea características innovadoras para GenAI y abre la puerta a la innovación en Itaú.

    Vitor Azeka, Head of Data Science de Itaú Unibanco
  • NinjaTech AI

    Ninja es un agente de IA completo para que busca lograr una productividad ilimitada: una suscripción simple, acceso ilimitado a los mejores modelos de IA del mundo y las mejores habilidades de IA, como la escritura, la codificación, la lluvia de ideas, la generación de imágenes y la investigación en línea. Ninja es una plataforma de agentes y ofrece “SuperAgent”, que utiliza una mezcla de agentes con una precisión de primera clase comparable a la de los modelos fundacionales de frontera (y en algunas categorías la supera). La tecnología agente de Ninja exige aceleradores de alto rendimiento para ofrecer las experiencias únicas en tiempo real que nuestros clientes esperan. 

    Estamos muy entusiasmados con el lanzamiento de AWS TRN2 porque creemos que ofrecerá el mejor costo por token y la mayor velocidad posible de la actualidad para nuestro modelo principal Ninja LLM, que se basa en Llama 3.1 405B. Es increíble ver la baja latencia de Trn2, junto con los precios competitivos y la disponibilidad bajo demanda. No podríamos estar más entusiasmados con la llegada de Trn2.

    Babak Pahlavan, Founder & CEO de NinjaTech AI
  • Ricoh

    El equipo de machine learning de RICOH desarrolla soluciones para el lugar de trabajo y servicios de transformación digital diseñados para administrar y optimizar el flujo de información en nuestras soluciones empresariales.

    La migración a las instancias Trn1 fue sencilla. Pudimos entrenar previamente nuestro LLM de 13 000 millones de parámetros en solo 8 días con un clúster de 4096 chips Trainium. Luego del éxito que obtuvimos con nuestro modelo más pequeño, refinamos un LLM nuevo y más grande basado en Llama-3-Swallow-70B y, gracias a Trainium, pudimos reducir un 50 % nuestros costos de entrenamiento y mejorar un 25% la eficiencia energética en comparación con el uso de las máquinas GPU más recientes de AWS. Nos entusiasma aprovechar la última generación de chips de IA de AWS, Trainium2, para seguir ofreciendo a nuestros clientes el mejor rendimiento al costo más bajo.

    Yoshiaki Umetsu, Director, Digital Technology Development Center de Ricoh
  • PyTorch

    Lo que más me gustó de la biblioteca de NxD Inference de AWS Neuron es cómo se integra perfectamente con los modelos de PyTorch. El enfoque de NxD es sencillo y fácil de utilizar. Nuestro equipo pudo incorporar los modelos de PyTorch en HuggingFace con cambios mínimos en el código y en poco tiempo. La habilitación de características avanzadas como el procesamiento por lotes continuo y la decodificación especulativa fue sencilla. El uso sencillo mejora la productividad de los desarrolladores, lo que permite a los equipos centrarse más en la innovación y menos en los desafíos de integración.

    Hamid Shojanazeri, PyTorch Partner Engineering Lead de Meta
  • Refact.ai

    Refact.ai ofrece herramientas de IA completas, como el autocompletado de código con generación aumentada por recuperación (RAG), que proporciona sugerencias más precisas, y un chat que se adapta al contexto mediante modelos patentados y de código abierto.

    Los clientes han alcanzado hasta un 20 % más de rendimiento y 1,5 veces más de tokens por dólar con las instancias Inf2 de EC2 en comparación con las instancias G5 de EC2. Las capacidades de ajuste de Refact.ai mejoran aún más la capacidad de nuestros clientes para comprender y adaptarse al entorno y al código base único de sus organizaciones. Nos complace también ofrecer las capacidades de Trainium2, que brindarán un procesamiento aún más rápido y eficiente a nuestros flujos de trabajo. Esta tecnología avanzada permitirá a nuestros clientes acelerar el proceso de desarrollo de software, ya que aumenta la productividad de los desarrolladores y, al mismo tiempo, mantiene estrictos estándares de seguridad para la base de código.

    Oleg Klimov CEO & Founder de Refact.ai
  • Karakuri Inc.

    KARAKURI crea herramientas de IA para mejorar la eficacia de la atención al cliente basada en la web y simplificar la experiencia de los clientes. Estas herramientas incluyen chatbots de IA equipados con funciones de IA generativa, herramientas de centralización de preguntas frecuentes y una herramienta de respuesta por correo electrónico, todo lo cual mejora la eficiencia y la calidad de la atención al cliente. Gracias a AWS Trainium, logramos entrenar KARAKURI LM 8x7B Chat v0.1. Las empresas emergentes, como nosotros, necesitamos optimizar el tiempo de creación y el costo requerido para entrenar a los LLM. Con el apoyo de AWS Trainium y el equipo de AWS, logramos desarrollar un LLM de nivel práctico en poco tiempo. Además, con la adopción de AWS Inferentia pudimos crear un servicio de inferencia rápido y rentable. Estamos entusiasmados con Trainium2 porque revolucionará nuestro proceso de entrenamiento, reducirá nuestro tiempo de entrenamiento a la mitad e impulsará la eficiencia a niveles nuevos.

    Tomofumi Nakayama, Co-Founder de Karakuri Inc.
  • Stockmark Inc.

    Con la misión de “reinventar el mecanismo de creación de valor y hacer avanzar a la humanidad”, Stockmark ayuda a muchas empresas a crear y construir negocios innovadores al proporcionar tecnología de procesamiento del lenguaje natural de vanguardia. El nuevo servicio de análisis y recopilación de datos de Stockmark, llamado Anews, y SAT, un servicio de estructuración de datos que mejora drásticamente los usos de la IA generativa mediante la organización de todas las formas de información almacenada en una organización, nos obligaron a replantearnos la forma en que creamos e implementamos los modelos para respaldar estos productos. Con 256 aceleradores Trainium, desarrollamos y publicamos stockmark-13b, un modelo de lenguaje de gran tamaño con 13 000 millones de parámetros, previamente entrenado desde cero en un conjunto de datos japonés de 220 000 millones de tokens. Las instancias Trn1 nos ayudaron a reducir un 20% los costos de entrenamiento. Con Trainium, desarrollamos con éxito un LLM que puede responder a preguntas críticas empresariales de profesionales con una precisión y velocidad sin precedentes. Este logro es particularmente notable dado el desafío generalizado al que se enfrentan las empresas a la hora de conseguir recursos computacionales adecuados para el desarrollo de modelos. Con la impresionante reducción de costos y la velocidad de las instancias Trn1, nos entusiasma ver los beneficios adicionales que Trainium2 aportará a nuestros flujos de trabajo y clientes.

    Kosuke Arima, CTO and Co-founder de Stockmark Inc.
  • Brave

    Brave es un navegador y motor de búsqueda independiente dedicado a priorizar la privacidad y la seguridad del usuario. Con más de 70 millones de usuarios, ofrecemos protecciones líderes en el sector que hacen que la Web sea más segura y fácil de usar. A diferencia de otras plataformas que se han alejado de los enfoques centrados en el usuario, Brave mantiene su compromiso de priorizar la privacidad, la seguridad y la comodidad. Las características principales incluyen el bloqueo de scripts y rastreadores dañinos, resúmenes de páginas asistidos por IA impulsados por LLM, servicios de VPN integrados, etc. Nos esforzamos continuamente por mejorar la velocidad y la rentabilidad de nuestros servicios de búsqueda y modelos de IA. Para lograrlo, nos complace aprovechar las capacidades más recientes de los chips de IA de AWS, incluido Trainium2, para mejorar la experiencia del usuario a medida que escalamos para administrar miles de millones de consultas de búsqueda al mes.

    Subu Sathyanarayana , VP of Engineering de Brave Software
  • Anyscale

    Anyscale es la empresa detrás de Ray, un motor informático de IA que impulsa las iniciativas de IA generativa y machine learning para empresas. Gracias a la plataforma de IA unificada de Anyscale impulsada por RayTurbo, los clientes obtienen un procesamiento de datos hasta 4,5 veces más rápido, una inferencia por lotes 10 veces más económica con LLM, un escalado 5 veces más rápido, una iteración 12 veces más rápida y un ahorro de costos del 50 % para la inferencia de modelos en línea mediante la optimización de la utilización de recursos.

    En Anyscale, nos comprometemos a brindar a las empresas las mejores herramientas para escalar las cargas de trabajo de IA de manera eficiente y rentable. Con soporte nativo para los chips de AWS Trainium e Inferentia, impulsados por la versión ejecutable de RayTurbo, nuestros clientes tienen acceso a opciones rentables y de alto rendimiento para el servicio y el entrenamiento del modelo. Nos entusiasma unir fuerzas con AWS en Trainium2, ya que se desbloquean nuevas oportunidades para que nuestros clientes innoven rápidamente y ofrezcan experiencias de IA transformadoras de alto rendimiento a escala.

    Robert Nishihara, Cofounder de Anyscale
  • Datadog

    Datadog, la plataforma de observabilidad y seguridad para aplicaciones en la nube, ofrece AWS Trainium e Inferentia Monitoring para que los clientes optimicen el rendimiento de los modelos, mejoren la eficiencia y reduzcan los costos. La integración de Datadog proporciona una visibilidad completa de las operaciones de ML y del rendimiento subyacente de los chips, lo que permite una resolución proactiva de los problemas y un escalado sin inconvenientes de la infraestructura. Nos complace ampliar nuestra asociación con AWS para el lanzamiento de AWS Trainium2, que ayuda a los usuarios a reducir los costos de infraestructura de IA hasta en un 50 % y a impulsar el entrenamiento del modelo y el rendimiento de la implementación.

    Yrieix Garnier, VP of Product Company de Datadog
  • Hugging Face

    Hugging Face es la plataforma abierta líder para desarrolladores de IA, con más de 2 millones de modelos, conjuntos de datos y aplicaciones de IA compartidos por una comunidad de más de 5 millones de investigadores, científicos de datos, ingenieros de machine learning y desarrolladores de software. Hemos colaborado con AWS durante los dos últimos años para que los desarrolladores puedan disfrutar más fácilmente de las ventajas de rendimiento y los costos de AWS Inferentia y Trainium a través de la biblioteca de código abierto Optimum Neuron, integrada en los puntos de enlace de inferencia de Hugging Face y ahora optimizada dentro de nuestro nuevo servicio de implementación automática HUGS, disponible en AWS Marketplace. Con el lanzamiento de Trainium2, nuestros usuarios accederán a un rendimiento aún mayor para desarrollar e implementar modelos más rápidamente.

    Jeff Boudier, Head of Product de Hugging Face
  • Lightning AI

    Lightning AI, el creador de PyTorch Lightning y Lightning Studios, ofrece la plataforma de desarrollo de IA más completa e intuitiva para IA de nivel empresarial. Lightning ofrece herramientas de código completo, poco código y sin código para crear agentes, aplicaciones de IA y soluciones de IA generativa ultrarrápidas. Diseñada para ofrecer flexibilidad, se ejecuta sin problemas en su nube o en la nuestra, y aprovecha la experiencia y el apoyo de una comunidad de desarrolladores de más de 3 millones de personas.

    Lightning ahora ofrece soporte nativo para los chips de IA de AWS, Trainium e Inferentia, que están integrados en Lightning Studios y nuestras herramientas de código abierto, como PyTorch Lightning, Fabric y LitServe. Esto brinda a los usuarios una capacidad perfecta para entrenarlos previamente, ajustarlos e implementarlos a escala, lo que optimiza el costo, la disponibilidad y el rendimiento sin gastos de conmutación, y ofrece los beneficios de rendimiento y costos de los chips de IA de AWS, incluida la última generación de chips Trainium2, que ofrecen un mayor rendimiento a menor costo.

    Luca Antiga, CTO de Lightning AI
  • Domino Data Lab

    Domino orquesta todos los artefactos de la ciencia de datos, incluida la infraestructura, los datos y los servicios en AWS en todos los entornos, complementando Amazon SageMaker con capacidades de gobernanza y colaboración para respaldar a los equipos de ciencia de datos empresariales. Domino está disponible a través de AWS Marketplace como SaaS o admministración automática.

    Las empresas líderes deben equilibrar la complejidad técnica, los costos y la gobernanza, dominando las opciones de expansión de la IA para obtener una ventaja competitiva. En Domino, nos comprometemos a ofrecer a los clientes acceso a las tecnologías más avanzadas. Teniendo en cuenta que la computación representa un obstáculo para muchas innovaciones revolucionarias, nos complace ofrecer a los clientes acceso a Trainium2 para que puedan entrenar y desplegar modelos con mayor rendimiento, menor costo y mejor eficiencia energética.

    Nick Elprin, consejero delegado y cofundador de Domino Data Lab
  • Scale.ai

    La escalabilidad está acelerando el desarrollo de aplicaciones de IA. Con las soluciones de IA generativa de Scale, ayudamos a las empresas a acelerar la adopción de la IA generativa y a aumentar el retorno de la inversión mediante la generación de datos de alta calidad y el suministro de soluciones tecnológicas que permiten a nuestros clientes crear, desplegar y evaluar las mejores herramientas y aplicaciones de IA. A principios de este año, Scale se asoció con AWS para ser su primer socio de personalización y evaluación de modelos. A medida que ayudemos a nuestros clientes a acelerar su estrategia de IA para crear soluciones de IA generativa, ofreceremos AWS Trainium e Inferentia para reducir los costos de formación e implementación de sus modelos de código abierto. Estamos muy contentos de que AWS Trainium 2 suponga un mayor ahorro de costos.

    Vijay Kaunamurthy director de Tecnología de Campo
  • Money Forward, Inc.

    Money Forward, Inc. brinda servicios a empresas e individuos con una plataforma financiera abierta y justa.

    Lanzamos un servicio de chatbot con IA a gran escala en las instancias Inf1 de Amazon EC2 y logramos reducir costos y nuestra latencia de inferencia en un 97 % en comparación con las instancias basadas en GPU. Mientras seguimos ajustando los modelos adaptados de NLP periódicamente, también es importante reducir los costos y tiempos de entrenamiento de modelos. Con base en nuestra exitosa experiencia de migración de cargas de trabajo de inferencia a instancias Inf1 y nuestro trabajo inicial en instancias Trn1 de EC2 basadas en AWS Trainium, esperamos que estas instancias agreguen valor adicional a la mejora del costo y rendimiento integral del ML.

    Takuya Nakade, CTO, Money Forward, Inc.
  • Mimecast

    Magic es un producto integrado y una empresa de investigación que desarrolla IA que es como el colega ideal para hacer que el mundo sea más productivo.

    En Mimecast, procesamos alrededor de 1400 millones de correos electrónicos cada día y los analizamos para detectar posibles riesgos. Es una tarea crucial, y es vital que entreguemos correos electrónicos seguros, sin riesgos y sin demora. Nuestros clientes abarcan más de 100 países y, de media, cada organización utiliza 4,9 servicios de Mimecast. La plataforma incluye seguridad avanzada de correo electrónico, seguridad de colaboración, archivo de correo electrónico, DMARC, protección contra riesgos internos y concienciación sobre seguridad con un enfoque centrado en las personas. No queremos sacrificar la precisión, por lo que creamos nuestros modelos internamente para alcanzar niveles de precisión y recuperación muy superiores al 90 %. Basándose en estos requisitos, las instancias Inferentia 2 eran el camino más adecuado. La excepcional eficacia de Inferentia 2 nos permite lograr una latencia notable, ofreciendo experiencias en tiempo real a nuestros clientes. Los chips de IA de AWS combinados con SageMaker facilitan enormemente el escalado horizontal para satisfacer nuestra demanda en tiempo real y utilizamos una política de escalado programado personalizada para escalar verticalmente cientos de instancias en horas punta con gastos generales de latencia prácticamente nulos.

    Felix Laumann director de Ciencia de Datos
  • Jax (Google)

    CACTUS tiene un conjunto de productos y soluciones para investigadores y organizaciones que mejora el financiamiento, publicación, difusión y descubrimiento de la investigación.

    AWS Neuron se ha diseñado para facilitar el uso de marcos populares como JAX con Trainium y minimizar los cambios de código y la vinculación a soluciones específicas de proveedores. Google y AWS están colaborando para que los clientes puedan comenzar a utilizar rápidamente las instancias de Trn2 mediante JAX para la formación y la inferencia a gran escala a través de su integración nativa con OpenXLA. Con una amplia colaboración y ahora la disponibilidad de Trainium2, Google espera que aumente la adopción de JAX, un hito importante para toda la comunidad de ML.

    Bill Jia vicepresidente de Ingeniería de Google
  • Watashiha

    Watashiha ofrece un servicio de chatbot de IA innovador e interactivo, OGIRI AI, que incorpora sentido del humor para ofrecer una respuesta divertida en el acto a una pregunta.

    Utilizamos modelos de lenguaje de gran tamaño para incorporar el sentido del humor y ofrecer una experiencia conversacional más relevante a nuestros clientes en nuestros servicios de IA. Esto nos obliga a preentrenar y ajustar estos modelos con frecuencia. Entrenamos previamente un modelo japonés basado en GPT en la instancia Trn1.32xlarge de EC2, en el cual aprovechamos el paralelismo de tensores y datos. El entrenamiento se completó en 28 días, con una reducción de costos del 33 % en comparación con nuestra infraestructura anterior basada en GPU. Dado que nuestros modelos son cada vez más complejos, esperamos contar con instancias Trn1n, que tienen el doble de ancho de banda de la red que Trn1, para acelerar el entrenamiento de modelos más grandes.

    Yohei Kobashi, director técnico de Watashiha, K.K.
  • Amazon

    El motor de búsqueda de productos de Amazon indexa miles de millones de productos, resuelve una infinidad de consultas de clientes diarias y es uno de los servicios más usados a nivel mundial.

    Actualmente, entrenamos modelos de lenguaje de gran tamaño (LLM) que son multimodales (texto e imagen), multilingües, aplican para varias configuraciones regionales, cuentan con entrenamiento previo en varias tareas y abarcan varias entidades (productos, consultas, marcas, revisiones, etc.) a fin de mejorar la experiencia de compra del cliente. Las instancias Trn1 proporcionan una manera más sostenible de entrenar los LLM a la vez que ofrecen el mejor rendimiento por vatios en comparación con otras soluciones aceleradas de machine learning y nos ofrecen alto rendimiento a menor precio. Planeamos descubrir el nuevo tipo de datos FP8 configurable y el redondeo estocástico acelerado de hardware para aumentar aún más la eficiencia de nuestros entrenamientos y la velocidad de desarrollo.

    Trishul Chilimbi, vicepresidente, Amazon Search
  • Meta

    Lo que más me ha gustado de la biblioteca AWS Neuron NxD Inference es su perfecta integración con los modelos de PyTorch.El enfoque de NxD es sencillo y fácil de usar. Nuestro equipo pudo incorporar los modelos de PyTorch en HuggingFace con cambios mínimos en el código y en poco tiempo. La habilitación de características avanzadas como el procesamiento por lotes continuo y la decodificación especulativa fue sencilla. El uso sencillo mejora la productividad de los desarrolladores, lo que permite a los equipos centrarse más en la innovación y menos en los desafíos de integración.

    Hamid Shojanazeri, socio líder de Pytorch Engineering Meta