Clienti AWS Trainium

Scopri come i clienti utilizzano AWS Trainium per creare, addestrare e perfezionare modelli di deep learning.
  • Anthropic

    In Anthropic, milioni di persone si affidano a Claude ogni giorno per il loro lavoro. Stiamo annunciando due importanti progressi con AWS: innanzitutto, per Claude 3.5 Haiku, una nuova “modalità ottimizzata per la latenza” che viene eseguita il 60% più velocemente su Trainium2 tramite Amazon Bedrock. In secondo luogo, Project Rainier, un nuovo cluster con centinaia di migliaia di chip Trainium2 che forniscono centinaia di exaflop, che è più di cinque volte la dimensione del nostro cluster precedente. Il progetto Rainier contribuirà a potenziare sia la nostra ricerca che la nostra prossima generazione di scalabilità. Per i nostri clienti, ciò significa maggiore intelligenza, prezzi più bassi e velocità più elevate. Non stiamo solo sviluppando un'IA più veloce, stiamo creando un'IA affidabile e scalabile.

    Tom Brown, Chief Compute Officer presso Anthropic
  • Databricks

    Mosaic AI di Databricks consente alle organizzazioni di creare e implementare sistemi di agenti di qualità. È costruito in modo nativo sulla base del data lakehouse, consentendo ai clienti di personalizzare in modo semplice e sicuro i propri modelli con dati aziendali e fornire output più accurati e specifici per il dominio. Grazie alle elevate prestazioni e all'economicità di Trainium, i clienti possono scalare l'addestramento dei modelli su Mosaic AI a costi contenuti. La disponibilità di Trainium2 sarà un grande vantaggio per Databricks e i suoi clienti poiché la domanda di Mosaic AI continua a crescere in tutti i segmenti dei clienti e in tutto il mondo. Databricks, una delle più grandi aziende di dati e intelligenza artificiale al mondo, prevede di utilizzare TRN2 per fornire risultati migliori e ridurre il TCO fino al 30% per i propri clienti.

    Naveen Rao, VP of Generative AI presso Databricks
  • poolside

    In poolside, siamo pronti a costruire un mondo in cui l'IA guiderà la maggior parte del lavoro e del progresso scientifico economicamente preziosi. Riteniamo che lo sviluppo di software sarà la prima grande capacità delle reti neurali di raggiungere un'intelligenza di livello umano, perché è il campo in cui possiamo combinare al meglio gli approcci di ricerca e di apprendimento. A tal fine, stiamo creando modelli di fondazione, un'API e un assistente per portare la potenza dell'IA generativa nelle mani (o sulla tastiera) degli sviluppatori. Una delle chiavi principali per abilitare questa tecnologia è l'infrastruttura che utilizziamo per creare ed eseguire i nostri prodotti. Con AWS Trainium2, i nostri clienti saranno in grado di scalare il loro utilizzo di poolside a un rapporto prezzo-prestazioni diverso da quello di altri acceleratori di IA. Inoltre, prevediamo di addestrare i modelli futuri con gli UltraServer Trainium2 con un risparmio previsto del 40% rispetto alle istanze P5 EC2.

    Eiso Kant, CTO & Co-founder presso poolside
  • Itaú Unibanco

    Lo scopo di Itaú Unibanco è quello di migliorare il rapporto delle persone con il denaro, creando un impatto positivo sulla loro vita e ampliando le loro opportunità di trasformazione. In Itaú Unibanco, crediamo che ogni cliente sia unico e ci concentriamo sul soddisfare le sue esigenze attraverso percorsi digitali intuitivi, che sfruttano la potenza dell'IA per adattarsi costantemente alle loro abitudini di consumo.

    Abbiamo testato AWS Trainium e Inferentia in varie attività, dall'inferenza standard alle applicazioni ottimizzate. Le prestazioni di questi chip di IA ci hanno permesso di raggiungere traguardi significativi nella ricerca e nello sviluppo. Per le attività di inferenza in batch e online, abbiamo riscontrato un miglioramento di 7 volte del throughput rispetto alle GPU. Queste prestazioni migliorate stanno favorendo l'espansione di più casi d'uso in tutta l'organizzazione. L'ultima generazione di chip Trainium2 sblocca funzionalità rivoluzionarie per GenAI e apre le porte all'innovazione in Itaú.

    Vitor Azeka, Head of Data Science presso Itaú Unibanco
  • NinjaTech AI

    Ninja è un agente IA all-in-one per una produttività illimitata: un semplice abbonamento, accesso illimitato ai migliori modelli di IA del mondo insieme alle migliori competenze di IA come: scrittura, codifica, brainstorming, generazione di immagini, ricerca online. Ninja è una piattaforma di agenti e offre “SuperAgent” che utilizza una combinazione di agenti con una precisione di livello mondiale paragonabile (e in alcune categorie superiore) ai modelli di fondazione di frontiera. La tecnologia agentica di Ninja richiede gli acceleratori dalle prestazioni più elevate, per offrire le esperienze in tempo reale univoche che i nostri clienti si aspettano. 

    Siamo estremamente entusiasti del lancio di AWS TRN2 perché riteniamo che offrirà le migliori prestazioni in termini di costo per token e la velocità più elevata attualmente possibile per il nostro modello principale Ninja LLM, basato su Llama 3.1 405B. È sorprendente vedere la bassa latenza di Trn2 unita a prezzi competitivi e alla disponibilità on-demand: non potremmo essere più entusiasti dell'arrivo di Trn2!

    Babak Pahlavan, Founder & CEO presso NinjaTech AI
  • Ricoh

    Il team di machine learning di RICOH sviluppa soluzioni per l'ambiente di lavoro e servizi di trasformazione digitale progettati per gestire e ottimizzare il flusso di informazioni tra le nostre soluzioni aziendali.

    La migrazione alle istanze Trn1 è stata semplice e immediata. Siamo stati in grado di preaddestrare il nostro LLM con parametri 13B in soli 8 giorni, utilizzando un cluster di 4.096 chip Trainium. Dopo il successo riscontrato con il nostro modello più piccolo, abbiamo messo a punto un nuovo LLM più grande basato su Llama-3-Swallow-70B e, sfruttando Trainium, siamo stati in grado di ridurre i costi di addestramento del 50% e di migliorare l'efficienza energetica del 25% rispetto all'utilizzo di macchine GPU più recenti in AWS. Siamo entusiasti di sfruttare l'ultima generazione di chip di IA AWS, Trainium2, per continuare a fornire ai nostri clienti le migliori prestazioni al minor costo.

    Yoshiaki Umetsu, Director, Digital Technology Development Center presso Ricoh
  • PyTorch

    Quello che mi è piaciuto di più della libreria di inferenza AWS Neuron NxD è la perfetta integrazione con i modelli PyTorch. L'approccio di NxD è semplice e intuitivo. Il nostro team è stato in grado di integrare i modelli PyTorch di HuggingFace con modifiche minime al codice in un breve lasso di tempo. L'attivazione di funzionalità avanzate come il batch continuo e la decodifica speculativa è stato semplice. Questa facilità d'uso migliora la produttività degli sviluppatori, consentendo ai team di concentrarsi maggiormente sull'innovazione e meno sulle sfide di integrazione.

    Hamid Shojanazeri, PyTorch Partner Engineering Lead presso Meta
  • Refact.ai

    Refact.ai offre strumenti di intelligenza artificiale completi come il completamento automatico del codice basato su Retrieval-Augmented Generation (RAG), che fornisce suggerimenti più accurati e una chat sensibile al contesto utilizzando modelli proprietari e open source.

    I clienti hanno ottenuto prestazioni fino al 20% superiori e token per dollaro 1,5 volte superiori con le istanze Inf2 di EC2 rispetto alle istanze G5 di EC2. Le funzionalità di ottimizzazione di Refact.ai migliorano ulteriormente la capacità dei nostri clienti di comprendere e adattarsi alla base di codice e all'ambiente unici delle loro organizzazioni. Siamo inoltre entusiasti di poter offrire le funzionalità di Trainium2, che renderanno l'elaborazione dei nostri flussi di lavoro ancora più rapida ed efficiente. Questa tecnologia avanzata consentirà ai nostri clienti di accelerare il processo di sviluppo del software, aumentando la produttività degli sviluppatori e mantenendo rigorosi standard di sicurezza per la loro base di codice.

    Oleg Klimov CEO & Founder presso Refact.ai
  • Karakuri Inc.

    KARAKURI crea strumenti di intelligenza artificiale per migliorare l'efficienza dell'assistenza clienti basata sul web e semplificare le esperienze dei clienti. Questi strumenti includono chatbot basati sull'IA dotati di funzioni di IA generativa, strumenti di centralizzazione delle domande frequenti e uno strumento di risposta alle e-mail, che migliorano l'efficienza e la qualità dell'assistenza clienti. Utilizzando AWS Trainium, siamo riusciti ad addestrare KARAKURI LM 8x7B Chat v0.1. Per le startup, come la nostra, dobbiamo ottimizzare i tempi di creazione e i costi necessari per addestrare gli LLM. Con il supporto di AWS Trainium e AWS Team, siamo stati in grado di sviluppare un LLM di livello pratico in un breve periodo di tempo. Inoltre, adottando AWS Inferentia, siamo stati in grado di creare un servizio di inferenza rapido ed economico. Siamo entusiasti di Trainium2 perché rivoluzionerà il nostro processo di addestramento, riducendo i tempi di 2 volte e portando l'efficienza a nuovi livelli.

    Tomofumi Nakayama, Co-Founder presso Karakuri Inc.
  • Stockmark Inc.

    Con la missione di "reinventare il meccanismo di creazione di valore e promuovere l'umanità", Stockmark aiuta molte aziende a creare e costruire attività innovative fornendo tecnologie all'avanguardia per l'elaborazione del linguaggio naturale. Il nuovo servizio di analisi e raccolta dei dati di Stockmark chiamato Anews and SAT, un servizio di strutturazione dei dati che migliora notevolmente gli usi dell'IA generativa organizzando tutte le forme di informazioni archiviate in un'organizzazione, ci ha richiesto di ripensare al modo in cui abbiamo costruito e implementato modelli per supportare questi prodotti. Con 256 acceleratori Trainium, abbiamo sviluppato e rilasciato stockmark-13b, un modello linguistico di grandi dimensioni con 13 miliardi di parametri, pre-addestrato da zero sul set di dati di un corpus giapponese di 220 miliardi di token. Le istanze Trn1 ci hanno aiutato a ridurre i costi di addestramento del 20%. Sfruttando Trainium, abbiamo sviluppato con successo un LLM in grado di rispondere a domande critiche per i professionisti con una precisione e una velocità senza precedenti. Questo risultato è particolarmente degno di nota se si considera che le aziende devono affrontare una sfida diffusa per ottenere risorse computazionali adeguate per lo sviluppo dei modelli. Con l'impressionante velocità e la riduzione dei costi delle istanze Trn1, siamo ansiosi di vedere i vantaggi aggiuntivi che Trainium2 porterà ai nostri flussi di lavoro e ai nostri clienti.

    Kosuke Arima, CTO and Co-founder presso Stockmark Inc.
  • Brave

    Brave è un browser e motore di ricerca indipendente dedicato a dare priorità alla privacy e alla sicurezza degli utenti. Con oltre 70 milioni di utenti, forniamo protezioni leader del settore che rendono il web più sicuro e intuitivo. A differenza di altre piattaforme che hanno abbandonato gli approcci incentrati sull'utente, Brave rimane impegnata a mettere la privacy, la sicurezza e la comodità al primo posto. Le funzionalità principali includono il blocco di script e tracker dannosi, i riepiloghi delle pagine assistiti dall'IA e alimentati da LLM, i servizi VPN integrati e altro ancora. Ci impegniamo costantemente per migliorare la velocità e l'efficienza in termini di costi dei nostri servizi di ricerca e dei modelli di intelligenza artificiale. A tale scopo, siamo entusiasti di sfruttare le più recenti funzionalità dei chip di IA AWS, incluso Trainium2, per migliorare l'esperienza utente man mano che scaliamo al fine di gestire miliardi di query di ricerca al mese.

    Subu Sathyanarayana, VP of Engineering presso Brave Software
  • Anyscale

    Anyscale è l'organizzazione che ha creato Ray, un motore di calcolo IA che alimenta le iniziative di ML e IA generativa per le aziende. Con la piattaforma di IA unificata di Anyscale basata su RayTurbo, i clienti ottengono un'elaborazione dei dati fino a 4,5 volte più veloce, un'inferenza batch 10 volte inferiore con LLM, una scalabilità 5 volte più veloce, un'iterazione 12 volte più veloce e un risparmio sui costi del 50% per l'inferenza dei modelli online ottimizzando l'utilizzo delle risorse.

    In Anyscale, ci impegniamo a fornire alle aziende i migliori strumenti per scalare i carichi di lavoro di IA in modo efficiente ed economico. Grazie al supporto nativo per i chip AWS Trainium e Inferentia, alimentati dal runtime RayTurbo, i nostri clienti hanno accesso a opzioni ad alte prestazioni e convenienti per l'addestramento e la gestione dei modelli. Siamo ora entusiasti di unire le nostre forze con AWS su Trainium2, per offrire ai nostri clienti nuove opportunità di innovare rapidamente e fornire esperienze di IA trasformativa ad alte prestazioni su larga scala.

    Robert Nishihara, Cofounder presso Anyscale
  • Datadog

    Datadog, la piattaforma di osservabilità e sicurezza per applicazioni cloud, fornisce AWS Trainium e Inferentia Monitoring ai clienti per ottimizzare le prestazioni dei modelli, migliorare l'efficienza e ridurre i costi. L'integrazione di Datadog offre piena visibilità sulle operazioni di ML e sulle prestazioni dei chip sottostanti, consentendo una risoluzione proattiva dei problemi e una scalabilità perfetta dell'infrastruttura. Siamo entusiasti di estendere la nostra partnership con AWS per il lancio di AWS Trainium2, che aiuta gli utenti a ridurre i costi dell'infrastruttura IA fino al 50% e ad aumentare le prestazioni di addestramento e implementazione dei modelli.

    Yrieix Garnier, VP of Product Company presso Datadog
  • Hugging Face

    Hugging Face è la principale piattaforma aperta per gli sviluppatori di intelligenza artificiale, con oltre 2 milioni di modelli, set di dati e applicazioni di IA condivisi da una comunità di oltre 5 milioni di ricercatori, data scientist, ingegneri di machine learning e sviluppatori di software. Abbiamo collaborato con AWS negli ultimi due anni, rendendo più facile per gli sviluppatori sperimentare i vantaggi in termini di prestazioni e costi di AWS Inferentia e Trainium attraverso la libreria open source Optimum Neuron, integrata in Hugging Face Inference Endpoints e ora ottimizzata all'interno del nostro nuovo servizio di implementazione automatica HUGS, disponibile su AWS Marketplace. Con il lancio di Trainium2, i nostri utenti accederanno a prestazioni ancora più elevate per sviluppare e implementare i modelli più velocemente.

    Jeff Boudier, Head of Product presso Hugging Face
  • Lightning AI

    Lightning AI, il creatore di PyTorch Lightning e Lightning Studios, offre la piattaforma di sviluppo IA più intuitiva e completa per l'intelligenza artificiale di livello aziendale. Lightning fornisce strumenti a codice completo, a uso ridotto di codice e senza codice per creare agenti, applicazioni di intelligenza artificiale e soluzioni di IA generativa, in tempi rapidissimi. Progettato per la flessibilità, funziona senza problemi sul tuo cloud o sul nostro sfruttando l'esperienza e il supporto di una forte community di sviluppatori di oltre 3 milioni di persone.

    Lightning ora offre supporto nativo per i chip di IA AWS, Trainium e Inferentia, che sono integrati in Lightning Studios e nei nostri strumenti open-source come PyTorch Lightning, Fabric e LitServe. Questo offre agli utenti la possibilità di eseguire il preaddestramento, il fine-tuning e l'implementazione su larga scala, ottimizzando costi, disponibilità e prestazioni con un sovraccarico di commutazione pari a zero, nonché i vantaggi in termini di prestazioni e costi dei chip di IA AWS, tra cui i chip Trainium2 di ultima generazione, che offrono prestazioni più elevate a costi inferiori.

    Luca Antiga, CTO presso Lightning AI
  • Domino Data Lab

    Domino orchestra tutti gli artefatti di data science, inclusi infrastruttura, dati e servizi su AWS in tutti gli ambienti, integrando Amazon SageMaker con funzionalità di governance e collaborazione per supportare i team di data science aziendali. Domino è disponibile in formula SaaS o autogestita tramite AWS Marketplace.

    Le aziende leader hanno la necessità di bilanciare complessità tecnica, costi e governance padroneggiando varie opzioni di IA per ottenere un vantaggio competitivo. In Domino, ci impegniamo a fornire ai clienti l'accesso a tecnologie all'avanguardia. Con l'elaborazione come collo di bottiglia per così tante innovazioni rivoluzionarie, siamo orgogliosi di offrire ai clienti l'accesso a Trainium2; in questo modo possono addestrare e implementare modelli con prestazioni più elevate, costi inferiori e migliore efficienza energetica.

    Nick Elprin, CEO e Co-founder presso Domino Data Lab
  • Scale.ai

    Scale sta accelerando lo sviluppo delle applicazioni IA. Con le soluzioni di intelligenza artificiale Scale Gen, aiutiamo le aziende ad accelerare l'adozione dell'IA generativa e ad aumentare il ROI generando dati di alta qualità e fornendo soluzioni tecnologiche che consentano ai nostri clienti di creare, implementare e valutare i migliori strumenti e applicazioni di intelligenza artificiale. All'inizio di quest'anno, Scale ha collaborato con AWS per diventare il primo partner per la personalizzazione e la valutazione dei modelli. Mentre aiutiamo i nostri clienti ad accelerare la loro roadmap di intelligenza artificiale per creare soluzioni di intelligenza artificiale di prima generazione, offriremo AWS Trainium e Inferentia per ridurre i costi di formazione e distribuzione per i loro modelli open source. Siamo entusiasti di vedere che grazie ad AWS Trainium 2 possiamo risparmiare ancora di più.

    Vijay Kaunamurthy Field CTO
  • Money Forward, Inc.

    Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria equa e aperta.

    Abbiamo lanciato un servizio di chatbot basato sull'IA su larga scala sulle istanze Amazon EC2 Inf1 e ridotto la nostra latenza di inferenza del 97% rispetto a istanze analoghe basate su GPU, riducendo al contempo i costi. Poiché continuiamo a perfezionare periodicamente modelli NLP personalizzati, è importante anche ridurre i tempi e i costi di addestramento dei modelli. Sulla base della nostra esperienza derivante dalla corretta migrazione del carico di lavoro di inferenza su istanze Inf1 e sul nostro lavoro iniziale su istanze Trn1 di EC2 basate su AWS Trainium, prevediamo che le istanze Trn1 forniranno un valore aggiunto nel miglioramento delle prestazioni e dei costi di ML end-to-end.

    Takuya Nakade, CTO, Money Forward Inc.
  • Mimecast

    Magic è un'azienda di ricerca e prodotti integrati che sta sviluppando un'IA che venga percepita come un collega allo scopo di rendere il mondo più produttivo.

    In Mimecast, elaboriamo circa 1,4 miliardi di e-mail ogni giorno e le analizziamo per individuare potenziali rischi. È un compito importante ed è fondamentale che consegniamo e-mail sicure, prive di rischi e senza ritardi. I nostri clienti sono basati in più di 100 Paesi e, in media, ogni organizzazione utilizza 4,9 servizi Mimecast. La piattaforma include sicurezza avanzata della posta elettronica, sicurezza della collaborazione, archivio e-mail, DMARC, protezione dai rischi interni e consapevolezza della sicurezza con un approccio incentrato sull'uomo. Non vogliamo sacrificare la precisione, quindi abbiamo costruito i nostri modelli internamente per raggiungere livelli di precisione e recupero ben superiori al 90%. Sulla base di questi requisiti, le istanze di Inferentia 2 erano la soluzione più appropriata. L'eccezionale efficienza di Inferentia 2 ci consente di raggiungere una latenza notevole, offrendo esperienze in tempo reale per i nostri clienti. I chip AWS AI combinati con SageMaker semplificano la scalabilità orizzontale per soddisfare la domanda in tempo reale. Utilizziamo una politica di scalabilità pianificata personalizzata per scalare fino a centinaia di istanze nelle ore di punta con costi generali di latenza quasi nulli.

    Felix Laumann Director - Data science
  • Jax (Google)

    CACTUS offre una suite di prodotti e soluzioni per ricercatori e organizzazioni in grado di migliorare il modo in cui la ricerca viene finanziata, pubblicata, comunicata e scoperta.

    AWS Neuron è progettato per semplificare l'utilizzo di framework popolari come JAX con Trainium, riducendo al minimo le modifiche al codice e il vincolo a soluzioni specifiche del fornitore. Google e AWS stanno collaborando per consentire ai clienti di iniziare rapidamente con le istanze Trn2 utilizzando JAX per la formazione e l'inferenza su larga scala attraverso la sua integrazione OpenXLA nativa. Ora, grazie a un'ampia collaborazione e alla disponibilità di Trainium2, Google prevede una maggiore adozione di JAX, una pietra miliare significativa per l'intera comunità ML.

    Bill Jia, VP engineering presso Google
  • Watashiha

    Watashiha offre un servizio di IA chatbot innovativo e interattivo, "OGIRI AI", che incorpora l'elemento umoristico per fornire una risposta divertente all'istante a una domanda.

    Utilizziamo modelli linguistici di grandi dimensioni per incorporare l'umorismo e offrire un'esperienza più pertinente e colloquiale ai nostri clienti sui nostri servizi di intelligenza artificiale. Ciò richiede di pre-addestrare e calibrare questi modelli frequentemente. Abbiamo pre-addestrato un modello giapponese basato su GPT sull'istanza EC2 Trn1.32xlarge, sfruttando il parallelismo di tensori e dati. L'addestramento è stato completato entro 28 giorni con una riduzione dei costi del 33% rispetto alla nostra precedente infrastruttura basata su GPU. Poiché i nostri modelli continuano a crescere rapidamente in termini di complessità, attendiamo con impazienza le istanze Trn1n con il doppio della larghezza di banda della rete di Trn1, così da accelerare l'addestramento di modelli più grandi.

    Yohei Kobashi, CTO, Watashiha, K.K.
  • Amazon

    Il motore di ricerca di prodotti di Amazon indicizza miliardi di prodotti, soddisfa ogni giorno miliardi di domande dei clienti ed è uno dei servizi più utilizzati al mondo.

    "Stiamo addestrando modelli linguistici di grandi dimensioni (LLM) multimodali (testo + immagine), multilingue, con più impostazioni internazionali, pre-addestrati su più attività e che coinvolgono diverse entità (prodotti, domande, marchi, recensioni, ecc.) per migliorare l'esperienza di acquisto dei clienti. Le istanze Trn1 forniscono un modo più sostenibile per addestrare gli LLM, offrendo il miglior rapporto prestazioni/watt rispetto ad altre soluzioni di machine learning accelerato, oltre a garantirci prestazioni elevate a costi più bassi. Abbiamo intenzione di esplorare il nuovo tipo di dati FP8 configurabile e l'arrotondamento stocastico con accelerazione hardware per aumentare ulteriormente l'efficienza dell'addestramento e la velocità di sviluppo.

    Trishul Chilimbi, vicepresidente di Amazon Search
  • Meta

    Quello che mi è piaciuto di più della libreria di inferenza AWS Neuron NxD è la perfetta integrazione con i modelli PyTorch. L'approccio di NxD è semplice e intuitivo. Il nostro team è stato in grado di integrare i modelli PyTorch di HuggingFace con modifiche minime al codice in un breve lasso di tempo. L'attivazione di funzionalità avanzate come il batch continuo e la decodifica speculativa è stato semplice. Questa facilità d'uso migliora la produttività degli sviluppatori, consentendo ai team di concentrarsi maggiormente sull'innovazione e meno sulle sfide di integrazione.

    Hamid Shojanazeri, Leading Pytorch Partner presso Engineering Meta