Che cos'è l'aumento dei dati?

L'aumento dei dati è il processo di generazione artificiale di nuovi dati a partire da quelli esistenti, principalmente per addestrare nuovi modelli di machine learning (ML). I modelli di machine learning richiedono set di dati ampi e variegati per l'addestramento iniziale, ma reperire set di dati reali sufficientemente diversificati può essere difficile a causa di silos di dati, normative e altre limitazioni. L'incremento dei dati comporta un incremento artificiale del set di dati apportando piccole modifiche ai dati originali. Le soluzioni di intelligenza artificiale (IA) generativa vengono ora utilizzate per l'aumento rapido dei dati di alta qualità in vari settori.

Scopri di più sul machine learning

Scopri di più sull'IA generativa

Perché l'aumento dei dati è importante?

I modelli di deep learning si basano su grandi volumi di dati diversificati per sviluppare previsioni accurate in vari contesti. L'aumento dei dati integra la creazione di varianti di dati che possono aiutare un modello a migliorare l'accuratezza delle sue previsioni. I dati aumentati sono fondamentali nell'addestramento.

Ecco alcuni dei vantaggi dell'aumento dei dati.

Miglioramento delle prestazioni del modello

Le tecniche di aumento dei dati aiutano ad arricchire i set di dati creando molte variazioni dei dati esistenti. Ciò fornisce un set di dati più ampio per l'addestramento e consente a un modello di riscontrare funzionalità più diversificate. I dati aumentati aiutano il modello a generalizzarsi meglio ai dati non visti e a migliorare le prestazioni complessive in ambienti reali. 

Minore dipendenza dai dati

La raccolta e la preparazione di grandi volumi di dati per l'addestramento possono essere costose e dispendiose in termini di tempo. Le tecniche di aumento dei dati aumentano l'efficacia di set di dati più piccoli, riducendo drasticamente la dipendenza da set di dati di grandi dimensioni negli ambienti di addestramento. È possibile utilizzare set di dati più piccoli per integrare il set con punti di dati sintetici.

Mitigare l'overfitting nei dati di addestramento

L'aumento dei dati aiuta a prevenire l'overfitting durante l'addestramento dei modelli di machine learning. L'overfitting è il comportamento indesiderato del machine learning in cui un modello è in grado di fornire previsioni accurate per l'addestramento dei dati ma ha difficoltà con nuovi dati. Se un modello si addestra solo con un set di dati ristretto, rischia di diventare overfitting e di fornire previsioni correlate soltanto a quel tipo di dati specifici. Al contrario, l'aumento dei dati offre un set di dati molto più ampio e completo per l'addestramento del modello. Rende i set di addestramento unici per le reti neurali profonde, impedendo loro di imparare a lavorare solo con caratteristiche specifiche. 

Scopri di più sull'overfitting

Scopri di più sulle reti neurali

Miglioramento della privacy dei dati

Se è necessario addestrare un modello di deep learning su dati sensibili, è possibile utilizzare tecniche di aumento sui dati esistenti per creare dati sintetici. Questi dati aumentati mantengono le proprietà statistiche e il peso dei dati di input proteggendo e limitando l'accesso all'originale.

Quali sono i casi d'uso dell'aumento dei dati?

L'aumento dei dati offre diverse applicazioni in vari settori, migliorando le prestazioni dei modelli di machine learning in molti settori.

Sanità

L'aumento dei dati è una tecnologia utile nella diagnostica per immagini in campo sanitario perché aiuta a migliorare i modelli diagnostici che individuano, riconoscono e diagnosticano le malattie sulla base di immagini. La creazione di un'immagine aumentata fornisce più dati di addestramento per i modelli, in particolare per le malattie rare che non presentano variazioni nei dati di origine. La produzione e l'uso di dati sintetici sui pazienti fa progredire la ricerca medica nel rispetto di tutte le considerazioni sulla privacy dei dati. 

Finanza

L'aumento contribuisce a produrre istanze sintetici di frode, consentendo ai modelli di addestrarsi per rilevare le frodi con maggiore precisione in scenari reali. Un pool più ampio di dati di addestramento è utile in scenari di valutazione del rischio, favorendo il potenziale dei modelli di deep learning di valutare accuratamente i rischi e prevedere le tendenze future. 

Manifatturiero

Il settore manifatturiero utilizza modelli ML per identificare difetti visivi nei prodotti. Integrando i dati del mondo reale con immagini aumentate, i modelli possono migliorare le loro capacità di riconoscimento delle immagini e individuare potenziali difetti. Questa strategia riduce anche la probabilità di spedire un prodotto danneggiato o difettoso alle fabbriche e alle linee di produzione.

Vendita al dettaglio

Negli ambienti di vendita al dettaglio si utilizzano modelli per identificare i prodotti e assegnarli alle categorie in base a fattori visivi. L'aumento dei dati può produrre variazioni sintetiche dei dati delle immagini dei prodotti, creando un set di addestramento che presenta maggiori variazioni in termini di condizioni di illuminazione, sfondi delle immagini e angolazioni dei prodotti.

Come funziona l'aumento dei dati?

L'aumento dei dati trasforma, edita o modifica i dati esistenti per creare varianti. Di seguito è riportata una breve panoramica del processo.

Esplorazione dei set di dati

La prima fase dell'aumento dei dati consiste nell'analizzare un set di dati esistente e comprenderne le caratteristiche. Funzionalità come la dimensione delle immagini di input, la distribuzione dei dati o la struttura del testo forniscono un ulteriore contesto per l'aumento. 

È possibile selezionare diverse tecniche di aumento dei dati in base al tipo di dati sottostante e ai risultati desiderati. Ad esempio, l'aumento di un set di dati con molte immagini include l'aggiunta di rumore, il ridimensionamento o il ritaglio. In alternativa, l'aumento di un set di dati di testo per l'elaborazione del linguaggio naturale (NLP) sostituisce sinonimi o parafrasi. 

Scopri di più sull'elaborazione del linguaggio naturale

Aumento dei dati esistenti

Dopo aver selezionato la tecnica di aumento dei dati più adatta agli scopi desiderati, è possibile iniziare ad applicarvi diverse trasformazioni. I punti dati o i campioni di immagini nel set di dati si trasformano utilizzando il metodo di aumento selezionato, fornendo una serie di nuovi campioni aumentati. 

Durante il processo di aumento, si mantengono le stesse regole di etichettatura per la coerenza dei dati, garantendo che i dati sintetici includano le stesse etichette corrispondenti ai dati di origine.

In genere, si esaminano le immagini sintetiche per determinare se la trasformazione è andata a buon fine. Questo ulteriore passaggio manuale aiuta a preservare una maggiore qualità dei dati. 

Integrazione dei moduli di dati

Successivamente, si combinano i nuovi dati aumentati con quelli originali per produrre un set di dati di addestramento più ampio per il modello di ML. Durante l'addestramento del modello, si utilizza questo set di dati composto dalle due tipologie di dati.

È importante notare che i nuovi punti dati creati mediante l'aumento sintetico dei dati hanno gli stessi bias dei dati di input originali. Per evitare che i bias si trasferiscano nei nuovi dati, è necessario risolvere quelli nei dati di origine prima di iniziare il processo di aumento dei dati.

Quali sono alcune delle tecniche di aumento dei dati?

Le tecniche di aumento dei dati variano in base ai diversi tipi di dati e contesti aziendali.

Visione computerizzata

L'aumento dei dati è una tecnica fondamentale nelle attività di visione artificiale. Aiuta a creare diverse rappresentazioni dei dati e a risolvere squilibri di classe in un set di dati di addestramento. 

Il primo utilizzo dell'aumento nella visione artificiale è costituito da quello della posizione. Questa strategia ritaglia, capovolge o ruota un'immagine di input per creare immagini aumentate. Il ritaglio ridimensiona l'immagine o ne ritaglia una piccola parte dell'originale per crearne una nuova. Le operazioni di rotazione, capovolgimento e ridimensionamento alterano l'originale in modo casuale con una determinata probabilità di fornire nuove immagini.

Un altro utilizzo dell'aumento nella visione artificiale è quello del colore. Questa strategia regola i fattori basilari di un'immagine di addestramento, come la luminosità, il livello di contrasto o la saturazione. Queste modifiche comuni delle immagini cambiano la tonalità, il bilanciamento del chiaro-scuro e la separazione tra le aree più scure e quelle più chiare dell'immagine al fine di ottenere immagini aumentate.

Ulteriori informazioni sulla visione artificiale

Aumento dei dati audio

Anche i file audio, come le registrazioni vocali, sono un ambito comune di applicazione dell'aumento dei dati. In genere, le modifiche audio comprendono l'inserimento di rumore casuale o gaussiano in alcune parti dell'audio, l'avanzamento rapido tra le parti, la modifica della velocità di alcune parti mediante un valore fisso o l'alterazione del tono.

Aumento dei dati di testo

L'aumento del testo è una tecnica di aumento dei dati fondamentale per la NLP e altri settori del ML legati al testo. Le trasformazioni dei dati testuali includono il rimescolamento di frasi, la modifica della posizione delle parole, la sostituzione di parole con sinonimi vicini, l'inserimento e l'eliminazione di parole casuali.

Trasferimento di stile neurale

Il trasferimento di stile neurale è una forma avanzata di aumento dei dati che decostruisce le immagini in parti più piccole. Utilizza una serie di livelli convoluzionali che separano lo stile e il contesto di un'immagine, generando così numerose immagini partendo da una singola. 

Addestramento contraddittorio

Le modifiche a livello di pixel rappresentano una sfida per un modello di ML. Alcuni campioni contengono uno strato di rumore impercettibile su un'immagine per testare la capacità del modello di rilevare l'immagine sottostante. Questa strategia è una forma preventiva di aumento dei dati incentrata su potenziali violazioni non autorizzate nel mondo reale.

Qual è il ruolo dell'IA generativa nell'aumento dei dati?

L'IA generativa è essenziale per l'incremento dei dati perché facilita la produzione di dati sintetici. Aiuta ad aumentare la diversità dei dati, a semplificare la creazione di dati realistici e a preservare la privacy dei dati. 

Reti generative contraddittorie

Le reti generative contraddittorie (GAN) sono un framework di due reti neurali centrali che lavorano in opposizione. Il generatore produce campioni di dati sintetici, quindi il discriminatore distingue tra i dati reali e i campioni sintetici.

Col passare del tempo, le GAN migliorano costantemente l'output del generatore mirando a ingannare il discriminatore. I dati che riescono a ingannare il discriminatore sono considerati dati sintetici di alta qualità, in quanto forniscono un incremento di dati con campioni altamente affidabili che imitano fedelmente la distribuzione originale dei dati.

Autoencoder variazionali

Gli autoencoder variazionali (VAE) sono un tipo di rete neurale che aiuta ad aumentare le dimensioni del campione dei dati principali e a ridurre la necessità di una raccolta di dati dispendiosa in termini di tempo. I VAE hanno due reti collegate: un decoder e un encoder. L'encoder acquisisce immagini campione e le traduce in una rappresentazione intermedia. Il decoder acquisisce la rappresentazione e ricrea immagini simili in base alla propria interpretazione dei campioni iniziali. I VAE sono utili perché possono creare dati molto simili a quelli di esempio, contribuendo in questo modo ad aggiungere varietà pur mantenendo la distribuzione dei dati originali.

In che modo AWS può supportare i requisiti di aumento dei dati?

I servizi di IA generativa su Amazon Web Services (AWS) sono un insieme di tecnologie che le organizzazioni di tutte le dimensioni possono utilizzare per creare e dimensionare applicazioni di IA generativa con dati personalizzati per casi d'uso personalizzati. È possibile innovare più rapidamente con nuove funzionalità, la scelta di modelli di fondazione (FM) leader del settore e l'infrastruttura più conveniente. Di seguito sono riportati due esempi di servizi di IA generativa su AWS.

Amazon Bedrock è un servizio completamente gestito che offre una scelta di FM ad alte prestazioni delle principali società di IA. È possibile integrare e implementare in modo sicuro funzionalità di IA generativa per l'aumento dei dati senza gestire l'infrastruttura.

Amazon Rekognition è un servizio di IA completamente gestito che offre funzionalità di visione artificiale preaddestrate e personalizzabili per estrarre informazioni e approfondimenti da immagini e video. Lo sviluppo di un modello personalizzato per l'analisi delle immagini è un'impresa significativa che richiede tempo, esperienza e risorse. Spesso sono necessarie migliaia o decine di migliaia di immagini di prodotti etichettati a mano per fornire al modello una quantità di dati sufficiente per prendere decisioni in modo accurato. 

Con le etichette personalizzate Amazon Rekognition, vengono eseguiti vari aumenti dei dati per l'addestramento dei modelli, tra cui ritaglio casuale dell'immagine, jittering cromatico e rumori gaussiani casuali. Invece di migliaia di immagini, basta caricare solo un piccolo set di immagini di addestramento (in genere poche centinaia o meno) specifiche per il caso d'uso sulla console di facile utilizzo.

Inizia subito a progettare l'aumento dei dati su AWS creando un account.

Fasi successive su AWS

Registrati per creare un account gratuito

Ottieni accesso istantaneo al Piano gratuito di AWS.

Registrati 
Inizia a lavorare nella console

Inizia subito a creare nella Console di gestione AWS.

Accedi