Cos'è la pulizia dei dati?
La pulizia dei dati è un processo essenziale per preparare i dati grezzi per le applicazioni di machine learning (ML) e business intelligence (BI). I dati grezzi sono soggetti a numerosi errori, che possono compromettere l'accuratezza dei modelli di ML e portare a previsioni errate e a un impatto negativo sull'azienda.
I passaggi della pulizia dei dati comprendono la modifica e la rimozione di campi dati errati e incompleti, l'identificazione e la rimozione di informazioni duplicate e di dati non correlati, la correzione di errori di formattazione, di valori mancanti e di ortografia.
Perché la pulizia dei dati è importante?
Quando un'azienda usa i dati per prendere decisioni, è fondamentale che utilizzi dati pertinenti, completi e accurati. Tuttavia, i set di dati spesso contengono errori che devono essere rimossi prima dell'analisi. Tra questi, vi sono errori di formattazione, come date e unità di misura monetarie o di altro tipo scritte in modo errato, che possono avere un impatto significativo sulle previsioni. Gli outlier sono un problema particolare, in quanto alterano invariabilmente i risultati. Altri errori di dati comunemente riscontrati sono punti dati corrotti, informazioni mancanti ed errori tipografici. Dati puliti possono essere d'aiuto nella creazione di modelli di ML altamente accurati.
Dati puliti e accurati sono particolarmente importanti per l'addestramento dei modelli di ML, poiché l'utilizzo di set di dati di addestramento scadenti può causare previsioni errate nei modelli implementati. Questo è il motivo principale per cui i data scientist dedicano una percentuale così elevata del loro tempo alla preparazione dei dati per il ML.
Come verificare che i dati siano puliti?
Il processo di pulizia dei dati prevede diverse fasi per identificare e correggere le voci problematiche. Il primo passo consiste nell'analizzare i dati per identificare gli errori. Ciò può comportare l'uso di strumenti di analisi qualitativa che utilizzano regole, modelli e vincoli per identificare i valori non validi. Il passo successivo consiste nel rimuovere o correggere gli errori.
La pulizia dei dati prevede alcuni passaggi comuni, tra cui la correzione di:
- Dati duplicati: eliminazione di informazioni duplicate
- Dati irrilevanti: identificazione di campi fondamentali per l'analisi specifica ed eliminazione dei dati irrilevanti dall'analisi
- Outlier: gli outlier possono incidere profondamente nella prestazione dei modelli; bisogna pertanto identificarli e agire in modo opportuno
- Dati mancanti: segnalazione e imputazione dei dati mancanti
- Errori strutturali: correzione di errori tipografici e altre incoerenze, rendendo i dati conformi a un modello comune o convenzione
In che modo AWS può essere utile per la pulizia dei dati
Amazon SageMaker Data Wrangler è una funzionalità di Amazon SageMaker per preparare i dati per il ML in modo facile e veloce. Con Amazon SageMaker Data Wrangler è possibile completare ciascun passaggio del flusso di lavoro di preparazione dei dati, inclusa la selezione, la pulizia, l'esplorazione, il rilevamento degli errori e la visualizzazione da una singola interfaccia visiva.
Usando lo strumento di selezione dei dati di SageMaker Data Wrangler, puoi scegliere i dati che desideri da diverse origini dei dati e importarli con un solo clic. Una volta importati i dati, puoi utilizzare il report sulla qualità dei dati e gli approfondimenti per verificare automaticamente la qualità dei dati e rilevare le anomalie, come le righe duplicate e la perdita dell'obiettivo. SageMaker Data Wrangler contiene oltre 300 trasformazioni dei dati integrate così da poter normalizzare, trasformare e combinare rapidamente le caratteristiche senza dover scrivere alcun codice.
Per iniziare a utilizzare SageMaker Data Wrangler, esplora il tutorial.
Fasi successive della pulizia dei dati
Ottieni accesso istantaneo al Piano gratuito di AWS.