Cos'è la pulizia dei dati?

La pulizia dei dati è un processo essenziale per preparare i dati grezzi per le applicazioni di machine learning (ML) e business intelligence (BI). I dati grezzi sono soggetti a numerosi errori, che possono compromettere l'accuratezza dei modelli di ML e portare a previsioni errate e a un impatto negativo sull'azienda. 

I passaggi della pulizia dei dati comprendono la modifica e la rimozione di campi dati errati e incompleti, l'identificazione e la rimozione di informazioni duplicate e di dati non correlati, la correzione di errori di formattazione, di valori mancanti e di ortografia.

Perché la pulizia dei dati è importante?

Quando un'azienda usa i dati per prendere decisioni, è fondamentale che utilizzi dati pertinenti, completi e accurati. Tuttavia, i set di dati spesso contengono errori che devono essere rimossi prima dell'analisi. Tra questi, vi sono errori di formattazione, come date e unità di misura monetarie o di altro tipo scritte in modo errato, che possono avere un impatto significativo sulle previsioni. Gli outlier sono un problema particolare, in quanto alterano invariabilmente i risultati. Altri errori di dati comunemente riscontrati sono punti dati corrotti, informazioni mancanti ed errori tipografici. Dati puliti possono essere d'aiuto nella creazione di modelli di ML altamente accurati. 

Dati puliti e accurati sono particolarmente importanti per l'addestramento dei modelli di ML, poiché l'utilizzo di set di dati di addestramento scadenti può causare previsioni errate nei modelli implementati. Questo è il motivo principale per cui i data scientist dedicano una percentuale così elevata del loro tempo alla preparazione dei dati per il ML.

Come verificare che i dati siano puliti?

Il processo di pulizia dei dati prevede diverse fasi per identificare e correggere le voci problematiche. Il primo passo consiste nell'analizzare i dati per identificare gli errori. Ciò può comportare l'uso di strumenti di analisi qualitativa che utilizzano regole, modelli e vincoli per identificare i valori non validi. Il passo successivo consiste nel rimuovere o correggere gli errori. 

La pulizia dei dati prevede alcuni passaggi comuni, tra cui la correzione di:

  • Dati duplicati: eliminazione di informazioni duplicate
  • Dati irrilevanti: identificazione di campi fondamentali per l'analisi specifica ed eliminazione dei dati irrilevanti dall'analisi
  • Outlier: gli outlier possono incidere profondamente nella prestazione dei modelli; bisogna pertanto identificarli e agire in modo opportuno
  • Dati mancanti: segnalazione e imputazione dei dati mancanti
  • Errori strutturali: correzione di errori tipografici e altre incoerenze, rendendo i dati conformi a un modello comune o convenzione

In che modo AWS può essere utile per la pulizia dei dati

Amazon SageMaker Data Wrangler è una funzionalità di Amazon SageMaker per preparare i dati per il ML in modo facile e veloce. Con Amazon SageMaker Data Wrangler è possibile completare ciascun passaggio del flusso di lavoro di preparazione dei dati, inclusa la selezione, la pulizia, l'esplorazione, il rilevamento degli errori e la visualizzazione da una singola interfaccia visiva.

Usando lo strumento di selezione dei dati di SageMaker Data Wrangler, puoi scegliere i dati che desideri da diverse origini dei dati e importarli con un solo clic. Una volta importati i dati, puoi utilizzare il report sulla qualità dei dati e gli approfondimenti per verificare automaticamente la qualità dei dati e rilevare le anomalie, come le righe duplicate e la perdita dell'obiettivo. SageMaker Data Wrangler contiene oltre 300 trasformazioni dei dati integrate così da poter normalizzare, trasformare e combinare rapidamente le caratteristiche senza dover scrivere alcun codice.

Per iniziare a utilizzare SageMaker Data Wrangler, esplora il tutorial.

Fasi successive della pulizia dei dati

Scopri ulteriori risorse correlate al prodotto
Scopri di più sui servizi di machine learning 
Registrati per creare un account gratuito

Ottieni accesso istantaneo al Piano gratuito di AWS.

Registrati 
Inizia a lavorare nella console

Inizia subito a creare nella Console di gestione AWS.

Accedi