Cos'è la gestione dei dati?

La gestione dei dati è il processo di raccolta, archiviazione, protezione e utilizzo dei dati di un'organizzazione. Attualmente le organizzazioni, avendo a disposizione dati che provengono da diverse origini, hanno l'esigenza di analizzare e integrare questi dati per ottenere le informazioni necessarie per la business intelligence che è alla base della loro pianificazione strategica. La gestione dei dati include tutte le politiche, gli strumenti e le procedure che migliorano l'usabilità dei dati nei limiti previsti da leggi e normative vigenti.

Perché la gestione dei dati è importante?

I dati sono considerati una risorsa preziosa per le organizzazioni moderne. Avendo la possibilità di accedere a grandi volumi e a diverse tipologie di dati, le organizzazioni investono cifre importanti nell'infrastruttura di archiviazione e gestione dei dati e si avvalgono dei sistemi di gestione dei dati per rendere più efficienti le loro operazioni di business intelligence e analisi dei dati. Di seguito sono indicati alcuni dei vantaggi che è possibile ottenere dalla gestione dei dati.

Maggiori entrate e profitti

L'analisi dei dati fornisce informazioni più approfondite su tutti gli aspetti di un'azienda. È possibile utilizzare queste informazioni per ottimizzare le operazioni aziendali e ridurre i costi. L'analisi dei dati si rivela utile anche per riuscire a prevedere quello che può essere l'impatto futuro delle decisioni prese, migliorando così il processo decisionale e la pianificazione aziendale. Pertanto, migliorando le loro tecniche di gestione dei dati le organizzazioni possono registrare una crescita significativa dei ricavi e dei profitti.

Minore incoerenza dei dati

Un silo di dati è una raccolta di dati non elaborati all'interno di un'organizzazione a cui può accedere solo un reparto o un gruppo. L'utilizzo di un silo di dati, quindi, crea delle incongruenze che riducono l'affidabilità dei risultati ottenuti dall'analisi dei dati. Le soluzioni di gestione dei dati, invece, integrano i dati e creano una vista centralizzata che può garantire una migliore collaborazione tra i reparti.

Conformità normativa

Normative e leggi quali il Regolamento generale sulla protezione dei dati (GDPR) e il California Consumer Privacy Act (CCPA) permettono ai consumatori di controllare l'utilizzo dei propri dati. Gli individui possono ricorrere in giudizio se ritengono che le organizzazioni abbiano:

  • Acquisito i dati senza il loro consenso
  • Esercitato uno scarso controllo sulla conservazione e sull'utilizzo dei dati
  • Archiviato i dati nonostante le richieste di cancellazione

Pertanto, le organizzazioni hanno bisogno di un sistema che garantisca una gestione dei dati corretta, trasparente e sicura, pur mantenendone l'accuratezza.

Quali sono le aree di interesse per la gestione dei dati?

La pratica della gestione dei dati comprende la raccolta e la distribuzione di dati di alta qualità, oltre alla governance dei dati, per controllare l'accesso ai dati.

Gestione della qualità dei dati

Gli utenti dei dati si aspettano che i dati siano sufficientemente affidabili e coerenti per ogni caso d'uso.

I responsabili della qualità dei dati si occupano di misurare e migliorare la qualità dei dati di un'organizzazione. In particolare, esaminano sia i dati esistenti che quelli nuovi e verificano che soddisfino gli standard. Possono anche impostare processi di gestione dei dati che impediscono l'ingresso di dati di bassa qualità nel sistema. Gli standard di qualità dei dati generalmente misurano quanto segue:

  • Mancano le informazioni chiave o i dati sono completi? (Ad esempio, il cliente tralascia le informazioni chiave di contatto)
  • I dati soddisfano le regole di base per il controllo dei dati? (Ad esempio, un numero di telefono deve essere composto da 10 cifre)
  • Con che frequenza vengono visualizzati gli stessi dati nel sistema? (Ad esempio, presenza di dati doppi sullo stesso cliente)
  • I dati sono accurati? (Ad esempio, il cliente inserisce l'indirizzo e-mail errato)
  • La qualità dei dati è coerente in tutto il sistema? (Ad esempio, la data di nascita è in formato gg/mm/aaaa in un set di dati e in formato mm/gg/aaaa in un altro)

Distribuzione e consistenza dei dati

Endpoint per la distribuzione dei dati

Per la maggior parte delle organizzazioni, i dati devono essere distribuiti nei vari endpoint in cui sono necessari (o vicino a tali endpoint). Tra questi troviamo sistemi operativi, data lake e data warehouse. La distribuzione dei dati è necessaria a causa delle latenze di rete. Quando i dati sono necessari per l'utilizzo operativo, la latenza di rete potrebbe non essere sufficiente per distribuirli tempestivamente. L'archiviazione di una copia dei dati in un database locale risolve il problema della latenza di rete.

La distribuzione dei dati è necessaria anche per il consolidamento dei dati. I data warehouse e i data lake consolidano i dati provenienti da varie fonti per presentare una visione consolidata delle informazioni. I data warehouse vengono utilizzati per l'analisi e il processo decisionale, mentre i data lake sono un hub consolidato dal quale è possibile estrarre i dati per vari casi d'uso.

Meccanismi di replica dei dati e impatto sulla consistenza

I meccanismi di distribuzione dei dati hanno un potenziale impatto sulla consistenza dei dati e questa è una considerazione importante nella gestione dei dati.

La forte consistenza deriva dalla replica sincrona dei dati. In questo approccio, quando un valore di dati viene modificato, tutte le applicazioni e gli utenti vedranno il valore modificato dei dati. Se il nuovo valore dei dati non è stato ancora replicato, l'accesso ai dati viene bloccato fino all'aggiornamento di tutte le copie. La replica sincrona dà priorità alla consistenza piuttosto che alle prestazioni e all'accesso ai dati. La replica sincrona viene spesso utilizzata per i dati finanziari.

La consistenza finale deriva dalla replica asincrona dei dati. Quando i dati vengono modificati, le copie vengono aggiornate (di solito entro pochi secondi), ma l'accesso alle copie obsolete non viene bloccato. Per molti casi d'uso, questo non è un problema. Ad esempio, i post sui social media, i Mi piace e i commenti non richiedono una forte consistenza. Un altro esempio è che, se un cliente cambia il proprio numero di telefono in un'applicazione, questa modifica può essere trasferita in modo asincrono.

Confronto tra streaming e aggiornamenti in batch

I flussi di dati trasmettono rapidamente le modifiche dei dati man mano che si verificano. Questo è l'approccio preferito se è richiesto l'accesso a dati quasi in tempo reale. I dati vengono estratti, trasformati e consegnati a destinazione non appena vengono modificati.

Gli aggiornamenti in batch sono più appropriati quando i dati devono essere elaborati in batch prima della consegna. Un esempio di ciò consiste nel riepilogare o eseguire le analisi statistiche dei dati e fornire solo il risultato. Gli aggiornamenti in batch possono anche preservare la consistenza interna point-in-time dei dati se tutti i dati vengono estratti in un determinato momento. Gli aggiornamenti in batch tramite un processo di estrazione, trasformazione e caricamento (ETL o ELT) vengono generalmente utilizzati per data lake, data warehousing e analisi.

Big Data Management

I big data sono i grandi volumi di dati che un'organizzazione raccoglie ad alta velocità in un breve periodo di tempo. I feed di notizie video sui social media e i flussi di dati provenienti da sensori intelligenti sono esempi di big data. Sia il dimensionamento che la complessità delle operazioni creano difficoltà nella gestione dei big data. Ad esempio, un sistema di big data memorizza i dati come:

  • Dati strutturati che vengono rappresentati correttamente in formato tabulare
  • Dati non strutturati come documenti, immagini e video
  • Dati semistrutturati che combinano i due tipi precedenti

Gli strumenti di gestione dei big data devono elaborare e preparare i dati per l'analisi. Gli strumenti e le tecniche necessari per i big data in genere svolgono le seguenti funzioni: integrazione dei dati, archiviazione dei dati e analisi dei dati.

Architettura e modellazione dei dati

Architettura dei dati

L'architettura dei dati descrive gli asset di dati di un'organizzazione e fornisce uno schema per la creazione e la gestione del flusso di dati. Il piano di gestione dei dati include dettagli tecnici, come database operativi, data lake, data warehouse e server, più adatti all'implementazione della strategia di gestione dei dati.

Modellazione dei dati

La modellazione dei dati è il processo di creazione di modelli di dati concettuali e logici che visualizzano i flussi di lavoro e le relazioni tra diversi tipi di dati. La creazione di modelli di dati parte solitamente dalla rappresentazione concettuale dei dati e prosegue con la loro rappresentazione all'interno del contesto delle tecnologie scelte. I data manager creano molte tipologie differenti di modelli di dati durante la fase di progettazione dei dati.

Governance dei dati

La governance dei dati include le policy e le procedure che un'organizzazione implementa per gestire la sicurezza dei dati, l'integrità e l'utilità responsabile dei dati. Definisce la strategia di gestione dei dati e determina chi può accedere a quali dati. Le policy di governance dei dati stabiliscono anche la responsabilità nel modo in cui i team e gli individui accedono e utilizzano i dati. Le funzioni di governance dei dati generalmente includono:

Conformità normativa

Le policy di governance dei dati riducono il rischio di sanzioni o azioni normative. Si basano sulla formazione dei dipendenti in modo che il rispetto delle leggi avvenga a tutti i livelli. Ad esempio, un'organizzazione collabora con un team di sviluppo esterno per migliorare i propri sistemi di dati. I responsabili della governance dei dati verificano che tutti i dati personali vengano rimossi prima di passarli al team esterno affinché li utilizzi a scopo di test.

Sicurezza dei dati e controllo degli accessi

La governance dei dati impedisce l'accesso non autorizzato ai dati e li protegge dal danneggiamento. Include tutti gli aspetti della protezione, ad esempio:

  • Impedire lo spostamento o l'eliminazione accidentali dei dati
  • Proteggere l'accesso alla rete per ridurre il rischio di attacchi
  • Verificare che i data center fisici che archiviano i dati soddisfino i requisiti di sicurezza
  • Proteggere i dati anche quando i dipendenti vi accedono da dispositivi personali
  • Autenticare e autorizzare gli utenti e impostare e applicare le autorizzazioni di accesso per i dati
  • Garantire che i dati archiviati siano conformi alle leggi del paese in cui sono archiviati
     

Quali sono alcune delle difficoltà legate alla gestione dei dati?

Di seguito sono riportate le difficoltà più comuni nella gestione dei dati.

Scalabilità e prestazioni

Le organizzazioni richiedono un software di gestione dei dati che funzioni in modo efficace anche su larga scala. Devono monitorare e riconfigurare costantemente l'infrastruttura di gestione dei dati per mantenere i tempi di risposta di picco anche quando i dati crescono in modo esponenziale.

Modifica dei requisiti

Le normative di conformità sono complesse e cambiano nel tempo. Allo stesso modo, anche le esigenze dei clienti e le necessità dell'azienda cambiano rapidamente. Sebbene le organizzazioni abbiano maggiore possibilità di scegliere le piattaforme di gestione dei dati che possono utilizzare, devono valutare costantemente le decisioni sull'infrastruttura per mantenere la massima agilità IT, la conformità legale e i costi ridotti.

Formazione dei dipendenti

Intraprendere il processo di gestione dei dati in può essere difficile in qualsiasi organizzazione. Il volume di dati può essere enorme e potrebbero esistere anche silos interdipartimentali. Pianificare una nuova strategia di gestione dei dati e convincere i dipendenti ad accettare nuovi sistemi e processi richiede tempo e impegno.

Quali sono alcune best practice per la gestione dei dati?

Le best practice costituiscono la base per una corretta strategia di gestione dei dati. Di seguito sono riportate le best practice comuni.

Lavoro di squadra

Gli utenti aziendali e i team tecnici devono collaborare per garantire che i requisiti dei dati di un'organizzazione siano soddisfatti. Nell'elaborazione e nell'analisi di tutti i dati si dovrebbe dare priorità ai requisiti di business intelligence. In caso contrario, i dati raccolti rimarranno inutilizzati, con risorse sprecate in progetti di gestione dei dati pianificati in modo poco efficace.

Automazione

Una strategia di gestione dei dati corretta incorpora l'automazione nella maggior parte delle attività di elaborazione e preparazione dei dati. L'esecuzione manuale delle attività di trasformazione dei dati è noiosa e introduce anche errori nel sistema. Anche un numero limitato di attività manuali, come l'esecuzione di processi batch settimanali, può causare colli di bottiglia del sistema. Il software di gestione dei dati può supportare un dimensionamento più rapido ed efficiente.

Cloud computing

Le aziende richiedono soluzioni di gestione dei dati moderne che forniscano loro un ampio set di funzionalità. Una soluzione cloud può gestire tutti gli aspetti della gestione dei dati su larga scala senza compromettere le prestazioni. Ad esempio, AWS offre un'ampia gamma di funzionalità, come database, data lake, analisi, accessibilità dei dati, governance dei dati e sicurezza, da un unico account.

In che modo AWS può essere utile per la gestione dei dati?

AWS è una piattaforma di gestione dei dati globale che può essere utilizzata per creare una strategia di dati moderna. Con AWS, puoi scegliere il giusto database dedicato, ottenere prestazioni su larga scala, eseguire database completamente gestiti e fare affidamento su elevata disponibilità e sicurezza.

Inizia a utilizzare oggi stesso la gestione dei dati su AWS creando un account AWS.

Fasi successive della gestione dei dati in AWS

Scopri ulteriori risorse correlate al prodotto
Ulteriori informazioni sui servizi di database 
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Inizia subito nella console

Inizia subito a costruire con AWS nella Console di gestione AWS.

Accedi