Qual è la differenza tra data warehouse, data lake e data mart?
Data warehouse, data lake e data mart sono soluzioni di archiviazione cloud diverse. Un data warehouse memorizza i dati in un formato strutturato. È un repository centrale di dati pre-elaborati per l'analisi e la business intelligence. Un data mart è un data warehouse che assolve alle esigenze di una specifica unità operativa, come i dipartimenti finanza, marketing o vendite. D'altra parte, un data lake è un repository centrale per i dati grezzi e non strutturati. È possibile memorizzare i dati prima ed elaborarli successivamente.
Similitudini tra data warehouse, data mart e data lake
Oggi le organizzazioni hanno accesso a un volume sempre crescente di dati. Tuttavia, devono ordinare, elaborare, filtrare e analizzare i dati grezzi per trarne vantaggi pratici. Allo stesso tempo, devono anche seguire rigide pratiche di protezione e sicurezza dei dati per la conformità alle normative. Per esempio, ecco le pratiche che le organizzazioni devono seguire:
- Raccogliere dati da diverse origini come applicazioni, fornitori, sensori Internet delle cose (IoT) e altre terze parti.
- Elaborare i dati in un formato coerente, affidabile e utile. Ad esempio, le organizzazioni possono elaborare i dati per assicurarsi che tutte le date nel sistema siano in un formato comune o riassumere i report giornalieri.
- Preparare i dati formattando i file XML per il software di machine learning o generando report per gli esseri umani.
Le organizzazioni utilizzano diversi strumenti e soluzioni per raggiungere i risultati dell'analisi dei dati. I data warehouse, i data mart e i data lake sono tutte soluzioni che aiutano ad archiviare i dati.
Ulteriori informazioni su XML»
Vantaggi di un data warehouse, data lake e data mart basato su cloud
Tutte e tre le soluzioni di archiviazione consentono di aumentare la disponibilità, l'affidabilità e la sicurezza dei dati. Ecco qualche esempio di come utilizzarle:
- Archivia i tuoi dati aziendali in modo sicuro per l'analisi
- Archivia un volume di dati illimitato per tutto il tempo necessario
- Scomponi i silo con l'integrazione dei dati provenienti da più processi aziendali
- Analizza i dati storici o i database legacy
- Effettua analisi dei dati in tempo reale e in batch
Inoltre, tutte e tre le soluzioni sono convenienti: paghi solo lo spazio di archiviazione utilizzato. Puoi archiviare tutti i dati, analizzarli per individuare modelli e tendenze e utilizzare le informazioni per ottimizzare le operazioni aziendali.
Differenze principali: data warehouse vs. data mart
Un data warehouse è un database relazionale che archivia i dati provenienti da sistemi transazionali e applicazioni aziendali. Tutti i dati del warehouse sono strutturati o pre-modellati in tabelle. La struttura e lo schema dei dati sono stati progettati per ottimizzare le query SQL veloci. Un data mart è un termine di marketing diverso per la stessa tecnologia. Anche questo è un database relazionale, ma l'uso pratico è molto diverso da quello di un data warehouse. Di seguito sono riportate le principali differenze.
Ulteriori informazioni su SQL »
Origini dati
I data warehouse hanno più origini, sia interne che esterne. È possibile estrarre i dati da qualsiasi luogo, trasformarli in un formato strutturato e caricarli nel proprio warehouse. I data mart hanno un numero inferiore di origini dati e tendono a essere di dimensioni ridotte.
Attenzione
I data warehouse in genere archiviano i dati di più unità aziendali. Integrano centralmente i dati provenienti da tutta l'organizzazione per un'analisi completa. I data mart si concentrano su un unico soggetto e sono di natura più decentralizzata. Spesso filtrano e riassumono le informazioni provenienti da un altro data warehouse esistente.
Utilizzo
Più utenti e progetti richiedono i dati archiviati nei data warehouse. Di conseguenza, i warehouse hanno spesso una durata più lunga e una natura più complessa. I data mart, invece, possono essere focalizzati su un progetto e avere un utilizzo limitato. I team preferiscono creare data mart dal data warehouse aziendale e terminarli una volta terminato il caso d'uso.
Approccio progettuale
I data scientist utilizzano un approccio top-down quando progettano un data warehouse. Pianificano prima l'architettura generale e risolvono i problemi man mano che si presentano. Tuttavia, con un data mart, gli ingegneri dei dati conoscono già dettagli come i valori, i tipi di dati e le origini dati esterne. Possono pianificare l'implementazione fin dall'inizio e adottare un approccio bottom-up alla progettazione del data mart.
Caratteristiche | Data warehouse | Data mart |
---|---|---|
Ambito | Centralizzato, più materie integrate tra loro |
Decentralizzato, materia specifica |
Utenti | A livello dell'intera organizzazione |
Un'unica comunità o reparto |
Origine dati |
Molte origini |
Una o poche origini o una porzione di dati già raccolti in un data warehouse |
Dimensioni |
Grandi, pari ad esempio a centinaia di gigabyte o petabyte |
Piccole, generalmente fino a decine di gigabyte |
Progettazione | Top-down |
Bottom-up |
Dettagli dei dat | Dati completi e dettagliati |
Può contenere dati riassunti |
Ulteriori informazioni sui Data warehouse |
Ulteriori informazioni sui Data mart |
Differenze principali : data warehouse vs. data lake
Un data warehouse e un data lake sono due tecnologie correlate ma fondamentalmente diverse. Mentre i data warehouse archiviano dati strutturati, un data lake è un repository centralizzato che consente di archiviare qualsiasi dato su qualsiasi scala. Un data lake offre più opzioni di archiviazione, è più complesso e ha casi d'uso diversi rispetto a un data warehouse. Di seguito sono riportate le principali differenze.
Origini dati
Sia i data lake che i data warehouse possono avere origini dati illimitate. Tuttavia, il data warehousing richiede la progettazione dello schema prima di poter salvare i dati. Puoi caricare nel sistema solo dati strutturati. Al contrario, i data lake non hanno questi requisiti. Possono archiviare dati non strutturati e semi-strutturati, come i log dei server Web, i clickstream, i social media e i dati dei sensori.
Pre-elaborazione
Un data warehouse richiede tipicamente una pre-elaborazione prima dell'archiviazione. Gli strumenti di estrazione, trasformazione e caricamento (ETL) vengono utilizzati per pulire, filtrare e strutturare preventivamente i set di dati. I data lake, invece, contengono qualsiasi dato. Puoi scegliere se eseguire o meno la pre-elaborazione. Le organizzazioni utilizzano in genere strumenti di estrazione, caricamento e trasformazione (ELT). Caricano prima i dati nel data lake e li trasformano solo quando necessario.
Qualità dei dati
Un data warehouse tende a essere più affidabile, in quanto è possibile eseguire l'elaborazione in anticipo. Diverse funzioni come la de-duplicazione, l'ordinamento, il riepilogo e la verifica possono essere eseguite in anticipo per garantire l'accuratezza dei dati. I duplicati o i dati errati e non verificati possono finire in un data lake se non vengono effettuati controlli in anticipo.
Prestazioni
Un data warehouse è progettato per ottenere le massime prestazioni di esecuzione di query. Gli utenti aziendali preferiscono i data warehouse per poter generare report in modo più efficiente. Al contrario, l'architettura dei data lake privilegia il volume e il costo dell'archiviazione rispetto alle prestazioni. Ottieni un volume di archiviazione molto più elevato a un costo inferiore e puoi accedere ai dati a velocità ragionevoli.
Caratteristiche | Data warehouse | Data lake |
---|---|---|
Disponibilità/durabilità | Dati relazionali da sistemi transazionali, database operativi e applicazioni aziendali |
Tutti i dati, compresi quelli strutturati, semi-strutturati e non strutturati |
Schema | Spesso progettato prima dell'implementazione del data warehouse ma può anche essere scritto al momento dell'analisi (schema su scrittura o schema su lettura) |
Scritto al momento dell'analisi (schema su lettura) |
Prezzo/prestazioni |
Risultati delle query più rapidi utilizzando uno storage locale |
I risultati delle query diventano più veloci utilizzando l'archiviazione a basso costo e il disaccoppiamento dei processi di elaborazione e archiviazione |
Qualità dei dati |
Dati estremamente curati che fungono da versione veritiera centrale |
Qualsiasi dato curato e non (ad es. dati grezzi) |
Utenti | Analisti aziendali, data scientist e sviluppatori di dati |
Analisti aziendali (che utilizzano dati curati), data scientist, sviluppatori di dati, ingegneri di dati e data architect |
Analisi | Reporting in batch, BI e visualizzazioni |
Machine learning, analisi esplorativa, rilevamento di dati, streaming, analisi operativa, Big Data e profilazione |
Ulteriori informazioni sui Data warehouse | Ulteriori informazioni sui Data lake |
Quando utilizzare i data lake, le data warehouse o i data mart?
La maggior parte delle grandi organizzazioni utilizza una combinazione di data lake, data warehouse e data mart nella propria infrastruttura di archiviazione. In genere, tutti i dati vengono importati in un data lake e poi caricati in diversi magazzini e mart per casi d'uso diversi. La scelta della tecnologia dipende da vari fattori, come spiegato di seguito.
Flessibilità
In generale, i data lake offrono maggiore flessibilità a costi inferiori. Diversi team possono accedere agli stessi dati utilizzando strumenti analitici e framework a scelta. Puoi risparmiare tempo perché non è necessario definire strutture di dati, schemi e trasformazioni.
Tipi di dati
Un data warehouse è più adatto se desideri archiviare dati relazionali come quelli dei clienti e dei processi aziendali. Se disponi di un grande volume di dati relazionali, il tuo team potrebbe prendere in considerazione la creazione di alcuni data mart per specifiche esigenze aziendali. Ad esempio, il reparto contabilità può creare un data mart per gestire i bilanci e preparare gli estratti conto dei clienti, mentre il reparto marketing può creare un altro data mart per ottimizzare le campagne pubblicitarie.
Costi e volumi
Un data warehouse può gestire in modo efficiente centinaia di petabyte (PB) di dati. I data lake offrono un costo comparativamente più basso per un volume maggiore, soprattutto per un gran numero di immagini e video. Tuttavia, non tutte le organizzazioni possono richiedere questo livello di scala.
In che modo AWS può aiutarti a soddisfare le esigenze di archiviazione di dati?
AWS offre la più ampia selezione di servizi di analisi che soddisfano tutte le tue esigenze di analisi dei dati. Consentiamo a industrie e organizzazioni di ogni dimensione di reinventare la propria attività con i dati. Ecco qualche esempio di come utilizzare AWS:
- Usa Amazon Redshift per i tuoi requisiti di data warehousing e data mart. Ottieni informazioni dettagliate integrate eseguendo analisi dei dati in tempo reale e predittive su dati complessi e dimensionati attraverso database operativi, data lake, data warehouse e migliaia di set di dati di terze parti. Puoi creare, addestrare e implementare automaticamente modelli di machine learning con facilità.
- Usa AWS Lake Formation per creare, gestire e proteggere un data lake in pochi giorni. Importa rapidamente i dati da tutte le tue origini dei dati, quindi descrivili e gestiscili in un catalogo dati centralizzato.
- Usa Amazon S3 per creare un data lake personalizzato per applicazioni di analisi di big data, intelligenza artificiale, machine learning e calcolo ad alte prestazioni.
Inizia a usare l'archiviazione di dati in AWS creando un account gratuito oggi stesso.
Passaggi successivi con AWS
Scopri come iniziare a usare i data warehouse su AWS
Scopri come iniziare a usare i data mart su AWS
Inizia subito a utilizzare i data lake su AWS