Qu'est-ce qu'un data mart ?
Un data mart est un système de stockage de données qui contient des informations spécifiques à l'unité commerciale d'une organisation. Il contient une petite partie des données que l'entreprise stocke dans un système de stockage plus important. Les entreprises utilisent un data mart pour analyser plus efficacement les informations propres aux services. Il fournit des données résumées que les principales parties prenantes peuvent utiliser pour prendre rapidement des décisions éclairées.
Par exemple, une entreprise peut stocker des données provenant de diverses sources, telles que des informations sur les fournisseurs, des commandes, des données de capteurs, des informations sur les employés et des enregistrements financiers dans son entrepôt des données ou son lac de données. Cependant, l'entreprise stocke des informations pertinentes, par exemple, pour le service marketing, telles que les avis sur les réseaux sociaux et les dossiers clients, dans un data mart.
Comment un data mart se compare-t-il aux autres types de systèmes de stockage de données ?
Les entreprises utilisent différents types de systèmes de stockage de données pour la gestion et l'analytique des données. Examinons quelques types courants de stockage de données pour comprendre le contexte dans lequel les entreprises utilisent les data marts.
Base de données
Une base de données est un stockage organisé que les systèmes informatiques utilisent pour stocker, rechercher, récupérer et analyser des informations. Il existe différents types de bases de données, telles que les bases de données relationnelles. Une base de données relationnelle stocke les informations dans des tables composées de lignes et de colonnes. Les données des différentes tables sont connectées par un identifiant unique appelé clé. Les clés sont les valeurs non répétitives dans des colonnes spécifiques.
Comparaison entre le data mart et la base de données
Un data mart sert d'élément de premier plan pour les données d'un service. Vous pouvez utiliser un data mart pour récupérer et analyser des informations. Quant à une base de données, elle collecte, gère et stocke des informations. Vous pouvez ensuite utiliser des outils pour traiter, formater et transférer les informations stockées vers un data mart.
Entrepôt des données
Un entrepôt des données est un système de base de données complet qui stocke des informations pour l'ensemble d'une entreprise. Il collecte des informations brutes provenant de diverses sources, telles que des logiciels métier et des flux de médias sociaux, et les traite en données structurées stockées sous forme de tableau. Les entreprises peuvent connecter un entrepôt des données d'entreprise à des outils d'informatique décisionnelle pour prendre des décisions plus éclairées.
Comparaison le data mart et l'entrepôt des données
Un data mart partage bon nombre des qualités d'un entrepôt des données. Ils diffèrent par le fait qu'un entrepôt des données contient des données à l'échelle de l'entreprise relatives à divers sujets. Quant à un data mart, il stocke des informations étroitement liées à un sujet spécifique. Par exemple, un entrepôt des données peut stocker des informations pour les services du marketing, des ressources humaines, des achats et du support client. Cependant, un data mart peut ne stocker que des données transactionnelles pertinentes pour un seul service. L'intérêt de la création d'un data mart est que les services qui gèrent leurs data marts ont un contrôle total sur le chargement et la gestion de leurs données.
De nombreuses entreprises utilisent des technologies telles que le partage de données pour publier leurs data marts dans un entrepôt des données central. Ce faisant, elles profitent d'une plus grande agilité en répartissant la propriété et en isolant les charges de travail. De même, le partage de données permet aux data marts départementaux de consommer les données partagées à partir d'un entrepôt des données ou d'autres data marts.
Lac de données
Un lac de données est un stockage de données qui contient des informations brutes et non structurées. Il ne stocke pas d'informations dans des fichiers et des dossiers. Au lieu de cela, il stocke les informations non traitées dans une hiérarchie plate sur un stockage volumineux. Les lacs de données stockent différents types d'informations brutes, notamment des documents texte, des images, des vidéos et du son.
Les analystes de données utilisent des lacs de données pour effectuer des analyses prédictives à partir de données non structurées. Par exemple, un lac de données peut stocker des textes provenant d'avis sur les réseaux sociaux que les entreprises peuvent utiliser pour analyser les sentiments. Les analystes de données peuvent utiliser l'analyse des sentiments pour détecter les tendances d'opinion négatives vis-à-vis d'une entreprise.
Comparaison entre le data mart et le lac de données
Étant donné que les lacs de données stockent des données non traitées, certaines informations peuvent être des doublons ou ne pas avoir de sens pour l'entreprise. Quant à lui, un data mart stocke les données traitées qui répondent à un besoin spécifique. Un lac de données peut être la source d'un data mart. Les entreprises déterminent les tendances des données en examinant les données historiques dans des data marts, mais elles utilisent des lacs de données pour analyser en profondeur les informations stockées.
OLAP
Le traitement analytique en ligne (OLAP) est une méthode permettant de représenter des données dans plusieurs dimensions. Par exemple, les analystes de données utilisent un cube OLAP pour afficher simultanément le chiffre d'affaires en fonction des mois, des villes et des produits. Les structures de données OLAP sont vastes, avec des champs classés en tant que faits ou dimensions, et entraînent une duplication des données. Cela contraste avec les bases de données relationnelles classiques, qui privilégient les structures étroites et une duplication des données limitée.
Comparaison entre data mart et cube OLAP
OLAP est une stratégie de stockage d'informations spécifique qui dénormalise les données en grands tableaux. OLAP simplifie les représentations complexes de données multidimensionnelles. Certains data marts peuvent utiliser OLAP pour structurer leurs informations, tandis que d'autres utilisent des structures conventionnelles et normalisées. Les analystes métier bénéficient des structures OLAP pour visualiser les informations d'un data mart.
Magasin de données opérationnelles
Un magasin de données opérationnelles (ODS) est un stockage d'informations qui sert d'intermédiaire entre les sources de données et l'entrepôt des données. Les analystes de données utilisent l'ODS pour fournir des rapports en temps quasi réel sur les données transactionnelles. L'ODS prend en charge les requêtes simples et ne fournit qu'une quantité limitée d'informations. Par exemple, l'ODS peut stocker des enregistrements commerciaux uniquement pour les 12 dernières heures.
Comparaison entre data mart et ODS
Un data mart extrait des informations axées sur le sujet d'un entrepôt des données, tandis qu'un ODS envoie des informations dans l'entrepôt des données à des fins de traitement. Les data marts fournissent des informations historiques que vous pouvez analyser, tandis qu'un ODS donne une vue actualisée des opérations en cours. Par exemple, vous pouvez utiliser un data mart pour identifier les modèles de vente du dernier trimestre, mais recevoir des mises à jour horaires des chiffres de vente de l'ODS.
Pourquoi un data mart est-il important ?
Voici quelques bonnes raisons pour lesquelles les entreprises peuvent utiliser un data mart.
Récupérer les données plus efficacement
En utilisant un data mart, les entreprises peuvent accéder plus efficacement à des informations spécifiques. Par rapport à un entrepôt des données, un data mart contient des informations pertinentes et détaillées auxquelles un service accède fréquemment. Par conséquent, les responsables d'entreprises n'ont pas besoin d'effectuer de recherches dans l'intégralité de l'entrepôt des données pour générer des rapports de performances ou des graphiques.
Rationaliser la prise de décisions
Les entreprises peuvent créer un sous-ensemble de données à partir d'un entrepôt des données à l'aide d'un data mart. Les employés du service peuvent ensuite analyser les données et prendre des décisions en fonction du même jeu d'informations.
Contrôler les informations plus efficacement
Un data mart donne aux employés des privilèges d'accès très précis. Cela signifie que l'entreprise peut autoriser une certaine personne à consulter ou à récupérer des données spécifiques. Il permet aux entreprises d’améliorer la gouvernance des données et d’appliquer des stratégies d’accès aux informations. Par exemple, vous pouvez utiliser des data marts pour fournir aux employés un accès utilisateur à des informations spécifiques dans un entrepôt des données.
Gérer les données de manière flexible
Un data mart est plus petit et contient moins de tables qu'un entrepôt des données. Cela signifie que les ingénieurs de données peuvent gérer et modifier les informations d'un data mart sans entraîner de modifications majeures de la base de données.
Comment fonctionne un data mart ?
Un data mart transforme les informations brutes en contenu structuré et significatif pour un service commercial spécifique. Pour ce faire, les ingénieurs de données mettent en place un data mart afin de recevoir des informations provenant soit d'un entrepôt des données, soit directement de sources de données externes.
Lorsqu'il est connecté à un entrepôt des données, le data mart récupère une sélection d'informations pertinentes pour une unité commerciale. Souvent, les informations contiennent des données résumées et excluent les données inutiles ou détaillées.
ETL
Extraction, transformation et chargement (ETL) est un processus d'intégration et de transfert d'informations provenant de diverses sources de données dans une seule base de données physique. Les data marts utilisent le processus ETL pour récupérer des informations de sources externes lorsqu'elles ne proviennent pas d'un entrepôt des données. Le processus comprend les étapes suivantes.
- Extraire : collecter des informations brutes provenant de différentes sources
- Transformer : structurer les informations dans un format commun
- Charger : transférer les données traitées vers la base de données
Les outils ETL copient des informations provenant de sources externes telles que des feuilles de calcul, des applications et des documents texte. Le data mart traite, organise et stocke ensuite les informations sous une forme structurée.
Analytique
Les analystes métier utilisent des outils logiciels pour récupérer, analyser et représenter les données du data mart. Par exemple, ils utilisent les informations stockées dans les data marts pour l'analytique décisionnelle, les tableaux de bord de reporting et les applications cloud.
Chaque data mart dessert un petit nombre d'utilisateurs. Par exemple, le responsable marketing et les spécialiste du marketing en chef ont accès à un data mart, ce qui réduit le temps nécessaire pour générer des rapports et des graphiques ou effectuer une analyse prédictive.
Quels sont les types de data marts ?
Voici les différents types de data marts.
Data mart dépendant
Un data mart dépendant remplit son stockage avec un sous-ensemble d'informations provenant d'un entrepôt des données centralisé. L'entrepôt des données rassemble toutes les informations provenant des sources de données. Ensuite, le data mart interroge et récupère des informations propres au sujet de l'entrepôt des données.
Avantages et inconvénients
La plupart des tâches de gestion et d'administration des données sont effectuées dans l'entrepôt des données. Cela signifie que les analystes métier n'ont pas besoin d'être hautement qualifiés en gestion de bases de données pour utiliser les informations du data mart. Bien que les data marts dépendants facilitent grandement la récupération des informations, ils présentent un point de défaillance unique. En effet, en cas de défaillance de l'entrepôt des données, tous les magasins de données connectés présenteront également un dysfonctionnement.
Data mart indépendant
Un data mart indépendant ne dépend pas d'un entrepôt des données central ou de tout autre data mart. Chaque data mart collecte des informations à partir de ses sources plutôt que d'un entrepôt des données. Les data marts indépendants conviennent aux petites entreprises, mais seuls des services spécifiques ont besoin d'accéder aux informations et de les analyser.
Avantages et inconvénients
Les entreprises peuvent mettre en place des data marts indépendants avec une relative facilité. Cependant, leur gestion peut s'avérer difficile. En effet, les analystes métier doivent effectuer des tâches administratives de base de données dans chaque data mart. Il est facile de partager des données entre différents data marts à l'aide de stratégies telles que le partage de données. Les services peuvent lire les données d'un autre service et même les compléter avec leurs propres données. Cependant, une solide stratégie de catalogage des données doit être mise en place pour s'assurer que chaque service sait ce qu'il recherche.
Data mart hybride
Les data marts hybrides collectent des informations à partir d'un entrepôt des données et de sources externes. Cela permet aux entreprises de tester des sources de données indépendantes avant de les diriger vers l'entrepôt des données.
Supposons, par exemple, que vous lanciez un nouveau produit et que vous souhaitiez analyser ses données de vente initiales. Le data mart utilise les informations de vente qui proviennent directement du logiciel de commerce électronique et récupère les enregistrements de vente d'autres produits du data mart. Une fois que le produit est devenu un élément permanent de votre magasin, vous acheminez les détails de la transaction vers l'entrepôt des données.
Quelles sont les structures d'un data mart ?
Les data marts utilisent ces structures pour stocker et représenter des informations.
Étoile
La structure en étoile a une table de faits en son centre et se ramifie vers plusieurs tables de dimensions. Il en résulte une connexion en forme d'étoile. La table de faits est une table de données qui contient des données résumées que vous pouvez utiliser à des fins d'analyse. Les tables de dimensions contiennent quant à elles des informations descriptives dans une table de faits. Chaque table de dimensions est liée à la table de faits à l'aide d'une clé étrangère. Une clé étrangère est un identifiant unique, tel qu'un identifiant de produit ou un identifiant de fournisseur.
Par exemple, une table de faits pour les transactions de vente comporte les colonnes suivantes :
- ID de vente
- ID du produit
- ID du fournisseur
- Montant des ventes
Une table de dimensions pour les produits contient les informations suivantes :
- ID du produit
- Nom de produit
- Coût du produit
La table des dimensions du fournisseur comprend les colonnes suivantes :
- ID du fournisseur
- Nom du fournisseur
- Ville
Avantages
Dans une structure en étoile, la table de dimensions est dénormalisée pour ne pas s'étendre à d'autres tables. Cela signifie que la table de dimensions peut contenir des données redondantes, mais améliore la vitesse de recherche et de récupération. Le stockage des tables de dimensions prend également moins d'espace.
Les analystes métier peuvent utiliser un data mart structuré en étoile pour simplifier les requêtes complexes. Lorsqu'ils recherchent un enregistrement de vente spécifique, le système de gestion des données recherche dans la table des faits. Lorsque le système de data mart trouve l'enregistrement correct, il utilise l'ID du produit et l'ID du fournisseur pour interroger les données des tables de dimensions respectives.
Dénormalisé
Une structure dénormalisée stocke toutes les données associées dans une seule table. Il n'y a pas de liens complexes entre les tables de faits et les tables de dimensions. Les analystes de données utilisent un data mart dénormalisé, car il améliore la vitesse des demandes. Par exemple, la recherche d'un enregistrement de vente s'effectue dans une seule table dénormalisée comme suit :
- ID de vente
- Produit
- Nom de produit
- Coût du produit
- Nom du modèle
- Poids
- Taille
- Fournisseur
- Nom du fournisseur
- Ville
- Montant des ventes
Un data mart dénormalisé convient aux rapports en temps réel en raison de son approche à table unique. Cependant, la dénormalisation du data mart entraîne une redondance des données. Par exemple, le même nom de produit peut apparaître dans plusieurs enregistrements. Cela entraîne un espace de stockage supplémentaire et des coûts de mise en œuvre élevés.
Quelles sont les étapes de la mise en œuvre d'un data mart ?
Les ingénieurs de données cloud mettent en place un data mart en procédant comme suit :
- Lancez leur plateforme de données natives cloud.
- Alimentez le data mart avec des données métier. Ils veillent à ce que les données soient au bon format et qu'elles soient pertinentes pour les utilisateurs professionnels.
- Configurez le data mart de manière à ce que plusieurs utilisateurs puissent accéder aux données qu'il contient. Par exemple, ils installent un tableau de bord de reporting dans le data mart.
- Continuez à surveiller, optimiser et résoudre les problèmes lorsque le data mart s'exécute.
Comment mettre en œuvre un data mart sur AWS ?
Les entreprises doivent traiter de plus en plus de volumes de données qui étendent le stockage traditionnel des data marts jusqu'à sa limite. Les data marts installés sur des serveurs sur site sont difficiles à mettre à l'échelle. L'architecture cloud offre une intégration au niveau de l'entreprise moins onéreuse, plus évolutive et plus facile à gérer pour les data marts.
Amazon Redshift est une solution d'entreposage de données que vous pouvez utiliser pour implémenter des data marts dans le cloud. Vous pouvez obtenir des informations intégrées en exécutant des analytiques en temps réel et prédictives sur des données mises à l'échelle, complexes sur l'ensemble de vos bases de données opérationnelles, lac de données, entrepôt des données et milliers de jeux de donnés tiers. Vous pouvez créer, entraîner et déployer automatiquement des modèles de machine learning (ML) en toute simplicité. Vous pouvez créer des data marts sur Amazon Redshift et les utiliser pour prendre des décisions plus éclairées.
Amazon Redshift possède certaines fonctionnalités clés qui en font une solution parfaitement adapté à votre data mart :
- Avec Amazon Redshift sans serveur, les considérations relatives à la taille et à l'échelle du cluster sont gérées pour vous.
- Grâce au partage des données natif, les données de votre data mart peuvent accéder aux données de votre entrepôt des données ou être partagées avec votre entrepôt des données.
Commencez à utiliser les data marts en créant un compte AWS dès aujourd'hui.