データウェアハウス、データマート、データレイクの類似点
今日の組織は、増え続けるデータにアクセスすることができます。ただし、実用的なメリットを引き出すには、生データをソート、処理、フィルタリング、および分析する必要があります。同時に、規制遵守のために、厳格なデータ保護およびセキュリティに関する慣行に従う必要もあります。例えば、組織が従わなければならない慣行は次のとおりです。
- アプリケーション、ベンダー、モノのインターネット (IoT) センサー、その他のサードパーティーなど、さまざまなソースからデータを収集します。
- データを処理して、一貫性のある信頼できる有用な形式にします。例えば、組織はデータを処理して、システム内のすべての日付が共通の形式であるようにしたり、日報を要約したりできます。
- 機械学習ソフトウェアのために XML ファイルをフォーマットしたり、人間のためにレポートを生成したりして、データを準備します。
組織は、さまざまなツールやソリューションを使用して、データ分析の目的を果たしています。データウェアハウス、マート、レイクはすべて、データの保存に役立つソリューションです。
クラウドベースのデータウェアハウス、データレイク、データマートのメリット
3 つのストレージソリューションはすべて、データの可用性、信頼性、およびセキュリティを高めるのに役立ちます。これらの使用方法の例を次に示します。
- 分析のためにビジネスデータを安全に保存する
- 必要な期間にわたって、無制限のデータ量を保存する
- 複数のビジネスプロセスからのデータ統合でサイロを解消する
- 過去のデータやレガシーデータベースを分析する
- リアルタイムおよびバッチデータ分析を実行する
さらに、3 つのソリューションはいずれも費用対効果が高く、お支払いいただくのは使用したストレージスペースの料金のみです。すべてのデータを保存し、それらのデータを分析してパターンや傾向を見出し、その情報を使用して事業活動を最適化できます。
主な相違点: データウェアハウスとデータマート
データウェアハウスは、トランザクションシステムおよびビジネス部門のアプリケーションからのデータを格納するリレーショナルデータベースです。ウェアハウス内のすべてのデータは、テーブルに構造化または事前モデル化されています。データ構造とスキーマは、高速な SQL クエリを実現すべく、最適化するように設計されています。データマートは、同じテクノロジーを指す別のマーケティング用語です。リレーショナルデータベースでもありますが、実際の使い方はデータウェアハウスとは大きく異なります。違いの要点を以下に示します。
データソース
データウェアハウスは、内部と外部の両方に複数のソースを有しています。どこからでもデータを抽出し、構造化された形式に変換して、ウェアハウスにロードできます。データマートではデータソースの数が少なく、サイズが小さくなる傾向があります。
焦点
通常、データウェアハウスには、複数のビジネスユニットからのデータが格納されます。包括的な分析のために、組織全体からのデータを一元的に統合します。データマートは単一の主題に焦点を当てており、本質的により分散化されています。多くの場合、別の既存のデータウェアハウスからの情報をフィルタリングして要約します。
利用
複数のユーザーとプロジェクトが、データウェアハウスに格納されたデータを必要とします。したがって、ウェアハウスは多くの場合、耐用年数が長く、本質的により複雑です。一方、データマートは、特定のプロジェクトに焦点を当てており、用途が限定されている場合があります。チームは、エンタープライズデータウェアハウスからデータマートを作成し、ユースケースが終了したらそれらのデータマートも終了することを好みます。
設計アプローチ
データサイエンティストは、データウェアハウスを設計する際にトップダウンアプローチを採用します。最初にアーキテクチャ全体を計画し、課題が発生したときにそれらを解決します。一方、データマートでは、データエンジニアは、値、データ型、外部データソースなどの詳細を既に知っています。最初から実装を計画し、データマートの設計に対してボトムアップのアプローチを採用します。
特徴 | データウェアハウス | データマート |
---|---|---|
範囲 | 集中化されており、複数のサブジェクト領域が統合されている |
集中化されていない、特定のサブジェクト領域 |
ユーザー | 組織全体 |
単一のコミュニティや部署 |
データソース |
多数のソース |
1 つまたは少数のソース。あるいは、データウェアハウスにすでに収集されているデータの一部 |
サイズ |
大規模。数百ギガバイトから数百ペタバイトが可能 |
小規模。通常は最大数十ギガバイト |
設計 | トップダウン |
ボトムアップ |
データの詳細 | 完全で詳細なデータ |
要約されたデータを保存可能 |
データウェアハウスの詳細 |
データマートの詳細 |
主な相違点: データウェアハウスとデータレイク
データウェアハウスとデータレイクは、関連してはいるものの、根本的に異なる 2 つのテクノロジーです。データウェアハウスは構造化されたデータを格納しますが、レイクは任意のデータをあらゆる規模で格納できるようにする一元的なリポジトリです。データレイクは、データウェアハウスと比較して、より多くのストレージオプションを提供し、より複雑で、さまざまなユースケースに対応できます。違いの要点を以下に示します。
データソース
データレイクとウェアハウスは両方とも、無制限のデータソースを持つことができます。ただし、データウェアハウジングでは、データを保存する前にスキーマを設計する必要があります。システムには構造化データのみをロードできます。逆に、データレイクにはそのような要件はありません。ウェブサーバーログ、クリックストリーム、ソーシャルメディア、センサーデータなどの非構造化データと半構造化データを保存できます。
前処理
通常、データウェアハウスでは、保存前に前処理が必要です。抽出、変換、ロード (ETL) ツールを使用して、事前にデータセットをクリーニング、フィルタリング、および構造化します。対照的に、データレイクはあらゆるデータを保持します。前処理を実行するかどうかを柔軟に選択できます。組織は通常、抽出、ロード、変換 (ELT) ツールを使用します。最初にレイクにデータをロードし、必要な場合にのみ変換します。
データ品質
データウェアハウスは、事前に処理を実行できるため、信頼性が高くなる傾向があります。データの正確性を保証するために、重複排除、ソート、要約、検証などのいくつかの機能を事前に実行できます。事前にチェックが行われていない場合、重複や、エラーを含む未検証のデータがデータレイクに保存される可能性があります。
パフォーマンス
データウェアハウスは、クエリのパフォーマンスが最速になるように設計されています。ビジネスユーザーは、レポートをより効率的に生成できるデータウェアハウスを好みます。対照的に、データレイクアーキテクチャでは、パフォーマンスよりもストレージボリュームとコストが優先されます。より低いコストでより多くのストレージボリュームを取得でき、妥当な速度でデータにアクセスできます。
特徴 | データウェアハウス | データレイク |
---|---|---|
データ | トランザクションシステム、業務データベース、基幹業務アプリケーションからのリレーショナルデータ |
構造化データ、半構造化データ、非構造化データを含むすべてのデータ |
スキーマ | 多くの場合、データウェアハウスの実装前に設計されますが、分析時に書き込むこともできます (スキーマオンライトまたはスキーマオンリード) |
分析時に書き込み (スキーマオンリード) |
料金/パフォーマンス |
ローカルストレージを使用、クエリ結果の取得は最速 |
低コストのストレージと、コンピューティングとストレージとの分離を使用してクエリ結果を高速化 |
データ品質 |
高度にキュレートされたデータで、事実の情報源として機能 |
キュレートできるまたはできない (生データなど) データ |
ユーザー | ビジネスアナリスト、データサイエンティスト、およびデータ開発者 |
ビジネスアナリスト (キュレートされたデータを使用)、データサイエンティスト、データデベロッパー、データエンジニア、およびデータアーキテクト |
分析 | バッチレポート、BI、および視覚化 |
機械学習、探索的分析、データ検出、ストリーミング、運用分析、ビッグデータ、およびプロファイリング |
データウェアハウスの詳細 | データレイクの詳細 |
データレイク、データウェアハウス、またはデータマートを使用すべき場合
大規模な組織のほとんどは、ストレージインフラストラクチャでデータレイク、ウェアハウス、マートを組み合わせて使用しています。通常、すべてのデータはデータレイクに取り込まれてから、種々のユースケースのためにさまざまなウェアハウスやマートにロードされます。テクノロジーに関する意思決定は、以下で説明するさまざまな要因によって異なります。
柔軟性
一般的に、データレイクはより低コストでより高い柔軟性を提供します。さまざまなチームが、任意の分析ツールやフレームワークを使用して同じデータにアクセスできます。データ構造、スキーマ、および変換を定義する必要がないため、時間を節約できます。
データ型
顧客データやビジネスプロセスデータなどのリレーショナルデータを保存する場合は、データウェアハウスの方が適しています。リレーショナルデータが大量にある場合、チームは特定のビジネスニーズに合わせていくつかのデータマートを作成することを検討する場合があります。例えば、経理部門は貸借対照表を維持し、顧客の取引明細書を準備するためにデータマートを作成し、マーケティング部門は広告キャンペーンを最適化するために別のデータマートを作成する場合があります。
コストとボリューム
データウェアハウスは、数百ペタバイト (PB) のデータを効率的に処理できます。データレイクは、比較的低コストで、特に大量の画像や動画向けに、より多くのボリュームを提供します。ただし、すべての組織がそのレベルの規模を必要とするわけではありません。
AWS はデータストレージのニーズをどのようにサポートできますか?
AWS は、あらゆるデータ分析ニーズに対応する、極めて幅広い分析サービスを提供します。あらゆる規模の業界や組織がデータを使用してビジネスを再構築できるようにします。どのように AWS を活用できるかについての例を次に示します。
- データウェアハウジングとデータマートの要件を満たすために Amazon Redshift を使用します。運用データベース、データレイク、データウェアハウス、サードパーティーの数千のデータセットにわたり、複雑でスケールされたデータに対してリアルタイムの予測分析を実行することで、統合されたインサイトを得ることができます。機械学習モデルを簡単に自動的に作成、トレーニング、デプロイできます。
- データレイクを数日で構築、管理、保護するために AWS Lake Formation を使用します。すべてのデータソースからデータを迅速にインポートし、一元化されたデータカタログでそれらのデータを記述および管理します。
- ビッグデータ分析、人工知能、機械学習、ハイパフォーマンスコンピューティングアプリケーション用のカスタムデータレイクを構築するために Amazon S3 を使用します。
今すぐ無料アカウントを作成して、AWS でのデータストレージの使用を開始しましょう。