MENU
Archives

DWH(データウェアハウス)とは?特徴・機能や製品選定のポイント、データベースとの違いなど

DWH、データベース、データレイク、データマートは、データ分析をする上で必ず登場してくるキーワードですが、それぞれの違いをご存じでしょうか。

「聞いたことはあるけど、説明はできない…」

「感覚としては、〇〇なイメージ」

といった方も多いかと思います。

いずれも”データを保管しておく入れ物”という点では同じですが、特徴や使い方は全く異なります。

本記事では、実際にDWH選定やBIツールでのデータ可視化・分析や業務効率化を行い、その他データ活用に関する多くの知見のある株式会社KUIXがこれまでの経験をもとにDWHとデータベースのような混同されがちなキーワードとの違いやDWHの特徴・機能、DWH製品選定のポイントを解説いたします。

目次

DWH(データウェアハウス)とは

DWH(Data Ware House:データウェアハウス)とは、一言で表すと直訳の通り、”データの倉庫”です。

前述の”データを保管しておく入れ物”という意味では、データベース(DB)やデータレイク(Data Lake)、データマート(Data Mart)も同じですが、DWHは、米国のコンサルタントWilliam H.Inmon氏によって、「目的別に編成・統合された、時系列で、削除や更新をしないデータの集合体」と定義された概念です。

DWHを使用する目的は、大量のデータを分析し、データに基づく経営をするための意思決定に役立てることです。

みなさまの企業でも、生産/在庫/販売管理などの基幹システムデータやCRM(顧客管理システム)の顧客データなど様々なシステムを導入していることと思います。

それらすべてのシステムデータを用いてデータ分析しようとした場合、それぞれのシステムからデータをエクスポートして、Excelに貼り付けて、さらに顧客IDや商品IDなどで結合したら、Excelの動作が重くなってしまった、フリーズした。。。なんて経験をされた方も多いのではないでしょうか。

各システムのデータが1つ集約されていて、顧客IDや商品IDなど横断的にデータを分析できれば良いですよね。

基幹システムデータや顧客データなどの様々なデータソースからのデータを一か所に保管し、一か所に集めたビジネスデータを用いて分析を行い、意思決定できる環境がDWHです。

つまり、”ビジネスに必要なデータが全て保管されている場所”です。

DWHとデータベース、データレイク、データマート、BIとの違い

DWHの特徴・機能の説明をする前に、DWHとデータベースのように混同されがちなキーワード(データベース、データレイク、データマート、BI)との違いを説明します。

DWHとデータベース(DB)の違い

DWHとデータベース(DB)の違いは役割です。

データベース(DB)といえば、SQL文のSELECT/INSERT/UPDATE/DELETE文を思い浮かべる方も多いのではないでしょうか。

データベースは、データの保存や編集、トランザクション処理(コミットやロールバック)などデータの整合性を保つことが主な役割です。

一方で、DWHは分析に特化したデータベースという役割があります。

同じデータベースですが、具体的には、通常のデータベースは、レコードと呼ばれる行単位でデータを読み込むため、不要な列の情報も読み込んでしまい、データ抽出に時間がかかりますが、DWHは列単位でデータを読み込むため、必要な列の情報のみのデータを抽出でき、効率的にデータを抽出することができるという違いがあります。

DWHとデータレイク(Data Lake)の違い

DWHとデータレイク(Data Lake)の違いは、格納されているデータの構造です。

Data Lake:データレイクは、直訳の通り”データの湖”です。大量のデータを一か所に集める場所という点では似ていますが、DWHは、基幹システムや顧客データなどの規則性のあるデータ(構造化データ)が格納されます。それに対しデータレイクは、構造化データに加え画像や動画ファイル、メール、CADデータなど非構造化データが格納されています。

このように、格納されているデータの構造に違いがあります。

DWHとデータマート(Data Mart)の違い

DWHとデータマート(Data Mart)の違いは、扱うデータ(量・範囲・項目)です。

Data Mart:データマートは、直訳の通り、”データの小売店”です。DWHは”データの倉庫”なので、扱うデータ(量・範囲・項目)が異なります。

ビジネスに必要なデータが全て保管されているDWHとは異なり、データマートは、”在庫管理”など特定の目的によって作成します。

特定の目的のために作成するため、必要なデータ項目や期間、対象データも限られ、データ量もDWHに比べて少ないので、レスポンスも高くなります。

ただし、ビジネスデータ全体を使用していないので、全社的な意思決定を行うための分析はできないことに留意する必要があります。

このように、扱うデータ(量・範囲・項目)に違いがあります。

DWHとBIツールの違い

DWHとBIツールの違いは、活用用途です。

BI:Business Intelligenceは、直訳すると”ビジネスの知能”です。

DWHが分析に特化したデータを格納しているのに対し、BIツールはそのデータを分析・可視化し、分析結果から意思決定をするためのツールです。

このように、DWHとBIツールともにデータ分析に欠かせないですが、活用用途に違いがあります。

DWHの4つの特徴・機能

DWHとデータベースのように混同されがちなキーワード(データベース、データレイク、データマート、BI)との違いを理解したところで、

DWHの4つの大きな特徴・機能を説明します。

統合されたデータ

DWHの特徴・機能の1つ目は、”統合されたデータ”であることです。

DWHは、基幹システムデータや顧客データなどの様々なデータソースからのデータを集約しますが、それぞれのシステムからのデータの列数や内容は様々です。

データの重複や表記ゆれ(会社名が、「株式会社A」、「(株)A」と同じデータでも表記が異なる)があると分析データとして信憑性が低くなるため、表現の統一や重複削除など整合性のあるデータであることが重要です。このようなデータを”統合されたデータ”と呼びます。

時系列整理されたデータ

DWHの特徴・機能の2つ目は、”時系列整理されたデータ”であることです。

通常、データベースで重視されるデータは、最新のデータです。

データ分析では、売上の時系列推移など過去から現在までのデータの傾向を把握した上で意思決定の判断をすることが重要です。

そのため、最新のデータだけでなく、過去データに関しても整理されたデータであることが重要で、このようなデータを”時系列整理されたデータ”と呼びます。

永続的に保管されたデータ

DWHの特徴・機能の3つ目は、”永続的に保管されたデータ”であることです。

前述の”時系列整理されたデータ”であることが重要であるように、最新のデータだけでなく、過去データに関しても整理されたデータを格納することが重要であるため、追加されたデータは、変更・削除されずに永続的に保管されることが重要です。

このようなデータを”永続的に保管されたデータ”と呼びます。

ただし、データ容量やコストの観点から無限にデータを格納し続けることは実現的ではないため、使用頻度の低いデータをコストの低いデータ領域に退避するなどのメンテナンスは必要です。

サブジェクトごとに整理されたデータ

DWHの特徴・機能の4つ目は、”サブジェクトごとに整理されたデータ”であることです。

前述の3つの特徴・機能を備えたデータが製品や顧客、売上など分析する際に着目したいデータの分類・種類に分かれていることをサブジェクトごとに整理されたデータと呼びます。

基幹システムデータや顧客データなどの様々なデータソースごとではなく、データの種類によって整理されていることによって、各システムに依存せずにデータ本来に着目して、データ分析することができます。

DWH製品選定の5つのポイント

4つの大きな特徴・機能を持つDWHですが、Amazon RedshiftやGoogle BigQuery,Snowflakeなど様々な製品があります。

ここからは、DWH製品を選定する上の5つのポイントを説明します。

サービスの提供形態(オンプレミス/クラウド)

1つ目のポイントは、サービスの提供形態(オンプレ/クラウド)です。

オンプレミスは、実機のサーバーを利用することです。オンプレミスサーバーは、社内LAN内のみで使用することでインターネットを介さないため、セキュリティ面で情報漏洩のリスクを抑えることや自社でのみ使用されるため、カスタマイズ性に優れているという特徴があります。ただし、サーバーの保守や障害発生時の復旧などのトラブル対応も社内で実施する必要があります。

一方、クラウドサービスは、インターネット経由で接続するため、セキュリティ面でアカウント管理などは厳重に行う必要がありますが、他のクラウドサービスのデータを扱う場合や国内外の拠点からアクセスする場合などのニーズに対応できるという特徴があります。また、サーバーの保守や障害発生時の復旧などは、サービスとして保証されています。

このようにサービスの提供形態(オンプレ/クラウド)は、セキュリティ面やニーズに合わせて選択することが重要なポイントです。

データ処理速度

2つ目のポイントは、データ処理速度です。

基幹システムデータや顧客データなどの様々なデータソースからの大量のデータを分析するため、データ処理速度は製品選定する上で重要なポイントです。

データ容量の拡張性

3つ目のポイントは、データ容量の拡張性です。

格納されるデータは増え続けていくため、データ容量の拡張性は製品選定する上で重要なポイントです。

ただし、データ容量やコストの観点から無限にデータを格納し続けることは実現的ではないため、使用頻度の低いデータをコストの低いデータ領域に退避できる機能やGoogle BigQueryのように90日以上更新されていないTableデータのデータ参照はコストが低くなる料金形態なのかは要確認事項です。

ユーザインターフェースの柔軟性

4つ目のポイントは、ユーザインターフェースの柔軟性です。

DWHは、”ビジネスに必要なデータが全て保管されている場所”のため、社内の誰もが簡単にアクセス・利用できるユーザインターフェースであることが重要です。

製品として優れていても、誰も使わないシステムでは意味がないのでしっかり確認しましょう。

外部アプリケーションとのデータ連携のしやすさ

5つ目のポイントは、外部アプリケーションとのデータ連携のしやすさです。

外部アプリケーションの代表格は、BIツールです。分析に特化したデータベースであるDWHのデータをBIツールに連携できなければ何の意味もありません。

また、基幹システムやCRMなどのシステムからデータを連携できなければ意味もありません。外部アプリケーションとのデータ連携のしやすさは、製品選定する上で重要なポイントです。

まとめ

DWH、データベース、データレイク、データマートそれぞれの違いについて理解は進みましたでしょうか。

一般的にデータドリブンな経営するためのツールとして、BIツールでデータ可視化・分析を行いますが、判断の元となるデータの信憑性が低ければ意味がありません。

そのため、DWHの役割はとても重要なものとなります。また、要件やコスト、拡張性など、みなさまに合ったDWH製品を選ぶことが重要です。

株式会社KUIXではただ導入・開発するだけでなく、導入後の利活用を実現することに着眼した、DWH・BIツールの選定・導入からレポート作成、運用、啓蒙・展開までトータルのコンサルテーションなどを行っています。

「DWH/BIツールを導入したい」

「すでに導入しているがデータ活用、展開が進んでいない」など

お困りの方は、ぜひお気軽にご連絡ください!お問い合わせはこちらから

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

目次