「データマート」、「データレイク」、「DWH(データウェアハウス)」それぞれを理解して使えていますでしょうか。
それぞれ、”データが保管されている場所”という意味では似ていますが、役割は異なります。
本記事では、実際にBIツールでのデータ可視化・分析や業務効率化を行い、その他データ活用に関する多くの知見のある株式会社KUIXがこれまでの経験をもとにデータマートの概要や混同されやすいデータレイク、DWH(データウェアハウス)との違い、データマートを構築/運用する際の注意点を解説いたします。
データマート とは
データマートを一言で表すと”特定の目的のために作成したデータベース”です。
Data Mart:データマートは、直訳すると”データの小売店”です。後ほど出てきますが、混同されやすいキーワードとして、DWH(データウェアハウス)があります。
DWHを直訳すると、”データの倉庫”なので、データマートで扱うデータ(量・範囲・項目)は、DWHと比べて狭いことが分かります。
データマートは、具体的には、在庫管理や販売管理などの特定の目的によって作成されます。
ビジネスに必要なデータが全て保管されているDWHとは異なり、必要なデータ項目や期間、対象データも限られ、データ量もDWHに比べて少ないので、レスポンスも高くなります。
ただし、ビジネスデータ全体を使用していないので、全社的な意思決定を行うための分析はできないことに注意する必要があります。
データマートの種類
データマートには、従属型/独立型/ハイブリット型の3種類があり、DWHとの関係や格納されるデータによって分類されます。
従属型データマート
従属型データマートは、ビジネスに必要なデータが全て保管されているDWHから必要なデータのみを抽出して利用するデータマートです。
DWHに格納されているデータは、すべて分析に適したデータに加工されているため、データ分析時は、迅速かつ効率的に必要なデータにアクセスできるメリットがあります。
独立型データマート
独立型データマートは、DWHからデータを抽出せず、データマートごとにデータ収集・蓄積・加工したデータを利用するデータマートです。
各部署や特定業務ごとにデータを管理するため、運用や構築方法などを検討する必要はありますが、大規模なDWHを構築する必要がないため、スモールスタートする際は、独立型データマートが適しています。
ハイブリッドデータマート
ハイブリッドデータマートは、従属型データマートと独立型データマートの特性を合わせ持っているデータマートです。
大部分のデータは、従属型データマートと同様にDWHのデータを利用し、特定部署や業務に必要なデータのみをデータマートごとにデータ収集・蓄積・加工したデータを利用します。
新しい部署や事業を立ち上げ時に、素早くアプローチできるメリットがありますが、DWH以外のデータを扱うことになるため、独立型データマートと同様にデータの管理など運用方法を検討する必要があります。
データマートとデータレイク、DWH(データウェアハウス)の違いは?
ここからは、データマートと混同されやすいデータレイク、DWHの違いについて説明します。
それぞれ利用目的や格納するデータ構造、特徴は異なりますが、まずは、データレイク、DWH(データウェアハウス)について説明します。
データレイクとは
まず、データレイクってどんなものなのか?について説明します。
データレイクの特徴などについては、別の記事で詳しく解説しております。詳しくはこちらの記事をご覧ください。
Data Lake:データレイクは、直訳すると”データの湖”です。
つまり、データレイクは、生産/在庫/販売管理などのシステムデータ(構造化データ)や画像、動画ファイル(非構造化データ)など様々なデータを一元管理で蓄積できる領域です。
データレイクには、以下の3つのデータ構造を持つデータをそのまま格納します。
①構造化データ:基幹システム/CRMのシステムデータやExcel、CSVファイルのデータ
②半構造化データ:XMLファイル、Webページ上のデータ
③非構造化データ:画像、動画、SNS(ツイートなど)のデータ
大量のデータを一か所に集めるという点で似ているキーワードとして、DWH(データウェアハウス)があります。
大きな違いとして、DWHは、構造化データのみを格納しますが、データレイクは構造化データ以外のデータを格納する。という点で大きな違いがあります。
データレイクは、すべてのデータをそのまま(生データ)格納しますので、格納するデータ量は膨大になりますが、あらゆるデータを対象にデータ分析、機械学習、予測分析などを実施することができるというメリットがあります。
DWHとは
次に、DWH(データウェアハウス)ってどんなものなのか?について説明します。
DWHの特徴などについては、こちらの記事で解説しておりますので、より詳しく知りたい方はぜひご確認ください。
DWH(Data Ware House:データウェアハウス)を、一言で表すと直訳の通り、”データの倉庫”です。
“大量のデータを一か所に集める”という意味では、データベース(DB)やデータレイク(Data Lake)、データマート(Data Mart)も同じですが、
DWHは、米国のコンサルタントWilliam H.Inmon氏によって、「目的別に編成・統合された、時系列で、削除や更新をしないデータの集合体」と定義された概念です。
DWHを使用する目的は、大量のデータを分析し、データに基づく経営をするための意思決定に役立てることです。
みなさまの企業でも、生産/在庫/販売管理などの基幹システムデータやCRM(顧客管理システム)の顧客データなど様々なシステムを導入していますよね?
それらすべてのシステムデータを用いてデータ分析しようとした場合、それぞれのシステムからデータをエクスポートして、Excelに貼り付けて、さらに顧客IDや商品IDなどで結合して・・・
Excelの動作が重くなってしまったり、フリーズした。。。なんて経験をした方も多いと思います。
各システムのデータが1つ集約されていて、顧客IDや商品IDなど横断的にデータを分析できれば良いですよね。
基幹システムデータや顧客データなどの様々なデータソースからのデータを一か所に保管され、一か所に集めたビジネスデータを用いて分析を行い、意思決定できる環境がDWHです。
つまり、”ビジネスに必要なデータが全て保管されている場所”です。
データマートとデータレイク、DWH(データウェアハウス)の違い
データレイク、DWH(データウェアハウス)について理解したところで、最後にデータマート、データレイク、DWHそれぞれの違いについて、
利用目的や格納するデータ構造、特徴の違いを説明します。それぞれの違いは以下の通りです。
〇データマート
・格納するデータの構造:用途に合わせ定義(すべてのデータが対象)
・利用目的:特定部署/業務のデータ分析のためにデータを格納・蓄積する
・特徴:部署や目的ごとの必要データのみを加工し蓄積するため、安全性と検索性に優れている
・利用ユーザ:1部署や特定業務の従事者など
〇DWH(データウェアハウス)
・格納するデータの構造:加工された構造化データ
・利用目的:データ分析のためにデータを構造化し格納・蓄積する
・特徴:必要データのみを加工し蓄積するため、安全性と検索性に優れている
・利用ユーザ:ビジネスアナリストなど
〇データレイク
・格納するデータの構造:未加工の生データ
・利用目的:特定の目的をもたないあらゆるデータを格納・蓄積する
・特徴:データ構造を問わず格納できるため、格納できるデータの多様性とデータ利用における柔軟性がある
・利用ユーザ:データサイエンティストなど
データマート構築/運用上の注意事項
データマート構築および運用する上での注意事項は、3点あります。
データマートは、特定の部署や業務のために作成するデータベースのため、データ分析の目的やどんなデータが必要なのかをより意識する必要があります。
データ分析における目的の明確化
まず、「なぜデータ分析するのか」という目的を明確化にしましょう。
どんな目的のために何を分析し、どのような結果が得られると仮定し、その結果からどのように事業課題を解決するのかを定義します。
例えば、卸売業者で「売上UPしたい」という目的があったとします。
一概に売上UPといっても、販売数を増やすことや在庫適正化、販路拡大、経費削減など方法は無数にあります。
経費削減にフォーカスした場合、人件費や物流コストなどの経費データを分析し、人件費に多くの経費がかかっていた場合、社員教育や業務改善に取り組んで、人件費削減を目指し、売上UPさせるといったデータに基づく意思決定のストーリーがあります。
在庫適正化にフォーカスした場合は、どうでしょうか。必要なデータもストーリーも変わってきますよね?
このように、データ分析の目的によって、必要なデータも異なってくるため、なぜデータ分析するのか」という目的を明確化することが重要です。
データ要件定義
次に、明確にしたデータ分析における目的を達成するために、どのようなデータが必要なのか定義します。
データに基づく意思決定をするためには、あらゆる側面からのデータ分析が必要になります。
そのため、多くのデータが必要になりますが、それぞれのデータがどのシステムにあるのか、また、データの関連性(売上データと商品マスタが商品IDで紐づく。など)を整理することも重要です。
データ管理
最後に、どのようなデータが必要なのか定義したとしても、データを正しく管理(収集・蓄積・加工)できていなければ、データを利用することはできません。
そのため、ETLツールでシステムから必要なデータのみを抽出し、分析に適したデータに加工し、蓄積するなど適したツールの導入も含め、管理することが重要です。
まとめ
今回は、データマートの概要や種類、データレイク、DWH(データウェアハウス)との違い、データマートを構築/運用する際の注意点についてお話ししました。
人間でもコミュニケーションに優れている人材、営業に優れている人材、システムなどのITに強い人材など十人十色です。
システムやツールを利用するのは、我々”利用者”ですが、人材と同様にシステムやツールも適材適所でないと本来の能力を発揮できません。
そのため、各システムやツールの特性や役割を理解した上で、私たちが”使いこなす”ことが重要です。
株式会社KUIXではただ導入・開発するだけでなく、導入後の利活用を実現することに着眼した、データレイク・DWH・データマート・BIツールの選定・導入からレポート作成、運用、啓蒙・展開までトータルのコンサルテーションなどを行っています。
「データマート/データレイク/DWH/BIツールを導入したい」
「すでに導入しているがデータ活用、展開が進んでいない」など
お困りの方は、ぜひお気軽にご連絡ください!お問い合わせはこちらから

