データレイクとは？DWHとの違いや正しい活用方法・運用方法のポイントを解説

2023 4/24

2023年4月23日 2023年4月24日

生産/在庫/販売管理などのシステムデータ、ExcelやCSVファイル、その他画像、動画ファイルなど一概にデータと言っても様々なデータがありますよね。

みなさまの企業では、正しい場所にデータが保管されていますか？

「うちの会社では、データはすべてデータレイクに保管されているから大丈夫！」

という企業様でも、適切な運用がされていないと、いざデータ分析をしようとデータレイク内のデータを確認した際に、

「ファイル名が異なる同じExcelファイルが多数保管されていて、どのファイルを見れば良いのか分からない」

という事態になりかねません。

本記事では、実際にBIツールでのデータ可視化・分析や業務効率化を行い、その他データ活用に関する多くの知見のある株式会社KUIXがこれまでの経験をもとにデータレイクの概要や混同されやすいDWH(データウェアハウス)との違い、データレイクを利用する際の注意点を解説いたします。

データレイクとは

Data Lake：データレイクは、直訳の通り”データの湖”です。

データレイクは、生産/在庫/販売管理などのシステムデータ(構造化データ)や画像、動画ファイル(非構造化データ)など様々なデータを一元管理で蓄積できる領域のことをいいます。

データレイクの概要

データレイクには、以下の3つのデータ構造を持つデータをそのまま格納します。

　①構造化データ：基幹システム/CRMのシステムデータやExcel、CSVファイルのデータ

　②半構造化データ：XMLファイル、Webページ上のデータ

　③非構造化データ：画像、動画、SNS(ツイートなど)のデータ

後ほど出てきますが、大量のデータを一か所に集めるという点で似ているキーワードとして、DWH(データウェアハウス)があります。

大きな違いとして、DWHは、構造化データのみを格納しますが、データレイクは構造化データ以外のデータを格納する。という点で大きな違いがあります。

データレイクは、すべてのデータをそのまま(生データ)格納しますので、格納するデータ量は膨大になりますが、あらゆるデータを対象にデータ分析、機械学習、予測分析などを実施することができるというメリットがあります。

データレイクの必要性・活用法

データ分析を行うためには、用途に合わせデータ分析に適したデータへ加工することが一般的ですが、加工前のデータ(生データ)を使用することもあります。

データ分析に適したデータへ加工するためには、夜間処理などが必要なため、リアルタイム性に欠けることがありますが、製造業などIoTによるインターネットに接続したデバイスからのデータをリアルタイムにデータレイクに格納するようにすることで、リアルタイムに分析し品質向上に務めることができます。

また、膨大なデータの中からビジネスに役立つ有用なデータを発見する「データマイニング」を行うことで、SNSから取得したツイートなどから新たなインサイトが発見できるなど、分析担当者が気づかない有用なデータが埋まっている可能性もあります。

データ分析に適したデータは、絞り込みなどを行い、見たいデータにすぐアクセスできる。といった点で優れていますが、リアルタイム性やインサイト発見などの点でデータレイクは必要となります。

一方で、データレイクには、生データが保存されるため、格納・蓄積されるデータがどのような形式(テキスト/ファイルなど)、どのようなデータ(システム/IoT/SNSなど)なのか？など、適切に運用することが必要です。そのような注意点は後ほど解説します。

データレイクとDWH(データウェアハウス)の違いは？

大きな違いとして、DWHは、構造化データのみを格納しますが、データレイクは構造化データ以外のデータを格納する。という点で大きな違いがあると説明しましたが、格納するデータの構造以外にも、利用目的やコストなどの違いがあります。

DWHとは

まず、DWH(データウェアハウス)ってそもそもなに？なのかを説明します。

DWH(データウェアハウス)の特徴などについては、別で詳しく解説しております。ぜひこちらの記事をご覧ください。

DWH(Data Ware House：データウェアハウス)とは、一言で表すと直訳の通り、”データの倉庫”です。

前述の”大量のデータを一か所に集める”という意味では、データベース(DB)やデータレイク(Data Lake)、データマート(Data Mart)も同じですが、DWHは、米国のコンサルタントWilliam H.Inmon氏によって、「目的別に編成・統合された、時系列で、削除や更新をしないデータの集合体」と定義された概念です。

DWHを使用する目的は、大量のデータを分析し、データに基づく経営をするための意思決定に役立てることです。

みなさまの企業でも、生産/在庫/販売管理などの基幹システムデータやCRM(顧客管理システム)の顧客データなど様々なシステムを導入していますよね？

それらすべてのシステムデータを用いてデータ分析しようとした場合、それぞれのシステムからデータをエクスポートして、Excelに貼り付けて、さらに顧客IDや商品IDなどで結合して・・・

Excelの動作が重くなってしまったり、フリーズした。。。なんて経験をした方も多いと思います。

各システムのデータが1つ集約されていて、顧客IDや商品IDなど横断的にデータを分析できれば嬉しいですよね。

基幹システムデータや顧客データなどの様々なデータソースからのデータを一か所に保管され、一か所に集めたビジネスデータを用いて分析を行い、意思決定できる環境がDWHです。

つまり、DWHは、”ビジネスに必要なデータが全て保管されている場所”といえます。