生産/在庫/販売管理などのシステムデータ、ExcelやCSVファイル、その他画像、動画ファイルなど一概にデータと言っても様々なデータがありますよね。
みなさまの企業では、正しい場所にデータが保管されていますか?
「うちの会社では、データはすべてデータレイクに保管されているから大丈夫!」
という企業様でも、適切な運用がされていないと、いざデータ分析をしようとデータレイク内のデータを確認した際に、
「ファイル名が異なる同じExcelファイルが多数保管されていて、どのファイルを見れば良いのか分からない」
という事態になりかねません。
本記事では、実際にBIツールでのデータ可視化・分析や業務効率化を行い、その他データ活用に関する多くの知見のある株式会社KUIXがこれまでの経験をもとにデータレイクの概要や混同されやすいDWH(データウェアハウス)との違い、データレイクを利用する際の注意点を解説いたします。
データレイクとは
Data Lake:データレイクは、直訳の通り”データの湖”です。
データレイクは、生産/在庫/販売管理などのシステムデータ(構造化データ)や画像、動画ファイル(非構造化データ)など様々なデータを一元管理で蓄積できる領域のことをいいます。
データレイクの概要
データレイクには、以下の3つのデータ構造を持つデータをそのまま格納します。
①構造化データ:基幹システム/CRMのシステムデータやExcel、CSVファイルのデータ
②半構造化データ:XMLファイル、Webページ上のデータ
③非構造化データ:画像、動画、SNS(ツイートなど)のデータ
後ほど出てきますが、大量のデータを一か所に集めるという点で似ているキーワードとして、DWH(データウェアハウス)があります。
大きな違いとして、DWHは、構造化データのみを格納しますが、データレイクは構造化データ以外のデータを格納する。という点で大きな違いがあります。
データレイクは、すべてのデータをそのまま(生データ)格納しますので、格納するデータ量は膨大になりますが、あらゆるデータを対象にデータ分析、機械学習、予測分析などを実施することができるというメリットがあります。
データレイクの必要性・活用法
データ分析を行うためには、用途に合わせデータ分析に適したデータへ加工することが一般的ですが、加工前のデータ(生データ)を使用することもあります。
データ分析に適したデータへ加工するためには、夜間処理などが必要なため、リアルタイム性に欠けることがありますが、製造業などIoTによるインターネットに接続したデバイスからのデータをリアルタイムにデータレイクに格納するようにすることで、リアルタイムに分析し品質向上に務めることができます。
また、膨大なデータの中からビジネスに役立つ有用なデータを発見する「データマイニング」を行うことで、SNSから取得したツイートなどから新たなインサイトが発見できるなど、分析担当者が気づかない有用なデータが埋まっている可能性もあります。
データ分析に適したデータは、絞り込みなどを行い、見たいデータにすぐアクセスできる。といった点で優れていますが、リアルタイム性やインサイト発見などの点でデータレイクは必要となります。
一方で、データレイクには、生データが保存されるため、格納・蓄積されるデータがどのような形式(テキスト/ファイルなど)、どのようなデータ(システム/IoT/SNSなど)なのか?など、適切に運用することが必要です。そのような注意点は後ほど解説します。
データレイクとDWH(データウェアハウス)の違いは?
大きな違いとして、DWHは、構造化データのみを格納しますが、データレイクは構造化データ以外のデータを格納する。という点で大きな違いがあると説明しましたが、格納するデータの構造以外にも、利用目的やコストなどの違いがあります。
DWHとは
まず、DWH(データウェアハウス)ってそもそもなに?なのかを説明します。
DWH(データウェアハウス)の特徴などについては、別で詳しく解説しております。ぜひこちらの記事をご覧ください。
DWH(Data Ware House:データウェアハウス)とは、一言で表すと直訳の通り、”データの倉庫”です。
前述の”大量のデータを一か所に集める”という意味では、データベース(DB)やデータレイク(Data Lake)、データマート(Data Mart)も同じですが、DWHは、米国のコンサルタントWilliam H.Inmon氏によって、「目的別に編成・統合された、時系列で、削除や更新をしないデータの集合体」と定義された概念です。
DWHを使用する目的は、大量のデータを分析し、データに基づく経営をするための意思決定に役立てることです。
みなさまの企業でも、生産/在庫/販売管理などの基幹システムデータやCRM(顧客管理システム)の顧客データなど様々なシステムを導入していますよね?
それらすべてのシステムデータを用いてデータ分析しようとした場合、それぞれのシステムからデータをエクスポートして、Excelに貼り付けて、さらに顧客IDや商品IDなどで結合して・・・
Excelの動作が重くなってしまったり、フリーズした。。。なんて経験をした方も多いと思います。
各システムのデータが1つ集約されていて、顧客IDや商品IDなど横断的にデータを分析できれば嬉しいですよね。
基幹システムデータや顧客データなどの様々なデータソースからのデータを一か所に保管され、一か所に集めたビジネスデータを用いて分析を行い、意思決定できる環境がDWHです。
つまり、DWHは、”ビジネスに必要なデータが全て保管されている場所”といえます。
データレイクとDWH(データウェアハウス)の違い
ここからは、データレイクとDWH(データウェアハウス)の違いについて、格納するデータの構造以外にも、利用目的やコストなどの違いを説明します。
利用目的やコストなどの違いは以下の通りです。
〇データレイク
・格納するデータの構造:未加工の生データ
・利用目的:特定の目的をもたないあらゆるデータを格納・蓄積する
・特徴:データ構造を問わず格納できるため、格納できるデータの多様性とデータ利用における柔軟性がある
・利用ユーザ:データサイエンティストなど
〇DWH(データウェアハウス)
・格納するデータの構造:加工された構造化データ
・利用目的:データ分析のためにデータを構造化し格納・蓄積する
・特徴:必要データのみを加工し蓄積するため、安全性と検索性に優れている
・利用ユーザ:ビジネスアナリストなど
データレイク構築/運用上の必要事項
先ほどデータレイクには、未加工の生データが保存されるため、格納・蓄積されるデータがどのような形式(テキスト/ファイルなど)、どのようなデータ(システム/IoT/SNSなど)なのか?など適切に運用することが必要だ、と説明しました。以下では、データレイクを構築/運用する上で必要となることを解説します。
データカタログの作成が必要
データレイクには、構造化データ/非構造化データ問わず大量の生データを格納・蓄積されるため、格納されるデータが
・データソース(システム/IoT/SNSなど)はどこなのか
・格納される頻度(リアルタイム、日次、週次など)
・どのようなデータなのか
・データレイクの格納先はどこなのか
といったデータカタログを作成(場合によっては定義)し、ユーザがデータを見つけやすく、無法地帯にならないように運用する必要があります。
高性能なサーバ、ツールが必要
画像や動画ファイルは、ExcelやCSVファイルといった構造化データに比べ、ファイルサイズが大きくなります。
そのため、格納する領域の容量も必要ですが、抽出(ロード)するために、高性能なサーバ、ツールの導入が構築する上で必要となります。
定期的なクレンジング(不要データの削除)が必要
システムが統合され、不要になった過去データやファイル名が異なる同じExcelファイルなど整理されずに放置されたままのデータが大量にあると探すのも大変ですよね。。。
運用していく中で、データレイクには、そのような誰からも分析に利用されないデータも存在するようになります。
そのため、不要なデータを定期的に削除するクレンジング作業が運用する上で必要になります。
まとめ
データレイクの概要やDWH(データウェアハウス)との違い、データレイクを利用する際の注意点についてお話ししましたがいかがでしたでしょうか。
新しい技術やシステム、ツールは、常に登場してきますが、各システムでどんなデータを扱っているか?、各ツールの役割は何か?を理解して、”使いこなす”ことが重要です。
人間でもコミュニケーションに優れている人材、営業に優れている人材、システムなどのITに強い人材など十人十色ですよね?
システムやツールを利用するのは、我々”利用者”ですが、人材と同様にシステムやツールも適材適所でないと本来の能力を発揮できません。
そのため、各システムやツールの特性や役割を理解した上で、私たちが”使いこなす”ことが重要です。
株式会社KUIXではただ導入・開発するだけでなく、導入後の利活用を実現することに着眼した、データレイク・DWH・BIツールの選定・導入からレポート作成、運用、啓蒙・展開までトータルのコンサルテーションなどを行っています。
「データレイク/DWH/BIツールを導入したい」
「すでに導入しているがデータ活用、展開が進んでいない」など
お困りの方は、ぜひお気軽にご連絡ください!お問い合わせはこちらから


