MENU
Archives

データ解析とは?データ分析との違いや具体的な手法について

「データ解析ってよく聞くけど、具体的になにをするの?」

「データ解析にはどういう手法があるのだろう」

近年データの収集と活用によるビジネスのグロースは、先進的なテック起業に限らず必須と言われています。その中でよくデータ解析またはデータ分析というキーワードを耳にする機会は多いのではないでしょうか?

本記事では収集したデータを価値あるものにするための、データ解析について具体的な手法やデータ分析との違いを解説します!

目次

データ解析とは

データ解析とは、収集した多様なデータを分析した結果から、一定の規則性や共通項を見出して、なぜそのような結果になるのか原因を解明しようとする一連のプロセスのことを指します。

データ解析の結果、ビジネス課題に対する答えが見出されたり、施策立案の強力なヒントになる、または新たな課題が見つかるといった効果が期待できます。

あらゆる分野でデータ解析は行われていて、その中でもマーケティングや、医療・工学分野での効果測定などがイメージしやすいのではないでしょうか。

マーケティングだと、例えば顧客を年齢というカットで複数の集団に分けてデータ分析を行なった時に、集団Aの売上が異常に大きく、集団Bの売上が異常に小さかったとします。この場合以下のようなことが考えられるでしょう。

・売上の大きい集団Aの年齢層がそもそも元々ターゲットとしている年齢層と一致しているか?

・集団Bの売上を向上させるにはどのような施策が考えられるか?

・季節性や特殊な需要が結果に影響を与えていないか?

その結果、集団Bの売上向上のために、この年齢層向けにオンラインキャンペーンを行おうという意思決定がなされたとすれば、このプロセスが正にデータ解析です。

データ解析とデータ分析の違い

データ解析とよく似た言葉で「データ分析」がありますが、どのような違いがあるのでしょう。

言葉の意味として「分析」には、物事を分類してその性質や構造を明らかにすることという意味があり、「解析」には、物事を分析して紐解いて解明することという意味があります。

つまり、データ分析が結果の分類に留まることに対して、データ解析はなぜそのような結果になるのかといった原因の解明までを指すという点が、両者の違いです。

とはいえ実は英語にするとどちらも「Data Analysis」であったり、ビジネス上厳密に使い分けられているかといえば実態はそうでもないので、データ解析の方がより原因の解明のニュアンスが大きいと覚えておけば良いでしょう。

データ解析の具体的な手法

では具体的なデータ解析の手法についてご紹介します。

データ解析には、

・ビジネス課題の理解

・分析手法の理解・選定

・実装・エンジニアリング

・結果の考察

といった要素があり、それぞれ適切なスキルセットや経験を持った人材が必要となります。

決定木分析

決定木分析(decision tree)とは「分類木」と「回帰木」を組み合わせて、ある事象に対してYes or Noで答えられる分岐を与え、これを繰り返すことで、結果を予測する解析手法です。

例えば特定の商品が購入される可能性を、「その日の気温が25℃以上?」、「2回目以上の来店?」といった分岐を繰り返して最終的に購入確率75%以上といった結果予測を行います。

ある要因が購入という結果にどれくらい影響を与えているかを視覚的に把握することができるのが、決定木分析のメリットです。

RFM分析

RFM分析とは、マーケティング分野で頻出の顧客解析手法です。RFM分析では顧客を、直近の購入日(Recency)、購入頻度(Frequency)、購入累計額(Monetary)の3つの指標でグルーピングします。このように顧客をグループ分けする利点として、VIP顧客を把握したり、どのような属性の顧客がVIP顧客となりやすいかなど、顧客の解像度を高められる点と、各グループ毎に最適な施策を実行できる点にあります。

回帰分析

回帰分析は、機械学習でメジャーな分析手法で、要因とその要因によって結果がどの程度変化するかを予測する分析手法です。

結果を表す変数を目的変数、要因を表す変数を説明変数と言います。

単回帰分析では1つの目的変数に1つの説明変数、重回帰分析では1つの目的変数に複数の説明変数で予測します。

例えば、身長から体重を予測する回帰分析は単回帰、身長・胸囲・腹囲から体重を予測する回帰分析は重回帰です。

回帰分析は結果の数値に対して要因となる数値がどの程度影響を与えているかを解明する手法として、広く利用されています。

バスケット分析

バスケット分析とは、買い物かご(バスケット)の中身を解明するための分析手法で、1度の買い物でどのような商品の組み合わせで購入されているかを解析します。有名な解析結果の例として、おむつとビールがあり、これは子供連れの家庭の父親が紙おむつのお使いを頼まれた際に、缶ビールを一緒に購入する傾向があるという解析結果で、このように一見関連性のない商品が実は一緒に購入される可能性が高いということをバスケット分析により発見できる点がこの手法の利点です。

クラスター分析

クラスター分析は機械学習で頻出の解析手法です。クラスター分析は、大量のデータを特徴量に注目して複数のクラスター(集団)に分類します。クラスター分析の利点は、大量のデータをある程度のクラスターに分けることで、データの概観把握が可能になる点と、クラスターごとに行動にどのような特徴があるのかといった性質の把握、スコアリングを出来る点です。このような特徴からクラスター分析は顧客分析や、CRMシステムでよく使われます。

アソシエーション分析

アソシエーション分析とは、ビッグデータを対象とした分析で、AであればBだろうといった関連性を見つける手法です。アソシエーション分析では、支持度、確信度といった指標が用いられ、支持度は事象AとBが同時に発生するケースがどの程度を占めるかの割合を示し、確信度はAという事象の中でBも同時に発生した割合を示します。これらの指標により、AとBという事象がどの程度関連性が強いかを算出します。「これを買う人はこの商品も一緒に買うだろう」といった予測が立てられるためマーケティングと関連の深い分析手法です。

バートレット検定

バートレット検定は、統計学を用いた手法で、複数のグループで構成される標本データで、グループが均等に分散しているかを検査します。統計学を用いた分析手法の中にはデータの分散が均一であることが前提条件となる手法が存在するため、あらかじめデータの分散具合を確かめるためにバートレット検定が用いられます。

Pythonでデータ解析

データ解析に必要な要素としてご紹介した下記の内、

・ビジネス課題の理解

・分析手法の理解・選定

・実装・エンジニアリング

・結果の考察

実装・エンジニアリングについて触れていきます。このパートはAIエンジニアやデータエンジニアのスキルセットが必要になるパートです。

プログラミング言語のPythonには機械学習や分析用のライブラリが豊富に用意されているため、Pythonでのデータ解析実装について解説します。

Pythonでのデータ解析の大きな流れとしては、

・データの収集

・データクレンジングなど前処理

・データ解析の実施

・レポートなどのアウトプット

このようなフローが想定され、これらをPythonのプログラムで実現していきます。

以下、実現するために必要なライブラリ等をご紹介します。

Python環境準備 Anaconda

Pythonの環境準備で初心者にオススメはAnacondaです。

AnacondaはPython環境や有名な分析ライブラリが全て揃ったパッケージで、Anacondaをインストールすれば、Pythonでの一通りの分析が始められるという内容になっているので、まずはAnacondaのWebサイトよりインストールされることをお勧めします。

データを取り扱うライブラリ Pandas

PandasはPythonでデータを取り扱うための有名なライブラリです。

CSVの読み取り、書き出しが可能で、Python上でデータの加工や前処理、統合が行えます。

import pandas as pd

df = pd.read_csv('sample.csv')

print(df)

DataFrameという形式でデータを取り扱っている点が特徴的で、慣れるとExcelを取り扱うようにデータを加工することが可能です。

数値計算ライブラリ Numpy

Numpyは数値計算用の有名なライブラリです。

配列構造を扱って行列や多次元の計算ができる点が特徴です。

import numpy as np

# 1次元の配列を作成する

a = np.array([1, 2, 3, 4, 5])

# 2次元の配列を作成する

b = np.array([[1, 2], [3, 4]])

配列計算が行えるほか、Numpyを使用した方が計算の実行速度が速いという利点があります。

まとめ

本記事ではデータ解析について具体的な手法とどのように応用されるのかについて解説しました。

データ、特にビッグデータは収集されるだけではなく、データ解析を経て価値のあるデータとする必要があり、そのために本質的なビジネス課題の理解、適切な解析手法の選択、ビッグデータ分析に耐えうる分析プラットフォームの構築…とやるべきことは多く挑戦しがいのある課題と言えます。

本記事が、データ解析の概観の把握や、データ解析実施のプランニングのイメージをおぼろげでも持っていただく一助となりましたら幸いです。

株式会社KUIXではDXの推進をコンサルテーションのレイヤーからBIやDWH構築のレイヤーまで幅広く対応しております。また、データ解析に関する教育、プロフェッショナル人材のご紹介などをお客様に提供しております。もし自社で進めるのはちょっと厳しいといった場合は是非弊社までお問い合わせください!お問い合わせはこちらから

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

目次