「様々な経営データを可視化してデータドリブンな経営を行おう!」
という昨今のDX推進の流れの中で、実際にどのデータ基盤に社内のデータを集約するか悩まれたご経験はないでしょうか?
BigQueryはその際に選択肢に挙がってきやすく、実際に安価なデータ保管と、ハイパワーな分析が可能なことから非常に優れたデータ基盤です。今回はそのBigQueryについてできることや活用事例などをご紹介します。
BigQueryとは
BigQueryとはGoogle Cloud Platform(GCP)で提供されるGoogleのデータウェアハウスです。
元々Googleが自社の膨大なデータを処理するために構築した基盤を基にサービス化したデータウェアハウスで、そのためTB(テラバイト)、PB(ペタバイト)級のいわゆるビッグデータでも高速で解析可能な点が特徴です。
使い始めも簡単で、GCPに登録さえしてしまえばすぐに使えるようになるほか、データベースチューニングなどの煩わしい作業も要らず、SQLで解析可能なため導入のハードルは低いと言えます。
BigQueryでできること
では、BigQueryでできることについてご紹介します。
組み込みのMLで機械学習
BigQueryでは組み込みのBigQuery MLという機能を使うことで、複雑な機械学習の知識なしでも、BigQueryに保管しているデータとSQLを使って機械学習のモデルが作成できるようにデザインされています。例えば以下のような機械学習のモデルがサポートされています。
・線形回帰
・2項ロジスティック回帰
・多項ロジスティック回帰
・K平均法クラスタリング
・時系列
下記の時系列のARIMAモデルによる需要予測は、時系列の商品販売データがあればすぐにモデルを作成できるので、BigQuery MLの使用感を試してみることにお勧めです。
参考:BigQuery ML で需要予測モデルを構築する方法 | Google Cloud 公式ブログ
https://cloud.google.com/blog/ja/products/bigquery/how-build-demand-forecasting-models-bigquery-ml
様々なデータソースや他データ基盤からのデータ連携
BigQueryへのデータの集約は様々な連携方法がサポートされているため、比較的簡単に行えます。例えばローカルからCSVファイルをアップロードすることも可能ですし、BigQuery Data Transfer Serviceというデータ移動の自動化サービスでは以下のソースが連携サポートされています。
・Cloud Storage
・Google広告
・Amazon S3
・Azure Blob Storage
・Amazon Redshift
また、大体の外部のETLツールやBIツールでもBigQueryは標準でサポートされています。そのため、BigQueryへのデータの集約や外部へのエクスポートなどのデータ連携で困ることがないという点は強みです。
ログの分析、リアルタイム分析
ビッグデータの保管とハイパワーな分析機能を備えていることから、サーバーやセンサー、IoTデバイスから、ソーシャルゲームやSNSなどのユーザーの行動ログデータなどのリアルタイムで生成される膨大なデータの解析に向いているというのもBigQueryの大きな特徴です。またBigQuery自体サーバーレスで利用可能なため、DBチューニングなどの手間のかかる作業に煩わされずにデータアナリストは分析業務に専念することができます。
BigQueryの費用
BigQueryの利用料金は
・分析料金
・ストレージ料金
この2つで構成されており、分析料金はSQL実行によって処理されたバイト数に基づいて課金、ストレージ料金はデータの保存量に応じて課金される体系となっています。
それぞれある程度の処理量までは無料の無料枠が用意されているほか、分析料金には定額料金という、あらかじめSQLの処理量を購入して料金のキャップを定めるプランも用意されています。現在の最新の料金については以下の公式サイトをご確認ください。
料金 | BigQuery: クラウド データ ウェアハウス | Google Cloud
なお料金の推定見積もりは可能で、1日分のデータがどれほどの容量があるかを見ることで、ストレージ料金は推定できます。分析料金は、SQLを実行する際にドライラン機能といって、SQL実行前に処理バイト数を教えてくれる機能がBigQueryにあるため、こちらもある程度見積もり可能です。
BigQueryの導入
まずGoogle Cloudの管理画面にログインします。
ログインしたらプロジェクト選択のウィンドウより、「新しいプロジェクト」を選択してこれからBigQueryを使い始めるGoogle Cloudのプロジェクトを作成し、プロジェクト名などの必要項目の入力を行なうと完了です。
プロジェクトを作成したら左側のナビゲーションメニュー > BigQueryと選択することで、BigQueryの画面に遷移し、使い始めることが可能です。
BigQueryの活用事例
BigQueryの実際の活用事例をご紹介します。
DMPとしてのBigQuery
DMPとはData Management Platformの略称で、社内に点在する様々なデータを集約して一元管理、分析に活用するデータ基盤のことを指します。種類の異なるデータを並べて見たいのに、別々の場所に保管されているため出来なかった経験はないでしょうか?
DMPはこのような状況をなくし、データアナリストや業務の担当者がストレスなく分析できる環境を提供します。例えばDMPに集約されるデータとして以下のようなデータが考えられます。
・経営データ
・自社CRMの顧客データ
・広告データ
・POSデータ
・天気や道路混雑状況などのパブリックデータ
これらのデータを統合して一箇所で分析できるようにするための基盤としてBigQueryは活用されます。
またDMPをより先鋭化した使い方として、CDP(Customer Data Platform)として使用されることもあります。CDPでは顧客データを分析することにフォーカスしており、顧客のスコアリングやラベリングを行うことにより、顧客のセグメント分けとMA(マーケティングオートメーション)を行うデータとして用いられます。
BigQueryへのGA4データの連携
様々なツールとの連携を標準サポートしているBigQueryですが、中でも特にGoogle社製のサービスとの連携は手厚くサポートされています。例えばアクセス解析ツールのGA4とは以下の手順で簡単にBigQueryへのデータ連携が可能です。
GA4の管理画面から「BigQueryのリンク設定」を選択します。次に「リンク」を選択、連携するBigQueryプロジェクトをGoogle Cloudのプロジェクトを指定します。データロケーションは任意で問題ありませんが、こだわりがなければ東京で良いでしょう。
なお既にBigQueryに他のデータを保管している場合、ロケーションをまたぐSQLが実行できない性質上、既存のデータのロケーションに合わせる形が良いです。頻度の設定では、毎日とストリーミングを選択でき、ストリーミングはイベント発生から数秒でデータが反映される、GA4のリアルタイムレポートに近いデータになります。リアルタイムデータが欲しい場合は毎日とストリーミング両方の選択、日次データだけで事足りる場合は毎日だけを選択します。
「送信」を押して設定が完了すると、「BigQueryのリンク設定」では連携先のプロジェクトが表示されるようになります。※プロジェクトは1つしか登録できないので、現在活用しているプロジェクトを登録するようにしましょう
連携設定を行なって1~2日でBigQueryにデータが反映されるので、実際にデータの確認を行います。Google Cloudの管理画面から、左側のメニューよりBigQueryを選択、BigQuery上に作成されているデータセット・テーブルが表示されるので、ここに「analytics_xxx」というデータセット、「events_xxx」という名前のデータセット・テーブルが表示されればデータの確認は完了です。
なお連携したテーブルに有効期限がついている場合があるので、念の為確認しましょう。テーブルの有効期限とは指定の期間を過ぎると自動的にテーブルが削除される、という機能で、「analytics_xxx」データセットを選択 > 詳細を編集 > 「テーブルの有効期限を有効にする」チェックボックスをON/OFFにすることで設定できます。有効期限がついていると、テーブルが自動で削除されるためOFFにしておきましょう。
まとめ
BigQueryでできることから活用事例までご紹介しましたがいかがでしたでしょうか。
導入のしやすさや安価な料金設定、外部ツールとの連携しやすさにより、かなり汎用的に使っていただけるイメージを持っていただけましたら幸いです。
株式会社KUIXではただ導入・開発するだけでなく、導入後の利活用を実現することに着眼した、BIツールの選定・導入からレポート作成、運用、啓蒙・展開までトータルのコンサルテーションなどを行っています。
「BigQuery/BIツールを導入したい」
「すでに導入しているがデータ活用、展開が進んでいない」など
お困りの方は、ぜひお気軽にご連絡ください!お問い合わせはこちらから
BigQueryのSQLチートシートをダウンロード


