「BigLakeについて知りたい!」
「BigLakeを活用することでどういうメリットがあるのだろうか?」
近年データの活用、ビッグデータの分析がビジネス上重要視される中で、データのサイロ化(社内のデータが様々なシステムやロケーションに保存されていたり、それぞれ微妙に仕様や形式が異なる相互連携が困難な状態)が問題となるケースが存在します。
本記事では、データのサイロ化に対するソリューションとなる、データウェアハウスとデータレイクを統合するストレージエンジンであるBigLakeについて解説します。
BigLakeとは
BigLakeはGoogle Cloudが提供するデータウェアハウスとデータレイクを統合するストレージエンジン(データベースの機関)です。
BigLakeは基盤となるストレージやシステムを意識することなく、一元化して分析できるようにするため、データの複製や移動が不要になります。
特にGoogle Cloud、AWS、Azureとマルチクラウドを採用している場合、これらを一元化して、きめ細かいアクセス制御を行なった上で、統合的にデータにアクセスすることが可能になります。
BigLakeテーブルを作成すると、Google Cloud Storage、Amazon S3、Azure Data Lake Storage Gen2で構築されたデータレイクに拡張可能です。Google Cloudのみのユーザーにとっても、BigQueryとGoogle Cloud Storageの両方に権限を付与して管理する必要がなくなるメリットがあります。
また、Google Cloudの各サービスに対応しており、Analytics HubではBigLakeテーブルをリスティングとして公開して、別のプロジェクトと共有することができます。
BigQuery MLではGoogle Cloud Storageでモデルをトレーニングして実行できます。
データウェアハウスとは
データウェアハウスは特定の目的のために構造化されたデータを保管するデータの倉庫です。
分析や可視化を主眼に置いているため、データの抽出や処理が比較的高速に行える点が特徴です。
分析に使用されるため、保管されるデータは時系列のあるデータや、売上、顧客などのサブジェクトによって分類されていることが多く、目的が明確なデータの集合と言えます。
有名なクラウドのデータウェアハウスサービスは、Google CloudのBigQueryやAWSのRedshiftなどが存在します。

データレイクとは
データレイクはデータウェアハウスが特定の目的を持ったデータなのに対して、特に目的のないデータを含む、構造化データと非構造化データの集合です。構造化されたCSVファイルから画像、音楽、動画ファイルまで膨大なローデータを保管する場所として、データレイク(データの池)と言われています。
データの蓄積に長けている反面、データの分析や処理には向いておらず、データウェアハウスとは明確に役割が分けられています。
AWSのS3などがデータレイクとして有名です。

BigLakeの特徴
きめ細かいアクセス制御が可能
BigLakeテーブルではアクセス権を基盤となるデータストアから切り離して、サービスアカウントに対してアクセス権を付与するため、行レベル、列レベルのセキュリティとテーブルレベルでの詳細なセキュリティを適用できます。
他の有名なデータ処理ツールからのアクセス
BigQueryコネクタを使用することで、Apache Spark、Apache Hive、TensorFlow、Trinoなどの有名なオープンソースエンジンからデータに対して均一にアクセスすることができるようになります。またBigQuery Storage APIにより行レベル、列レベルのガバナンスポリシーの適用が可能です。
マルチクラウド対応
BigQuery Omniを使用するとBigLakeテーブルを使用して、Amazon S3やAzure Blob Storageのデータに対してBigQueryの分析を実行可能です。BigQueryのクエリエンジンを他のクラウド上で実行するため、データを物理的にBigQueryに移動する必要はありません。
BigLakeの利点
データのサイロ化の解消
複数のシステムやストレージに分散したデータを一箇所で統合的に分析することが可能になります。
またアクセス制御もきめ細やかに行えるため、データの管理やセキュリティポリシーの調整も容易になります。
分析パフォーマンスの向上
物理的にデータを移動することなく、データが存在するリージョンでクエリが実行可能なため、分析情報をより素早く取得できます。
費用の削減
データのサイロ化解消にあたって、データを物理的にコピーしたり移動する必要がないため、データ処理のコストを抑えられます。
BigLakeのユースケース
データのサイロ化の解消に有効なBigLakeですが、具体的にはどのようなケースで採用するべきでしょうか。
例えば以下のようなケースが考えられます。
・マルチクラウドに分散したデータの統合分析
Google Cloud、AWSなど複数のクラウド上のデータウェアハウスやデータレイクに分散したデータを統合して分析を行う必要がある場合にBigLakeは有効です。
・BigQueryとGoogle Cloud Storageの権限管理の統合
BigLakeテーブルにより、Google Cloud Storageのデータを参照する際、BIgQueryとGoogle Cloud Storageの両方に権限を付与する必要がなくなり、権限管理が容易になります。
まとめ
本記事ではBigLakeについてその特徴と利点について解説しました。
大規模な統合ガバナンスを実現可能で、どちらかというと様々なシステムやストレージを運用しているエンタープライズ向けのサービスとなっています。
データの一元管理、マルチクラウドガバナンス、データのサイロ化の解消といったキーワードにピンときたのであれば、一度BigLakeを利用されてみることを推奨します!
本記事が、BigLakeやデータ管理のテクノロジーに興味を持つ一助となりましたら幸いです。
株式会社KUIXではGCPを用いたシステムの開発やコンサルティングを行っています。本格的なGCP環境の構築・導入をご検討される際は、ぜひ一度ご連絡ください!お問い合わせはこちらから

