IBM InfoSphere DataStageとは？機能やジョブデザインの方法、事例について

2024 3/10

2024年3月10日 2024年3月10日

「IBM InfoSphere DataStageがどういうサービスか知りたい！」
「IBM InfoSphere DataStageを活用することでどういうメリットがあるのだろうか？」

データ分析やデータ活用において、各所で収集したデータを整理された形で統合することは非常に重要です。
ETLツールと言われる抽出、変換、ロード（Extract、Transform、Load）を行うツールを導入して、企業のデータ統合を試みている方も多いのではないでしょうか。

本記事ではIBMが提供するETLツールであるIBM InfoSphere DataStageをご紹介します。

IBM InfoSphere DataStageとは

IBM InfoSphere DataStageとは、IBMが提供するETLツールです。
ETLツールは複数のデータソースからのデータを、データウェアハウスなどに一貫性のある状態で統合することを目的としたツールです。
IBMは170カ国以上でビジネスを展開する多国籍企業で、2023年にGartnerのデータ統合ツール部門で18年連続でリーダーに選出されるなど、データ統合において業界を牽引する企業です。

IBM InfoSphere DataStageは単純なものから複雑なデータ構造まで、大容量のデータを整理して統合することが可能です。
またドラッグ&ドロップで操作できるアプリケーション画面で、視覚的にデータフローを作成していくことができます。
その他データパーティション化機能など並列処理がデザインされており、データボリュームや時間の制約を気にせずに統合プロセスを作成できるようになっています。

ETLツールの役割

ETLツールはデータ分析の基盤となります。
例えば月ごとのレポートを作成するといったビジネス上のニーズに応じて、必要なデータを収集、編成するプロセスを自動で行う役割を果たします。
まとめるとETLツールは下記の目的のために使用されます。

レガシーなシステムからデータを抽出するため
サイロ化しているデータを収集、編成してデータの一貫性を確立するため
目的のデータベースへデータをロードするため

IBM InfoSphere DataStageでのデータフロージョブのデザイン

IBM InfoSphere DataStage上でのジョブのデザインは下記のプロセスにより成り立ちます。

入力ステージと出力ステージを追加する
変換ステージを追加する
リンクを使用してステージを接続する
表定義をソースステージとその他のステージにロードする
データソースファイルのプロパティを追加する
データターゲットファイルのプロパティを追加する
ステージのタイプに応じて、必要な場合変換ステージを編集する
ジョブを保存し、コンパイルする
ジョブを実行しモニターする
ログを確認する

ジョブのデザインを行う際には、以下の点を検討する必要があります。

ジョブの目的の理解
ジョブの要件には、AというシステムからBというデータベースへデータをロードするだけのものから、複数のデータソースからデータを収集、クレンジング、再編成、統合を行い目的のデータベースにロードするといった複雑なものまで考えられます。
まずは要件を評価して、最適なジョブの構成を検討します。
データ構造の理解
ジョブ内でアクセスするデータソースの数とタイプやデータの内容を理解します。
異なるデータソース間で表定義の整合が取れるように注意します。
ジョブ内で必要な変換を理解する
データソースからインポートする列を決定したり、出力データのフォーマットを決定します。
その際にどのような変換が必要になるかを検討します。

IBM InfoSphere DataStageのケーススタディ

IBM InfoSphere DataStageの有効性について実際の事例から解説します。

IBM InfoSphere DataStageのケーススタディ：食料雑貨

ある食料雑貨チェーン店では、製品や顧客のデータが６テラバイトを超え、そのデータが様々なシステムやデータベースに分散されていたため、各店舗で事業を評価することが困難でした。

IBM InfoSphere DataStageの導入によって、15店舗と会社のシステム間でデータ統合を行いその結果、社員が毎日の在庫、売上、商品のコストを見直すことが可能になり、売れ筋商品、収益性の高い商品、成功したプロモーションを確認できるようになりました。
例えばIBM InfoSphere DataStageで店舗の各POSシステムから企業の販売管理統合システムに毎日データをロードします。そうすると、企業の幹部は特定製品の需要の高まりをすぐに発見できます。

エンタープライズ全体の情報の統合により、この食料雑貨チェーン店では30%近い収入の増加を達成しました。
その要因は在庫管理の改善と市場環境の変化により迅速に対応できるようになったことです。
例えば、傷みやすい製品があった場合に計画的に値下げを敢行できるようになり、損失を35%回避しています。

さらにデータ統合によって得られた新しいインサイトにより、ロケーション別の売上を詳しく把握できるようになり、新店舗を建てる場所の決定に大いに役立っています。

IBM InfoSphere DataStageのケーススタディ：ヘルスケア

ある大手ヘルスケア企業では、ケアの現場で患者の情報を使用可能にして、健康管理の提供を改善することをミッションとしていました。
そのためには多様なデータソースやデータ構造を使用している多数のサードパーティのパートナーから入手する情報を、統合、標準化、管理する必要がありました。
データソースのフォーマットに関わらず素早くデータの収集、クレンジング、統合を可能にするプラットフォームとしてIBM InfoSphere DataStageは導入され、さらにIBMのInfoSphere Information Analyzerの情報分析機能、InfoSphere QualityStageのデータ品質機能と結合して、数週間でこの要件を満たすソリューションを実装しました。

IBM InfoSphere DataStageのパラレル処理機能により、何百万もの行と何百もの列で構成されるデータ分析を、以前であれば24時間以上かかっていたところ、2時間より短い時間で実行できます。
このようにデータソースやデータ構造に関わらず、効率的に統合できる機能によってこのヘルスケア企業の収益成長を大幅に後押ししました。

まとめ

IBM InfoSphere DataStageについて機能や事例などをご紹介しました。

IBMはデータやAIという分野で様々なモダンなソリューションを提供しています。
企業内でのデータのサイロ化や、効率的なデータ管理にお悩みの場合IBMのソリューションを検討してみるのはいかがでしょうか。

本記事がIBM InfoSphere DataStageやETLツールの理解の一助になったのであれば幸いです。

KUIXではただ導入・開発するだけでなく、導入後の利活用を実現することに着眼した、データレイク・DWH・データマート・BIツールの選定・導入からレポート作成、運用、啓蒙・展開までトータルのコンサルテーションなどを行っています。
「データマート/データレイク/DWH/BIツールを導入したい」
「すでに導入しているがデータ活用、展開が進んでいない」など
お困りの方は、ぜひお気軽にご連絡ください！お問い合わせはこちらから