Excelに電話番号などの頭に「0」(ゼロ)が付くデータを入力した際に「0(ゼロ)が消えてしまった!」という経験がある方は多いのではないでしょうか。
自動的にExcel側で数値と判断されてしまうために以下のような対応をしている方もいらっしゃることと思います。
・先頭に「’」を追加する
・表示形式を”文字列”に変更する
普段業務で利用しているシステムにおいても、同様にシステムごとに数値や文字列などデータの形式は異なっています。
データ分析を行うにあたっては、まずはデータを蓄積することが必要となりますが、
「データ転送・連携する際に対応するAPIがない。など技術的なハードルがある」
「データ型の変換などのデータ加工が必要のため、データ分析基盤へデータが連携できない」
など、データ取得に関するお困りごとも多いものですよね。
複数のシステムからデータを抽出、加工し、DWHに蓄積するためのツールとして、ETLツールがあり、他のDWHやERP、CRMなどのデータベースから大容量のデータを抽出、加工し、連携することができます。
本記事では、専門知識がなくとも、ノンプログラミングでデータの抽出、加工、連携ができるETLツール「Talend Open Studio」にフォーカスし、Talend Open Studioの概要や機能、料金などを解説いたします。
Talend Open Studio とは
Talend Open Studioを一言で表すと、Talend社が提供するノンプログラミングで様々なフォーマットのデータを一元管理・統合できるデータ統合プラットフォームサービスです。
また、Talend Open Studioは、Javaアプリケーションのため、Java Virtual Machine(JVM)上で実行することができ、以下のようなデータに対応しています。
・ファイル:Excel、CSV、XML
・DB/ストレージ:Microsoft SQL、Cassandra、MongoDBなど
・PaaS/SaaS:AWS、Azure、GCP
なお、Talend Open Studioはオープンソースで利用することができ、製品版であるTalend Data Fabricと機能的な制限も少ないですが、2024/01/31で提供終了いたしました。
補足:オープンソース とは
データベース管理システム(RDBMS)やETLツールなどには、その他のシステムライセンスと同様に「商用ライセンス」と「オープンライセンス」があります。
文字通り、以下の違いがあります。なお、オープンソースとは、オープンライセンスで一般公開されているソースコードを意味します。
・商用:企業から提供されている製品(有償)
・オープンライセンス:有志の開発者コミュニティで開発され、自由に利用ができる(無償)
なお、代表的なRDBMSは以下があります。
〇商用データベース管理システム
・Oracle Database(Oracle)
・Microsoft SQL Server(Microsoft)
・IBM DB2(IBM)
〇オープンソースデータベース管理システム
・MySQL
・Postgre SQL
補足:ETL/ELT とは
ETLは、「Extract(抽出)、Transform(変換)、Load(書き出し)」の略で、生産/在庫/販売管理などの基幹システムやCRM(顧客管理システム)などの複数のシステムからデータを抽出、加工し、DWHに蓄積するためのツールです。
似ているキーワードとして、ELTというツールもあります。
ELTは、「Extract(抽出)、Load(書き出し)、Transform(変換)」の略で、Load(書き出し)とTransform(変換)が逆になっています。
データを抽出、加工し、蓄積するという意味では、同じですが、処理を行う場所が異なり、ETLはETLツール内で一連の処理を行うのに対し、ELTは、データベース内でデータを抽出し、保存してから加工する。という違いがあります。
Talend Open Studioのツール/機能
Talend Open Studioの概要やETL/ELTツールの概要は理解できましたでしょうか。
ここからはTalend Open Studioを構成する機能別のツールをご紹介します。
データ統合:Talend Open Studio for Data Integration
まず1つ目は、複数のシステムからのデータ接続・抽出・加工を行うデータ統合を担う製品です。
Talend Open Studio for Data Integrationは、Talend Open Studioの正式名称となっており、オンプレミス/クラウド問わず様々なDBやファイルなどのデータへ接続することができるツールです。
また、データ加工に関しても、ノーコードで直感的な操作によるワークフローを作成することができます。
データ品質:Talend Open Studio for Data Quality
2つ目は、データクレンジングなどの仕組みを簡単に開発でき、データ品質を維持するためのツールです。
Talend Open Studio for Data Qualityは、データプロファイリング機能やグラフィカルなドリルダウン機能などにより、
GUIベースでデータクレンジングやデータの傾向、変換処理などを行うことができます。
大量データ取り込み:Open Studio for Big Data
3つ目は、大量データを高速で取り込むためのツールです。
Open Studio for Big Dataを利用することによって、HadoopとNoSQLの大量データを取り込むことができます。
アプリケーション連携、プロセス統合:Talend Open Studio for ESB
4つ目は、ノンプログラミングでAPI経由でデータ連携処理を開発・管理できるツールです。
Talend Open Studio for ESBは、ESBツールでESB(Enterprise service bus)は、Webサーバ、アプリケーションサーバなどのミドルウェアインフラストラクチャーで実装されるソフトウェアアーキテクチャ(ソフトウェアの構造や設計を決める上で重要な考え方)の構成要素となっています。
クラウドサービスからデータ取得またはデータ連携する際は、API経由でデータ取得/連携する機能があり、ノンプログラミングでAPIを利用したデータ取得/連携処理のような既存/新規開発サービスをAPI経由で外部提供や管理するAPI開発をすることもできます。
マスターデータ管理:Talend Open Studio for MDM
最後は、所属部署や社員番号といった社員情報などの管理ができるツールです。
Talend Open Studio for MDMのMDMは、Master Data Managementの略となっており、マスターデータの作成・更新をWebアプリケーション上で簡単に行うことができ、データの一貫性を保つことができます。
Talend Open Studio の料金
前述の通り、Talend Open Studioはオープンソースで利用できるため、無償となります。
また、Talend Open Studioの製品版であるTalend Data Fabricやその他のツールの料金は、要お問い合わせとなっております。
なお、Talend Data Fabricをはじめとする各ツールの無料トライアルもありますので、検証用に利用することもできます。
Talendの各ツール
https://www.talend.com/pricing/
まとめ
Talend Open Studioの概要や機能、料金について紹介しました。
ビジネスデータが集まっているERP製品内のデータや業務システムで利用しているデータベース内のデータを活用して、
「データ分析基盤を構築したい」
「ETL/ELTツールを導入検討中や現在のデータ連携に課題がある」
といった方はTalend Data FabricをはじめとするETL/ELTツールの導入を検討してみてはいかがでしょうか。
KUIXではただ導入・開発するだけでなく、導入後の利活用を実現することに着眼した、データレイク・DWH・データマート・BIツールの選定・導入からレポート作成、運用、啓蒙・展開までトータルのコンサルテーションなどを行っています。
「データマート/データレイク/DWH/BIツールを導入したい」
「すでに導入しているがデータ活用、展開が進んでいない」など
お困りの方は、ぜひお気軽にご連絡ください!お問い合わせはこちらから