ETL(Extract, Transform, and Load)とELT(Extract, Load, and Transform)は、データパイプラインの3つの段階を表す頭字語です。 ETLプロセスもELTプロセスも、データのクリーニング、エンリッチ、変換を行いますが、違いはデータを変換するタイミングです。
抽出
抽出ステップでは、ソースからデータを取り出します。 データは構造化されていても非構造化でも構いません。
トランスフォーム
トランスフォームステップでは、データをクリーニングし、ターゲット・データ・ストレージ・システムのフォーマットと一致する構造にフォーマットします。
負荷
これは、データを保存先に移動し、ビジネスインテリジェンスツールで情報を分析するプロセスである。
ETLは、データを収集し、再フォーマットするために最も一般的に使用されるアプローチです。 ETLでは、データは様々なソースから取得され、定義されたフォーマットやスタイルのシステムにロードされる前に変換されます。 その後、変換されたデータはデータウェアハウスにロードされます。 このプロセスは、複雑な変換を必要とする小さなデータセットに最適です。 データはデータウェアハウスにロードされる前に変換されるため、プロセスが完了すればすぐに分析を行うことができます。
ELTのプロセス
ELTプロセスでは、データは1つまたは複数のソースから抽出され、フォーマットされることなくデータウェアハウスにロードされます。 構造化データにも非構造化データにも適した、低コストのプロセスです。 ELTプロセスは、データが変換されずにロードされるため、メンテナンスのオーバーヘッドが少ないです。
すべてのデータはターゲット・データベースにロードされるため、変換はいつでも必要に応じて行うことができます。 ELTを使用してデータをロードする際のメンテナンスは少なくて済みますが、非変換データはより多くのスペースを消費するため、この非変換データを保存するためのコストは高くなる可能性があります。 しかし、その利点は、関連するビジネス・インテリジェンスのためにこのデータを便利に掘り起こすことができることにあります。 十分な処理能力がなければ、ビジネス・インテリジェンスのためのこのマイニング・プロセスは時間がかかってしまいます。
ETLとELTの違いは、データを変換するタイミングと、保持するデータの量にもあります。 どちらのプロセスにも課題があり、 ETLはデータ統合の標準的なプロセスでしたが、より多くのハードウェアとITサポートを必要とし、完了までに時間がかかります。
スピードを優先するのであれば、生データを配信するプロセスがより速いELTがベストな選択となるでしょう。 クラウドベースのサービスが利用できるようになったおかげで、ELTプロセスに移行する企業が増えています。 しかし、ELTの場合、データを一度に読み込むため、GDPRやCCPAといった個人情報保護規制のコンプライアンスに直面する可能性があります。 ETLの利点は、プライバシーの侵害を避けるために、読み込む前に特定のデータを排除できることです。
ETLとELTのどちらを選択するにしても、データパイプラインを管理する際には、データツール、特に自動化ツールを使用することが不可欠です。 ソリューションは、ビジネスの長期的なニーズ、データの種類、データ・ストレージなど、さまざまな要因によって異なります。