データ取り込みとは、複数のデータソースに接続し、各データソースから単一のリポジトリ(通常はデータベース、データウェアハウス、データレイク)にデータを転送するプロセスです。 いったんデータが中央レポジトリにあれば、アクセス権を持つ組織内の誰でもアクセスして分析できます。 データの取り込みは、スケジュールに従ってバッチで行うこともできるし、ソースシステムから中央リポジトリにデータを定常的に流しながらリアルタイムで行うこともできます。
データ取り込みはデータ統合と同じ意味で使われることが多いが、この2つは同じではない。 データの取り込みは、新しいリポジトリにデータを生の状態で取り込みます。 データ統合では、ETL(Extract、Transform、Load)プロセスを通じてソースシステムからデータを移動させるプロセスの一環として、データが変換されます。 さらに、いくつかのアーキテクチャでは、データを統合するということは、データはソース・システムにとどまり、検索エンジンのような中央集中型のアプリケーションからアクセスできることを意味します。
データの取り込みの利点
データ取り込みの最も大きな利点は、ソースシステムからデータを移動する際に変換処理が不要なため、中央リポジトリに素早く取り込めることにあります。 いったんリポジトリに登録されれば、それをクリーニングし、一貫性と正確性を確保することが可能です。 この時点で、必要な変身プロセスを経ることもできます。
データの一元化は、すべてのデータを見て共通のテーマや洞察を導き出す分析システムの鍵でもあります。
例えば、顧客データプラットフォーム(CDP)は、マーケティングオートメーション、CRM、ERP、ウェブ分析、ソーシャルメディアなどのソースシステムからデータを取り込みます。 CDPに入ると、IDの解決、プロファイルの重複排除、データ間の不一致の解決、不正確なデータの破棄などのアクションを自動化することによって、データがクレンジングされます。 クレンジングされたデータは、機械学習(ML)プロセスを含む分析エンジンで利用可能になり、キャンペーンやプログラムのためにデータを必要とする外部システムに送り返されます。
データ取り込みの課題
中央ロケーションに取り込まれたデータが安全に実行されることを保証することは、特にそれが顧客データやその他の専有的な企業機密情報である場合には非常に重要です。 ソースからデスティネーションへデータを移動させるプロセスは安全でなければなりません。 また、データが新しいリポジトリに保管された後は、適切な分析ツール、システム、担当者のみがアクセスできるように、適切に保護する必要があります。