L’ingestion de données est le processus de connexion à plusieurs sources de données et de transport des données de chaque source vers un référentiel unique, généralement une base de données, un data warehouse ou un data lake. Une fois que les données se trouvent dans le référentiel central, toute personne de l’organisation disposant de droits d’accès peut y accéder et les analyser. L’ingestion de données peut se faire par batches selon un calendrier ou en temps réel, avec un flux constant de données du système source vers le référentiel central.
Bien que l’ingestion de données soit souvent utilisée de manière interchangeable avec l’intégration de données, les deux opérations ne sont pas identiques. L’ingestion de données importe les données dans le nouveau référentiel sous leur forme brute. Dans le cas de l’intégration des données, les données sont transformées dans le cadre du processus qui consiste à les déplacer du système source par le biais d’un processus ETL (Extract, Transform, Load). En outre, dans certaines architectures, l’intégration des données signifie que les données restent dans les systèmes sources mais sont accessibles par une application centralisée, comme un moteur de recherche.
Les avantages de l’ingestion de données
Le principal avantage de l’ingestion de données est que vous pouvez les placer rapidement dans un référentiel central, car aucun processus de transformation n’est nécessaire lorsque vous les déplacez depuis le système source. Une fois que la data est dans le référentiel, elle peut être nettoyée, ce qui garantit qu’elle est cohérente et exacte. À ce stade, elle peut également passer par tous les processus de transformation nécessaires.
La centralisation des données est également essentielle pour les systèmes analytiques qui examinent toutes les données et en déduisent des thèmes et des analyses communs.
Par exemple, une plateforme de données clients ou customer data platform (CDP) ingère des données provenant de systèmes sources tels que le système de marketing automation, le CRM, l’ERP, l’analytique web, les médias sociaux, etc. Une fois dans la CDP, les données sont nettoyées en automatisant des actions telles que la résolution des identités, la déduplication des profils, la résolution des divergences entre les données et l’élimination des données inexactes. Les données nettoyées sont ensuite disponibles pour les moteurs analytiques, y compris les processus de machine learning (ML), et renvoyées aux systèmes externes qui en ont besoin pour les campagnes et les programmes.
Les défis de l’ingestion de données
Il est essentiel de s’assurer que les données ingérées dans un emplacement central sont exécutées en toute sécurité, en particulier lorsqu’il s’agit de données clients ou d’autres informations exclusives et confidentielles de l’entreprise. Le processus de transfert des données de la source à la destination doit être sécurisé. Et une fois que les données sont dans le nouveau référentiel, elles doivent également être sécurisées de manière adéquate afin que seuls les outils analytiques, les systèmes et les personnes appropriés y aient accès.