Traçabilité (data lineage)
La traçabilité, data lineage en anglais, est le processus de documentation et de suivi de l'origine, des transformations et des déplacements des données tout au long de leur cycle de vie. Elle offre une vue complète et transparente qui permet de comprendre comment les données sont collectées, manipulées, transformées et utilisées à travers différents systèmes, processus et applications au sein d'une organisation.
Cette traçabilité offre une visibilité cruciale pour garantir la qualité, la sécurité et la conformité des données. Elle permet de répondre à des questions telles que : d'où viennent ces données ? Comment ont-elles été modifiées ou traitées ? Où sont-elles stockées ? Qui y a accès ? Cette compréhension détaillée du parcours des données est essentielle pour prendre des décisions éclairées, assurer la gouvernance des données, faciliter les audits et garantir la conformité aux réglementations, telles que le RGPD (Règlement Général sur la Protection des Données) dans l'Union européenne, ou d'autres normes de confidentialité et de sécurité des données.
Articles associés
Introduction à OpenLineage
Catégories : Big Data, Gouvernance des données, Infrastructure | Tags : Data Engineering, Infrastructure, Atlas, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Traçabilité (data lineage)
OpenLineage est une spécification open source de lineage des données. La spécification est complétée par Marquez, son implémentation de référence. Depuis son lancement fin 2020, OpenLineage est…
19 déc. 2023