Lac de données (Data Lake)
Un lac de données (Data Lake) est un dépôt central de données provenant de diverses sources où l'accent est mis sur le stockage rapide et à faible coût des données, au détriment d'une structure bien définie.
Une grande variété de données peut être stockée dans des Data Lakes telles que les données structurées (comme les colonnes et les lignes dans les SGBDR classiques), données semi-structurées (fichiers CSV, XML et JSON) et données non structurées (images, vidéos, emails, pages web....).
Dans un Data Lake, les données sont stockées dans un format brut, ce qui les rend flexibles pour une utilisation ultérieure. Les Data Lake sont, en général, une base solide pour la préparation des données, les rapports, la visualisation, l'analyse approfondie, la science des données et le "machine learning".
- En savoir plus
- Wikipedia
Articles associés
Introduction à OpenLineage
Catégories : Big Data, Gouvernance des données, Infrastructure | Tags : Data Engineering, Infrastructure, Atlas, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Traçabilité (data lineage)
OpenLineage est une spécification open source de lineage des données. La spécification est complétée par Marquez, son implémentation de référence. Depuis son lancement fin 2020, OpenLineage est…
19 déc. 2023
CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP
Catégories : Big Data, Data Engineering, Formation | Tags : NiFi, Business Intelligence, Data Engineering, Iceberg, Spark, Big Data, Cloudera, CDP, Analyse de données, Data Lake, Entrepôt de données (Data Warehouse)
Dans cet exercice pratique, nous montrons comment construire une solution big data complète avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur l’infrastructure qui a été déployée tout…
Par CHAVARRIA Tobias
24 juil. 2023
Exigences et attentes d'une plateforme Big Data
Catégories : Big Data, Infrastructure | Tags : Data Engineering, Gouvernance des données, Analyse de données, Data Hub, Data Lake, Lakehouse, Data Science
Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources. Elle se compose de…
Par WORMS David
23 mars 2023
Stockage objet Ceph dans un cluster Kubernetes avec Rook
Catégories : Big Data, Gouvernance des données, Formation | Tags : Amazon S3, Big Data, Ceph, Cluster, Data Lake, Kubernetes, Storage
Ceph est un système tout-en-un de stockage distribué. Fiable et mature, sa première version stable est parue en 2012 et a été depuis la référence pour le stockage open source. L’avantage principal de…
Par BIGOT Luka
4 août 2022
Stockage objet avec MinIO dans un cluster Kubernetes
Catégories : Big Data, Gouvernance des données, Formation | Tags : Amazon S3, Big Data, Cluster, Data Lake, Kubernetes, Storage
MinIO est une solution de stockage objet populaire. Souvent recommandé pour sa simplicité d’utilisation et d’installation, MinIO n’est pas seulement qu’un bon moyen pour débuter avec le stockage objet…
Par BIGOT Luka
9 juil. 2022
Architecture du stockage objet et attributs du standard S3
Catégories : Big Data, Gouvernance des données | Tags : Base de données, API, Amazon S3, Big Data, Data Lake, Storage
Le stockage objet a gagné en popularité parmi les architectures de stockage de données. Comparé aux systèmes de fichiers et au stockage bloc, le stockage objet ne rencontre pas de limitations lorsqu…
Par BIGOT Luka
20 juin 2022
Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse
Catégories : Big Data, Data Engineering | Tags : Gouvernance des données, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Format de fichier
Les architectures de base de données ont fait l’objet d’une innovation constante, évoluant avec l’apparition de nouveaux cas d’utilisation, de contraintes techniques et d’exigences. Parmi les trois…
17 mai 2022
Présentation de Cloudera Data Platform (CDP)
Catégories : Big Data, Cloud computing, Data Engineering | Tags : SDX, Big Data, Cloud, Cloudera, CDP, CDH, Analyse de données, Data Hub, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse)
Cloudera Data Platform (CDP) est une plateforme de cloud computing pour les entreprises. CDP fournit des outils intégrés et multifonctionnels en libre-service afin d’analyser et de centraliser les…
19 juil. 2021
Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks
Catégories : Data Engineering, Formation | Tags : Cloud, Data Lake, Databricks, Delta Lake, MLflow
Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre à votre rythme et selon vos besoins. Il vous en coûtera 2000 $ US pour un accès illimité…
Par KNYAZEVA Anna
26 mai 2021
Espace de stockage et temps de génération des formats de fichiers
Catégories : Data Engineering, Data Science | Tags : Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)
Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts…
Par NGOM Barthelemy
22 mars 2021
Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)
Catégories : Big Data, Cloud computing, Data Engineering | Tags : NiFi, Hadoop, HDFS, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), OAuth2
Alors que les projets Data construits sur le cloud deviennent de plus en plus répandus, un cas d’utilisation courant consiste à interagir avec le stockage cloud à partir d’une plateforme Big Data on…
Par LEONARD Gauthier
5 nov. 2020
Téléchargement de jeux de données dans HDFS et Hive
Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data Engineering, Data structures, Base de données, Hadoop, HDFS, Hive, Big Data, Analyse de données, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse)
Introduction De nos jours, l’analyse de larges quantités de données devient de plus en plus possible grâce aux technologies du Big data (Hadoop, Spark,…). Cela explique l’explosion du volume de…
Par NGOM Aida
31 juil. 2020
Snowflake, le Data Warehouse conçu pour le cloud, introduction et premiers pas
Catégories : Business Intelligence, Cloud computing | Tags : Cloud, Data Lake, Data Science, Entrepôt de données (Data Warehouse), Snowflake
Snowflake est une plateforme d’entrepôt de données en mode SaaS qui centralise, dans le cloud, le stockage et le traitement de données structurées et semi-structurées. La génération croissante de…
7 avr. 2020
Cloudera CDP et migration Cloud de votre Data Warehouse
Catégories : Big Data, Cloud computing | Tags : Azure, Cloudera, Data Hub, Data Lake, Entrepôt de données (Data Warehouse)
Alors que l’un de nos clients anticipe un passage vers le Cloud et avec l’annonce récente de la disponibilité de Cloudera CDP mi-septembre lors de la conférence Strata, il semble que le moment soit…
Par WORMS David
16 déc. 2019
Ingestion de Data Lake, quelques bonnes pratiques
Catégories : Big Data, Data Engineering | Tags : NiFi, Gouvernance des données, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, Schéma
La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…
Par WORMS David
18 juin 2018