Apache Iceberg

[Apache Iceberg] (https://iceberg.apache.org/) est un format de données ouvert pour les grands volumes de données analytiques. Développé par Netflix, Iceberg a été conçu pour être une open community standard et une spécification de format de table qui permet la compatibilité entre plusieurs langages et implémentations. Après avoir été rendu open source, des organisations comme Apple ont activement contribué à son développement.

Entre 2016 et 2018, Iceberg, ainsi que Delta Tables et Apache Hudi ont émergé pour contester le format de table d'Apache Hive utilisé depuis 2010. En plus d'être une moteur de requête pour des gros batch jobs, Hive fonctionne comme un catalogue de métadonnées et de format de table utilisé par les moteurs de recherche tels que Spark et Presto. Le principal problème avec Hive était de gérer les changements sur de grands ensembles de données, sans les corrompre et tout en coordonnant plusieurs applications. Pour résoudre ce problème, des transactions atomiques étaient nécessaires auparavant.

Selon les créateurs d'Iceberg, le projet apporte la fiabilité et la simplicité des tables SQL au big data, en permettant aux moteurs comme Spark, Trino, Flink, Presto et Hive de travailler avec les mêmes tables simultanément et en toute sécurité. Il est écrit en Java et offre une API en Scala. Le centre de sa conception architecturale contient un catalogue qui prend en charge les opérations de mise à jour du pointeur de métadonnées, ce qui permet des transactions atomiques.

Iceberg est toujours en cours de développement et a commencé à être intégré et mis en œuvre par de nombreuses organisations comme AWS, Adobe, Apple, Netflix, Dremio, Linkedin et Expedia.

En savoir plus
Site officiel
Tags associés
Apache Hive
Delta Lake

Articles associés

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

Catégories : Big Data, Data Engineering, Formation | Tags : NiFi, Business Intelligence, Data Engineering, Iceberg, Spark, Big Data, Cloudera, CDP, Analyse de données, Data Lake, Entrepôt de données (Data Warehouse)

Dans cet exercice pratique, nous montrons comment construire une solution big data complète avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur l’infrastructure qui a été déployée tout…

CHAVARRIA Tobias

Par CHAVARRIA Tobias

24 juil. 2023

CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP

CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP

Catégories : Cloud computing, Data Engineering, Infrastructure | Tags : Data Engineering, Iceberg, AWS, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, Entrepôt de données (Data Warehouse)

Cloudera Data Platform (CDP) est une data platform hybride pour l’intégration de donnée, le machine learning et l’analyse de la data. Dans cette série d’articles nous allons décrire comment installer…

BAUM Stephan

Par BAUM Stephan

8 juin 2023

Exigences et attentes d'une plateforme Big Data

Exigences et attentes d'une plateforme Big Data

Catégories : Big Data, Infrastructure | Tags : Data Engineering, Gouvernance des données, Analyse de données, Data Hub, Data Lake, Lakehouse, Data Science

Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources. Elle se compose de…

WORMS David

Par WORMS David

23 mars 2023

Adaltas Summit 2022 Morzine

Adaltas Summit 2022 Morzine

Catégories : Big Data, Adaltas Summit 2022 | Tags : Data Engineering, Infrastructure, Iceberg, Conteneur, Lakehouse, Docker, Kubernetes

Pour sa troisième édition, toute l’équipe d’Adaltas se retrouve à Morzine pour une semaine entière avec 2 jours dédiés à la technologie les 15 et 16 septembre 2022. Les intervenants choisissent l’un…

WORMS David

Par WORMS David

13 janv. 2023

Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse

Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse

Catégories : Big Data, Data Engineering | Tags : Gouvernance des données, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Format de fichier

Les architectures de base de données ont fait l’objet d’une innovation constante, évoluant avec l’apparition de nouveaux cas d’utilisation, de contraintes techniques et d’exigences. Parmi les trois…

HOLDORF Guillaume

Par HOLDORF Guillaume

17 mai 2022

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain