Apache Iceberg
[Apache Iceberg] (https://iceberg.apache.org/) est un format de données ouvert pour les grands volumes de données analytiques. Développé par Netflix, Iceberg a été conçu pour être une open community standard et une spécification de format de table qui permet la compatibilité entre plusieurs langages et implémentations. Après avoir été rendu open source, des organisations comme Apple ont activement contribué à son développement.
Entre 2016 et 2018, Iceberg, ainsi que Delta Tables et Apache Hudi ont émergé pour contester le format de table d'Apache Hive utilisé depuis 2010. En plus d'être une moteur de requête pour des gros batch jobs, Hive fonctionne comme un catalogue de métadonnées et de format de table utilisé par les moteurs de recherche tels que Spark et Presto. Le principal problème avec Hive était de gérer les changements sur de grands ensembles de données, sans les corrompre et tout en coordonnant plusieurs applications. Pour résoudre ce problème, des transactions atomiques étaient nécessaires auparavant.
Selon les créateurs d'Iceberg, le projet apporte la fiabilité et la simplicité des tables SQL au big data, en permettant aux moteurs comme Spark, Trino, Flink, Presto et Hive de travailler avec les mêmes tables simultanément et en toute sécurité. Il est écrit en Java et offre une API en Scala. Le centre de sa conception architecturale contient un catalogue qui prend en charge les opérations de mise à jour du pointeur de métadonnées, ce qui permet des transactions atomiques.
Iceberg est toujours en cours de développement et a commencé à être intégré et mis en œuvre par de nombreuses organisations comme AWS, Adobe, Apple, Netflix, Dremio, Linkedin et Expedia.
- En savoir plus
- Site officiel
Articles associés
CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP
Catégories : Big Data, Data Engineering, Formation | Tags : NiFi, Business Intelligence, Data Engineering, Iceberg, Spark, Big Data, Cloudera, CDP, Analyse de données, Data Lake, Entrepôt de données (Data Warehouse)
Dans cet exercice pratique, nous montrons comment construire une solution big data complète avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur l’infrastructure qui a été déployée tout…
Par CHAVARRIA Tobias
24 juil. 2023
CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP
Catégories : Cloud computing, Data Engineering, Infrastructure | Tags : Data Engineering, Iceberg, AWS, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, Entrepôt de données (Data Warehouse)
Cloudera Data Platform (CDP) est une data platform hybride pour l’intégration de donnée, le machine learning et l’analyse de la data. Dans cette série d’articles nous allons décrire comment installer…
Par BAUM Stephan
8 juin 2023
Exigences et attentes d'une plateforme Big Data
Catégories : Big Data, Infrastructure | Tags : Data Engineering, Gouvernance des données, Analyse de données, Data Hub, Data Lake, Lakehouse, Data Science
Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources. Elle se compose de…
Par WORMS David
23 mars 2023
Adaltas Summit 2022 Morzine
Catégories : Big Data, Adaltas Summit 2022 | Tags : Data Engineering, Infrastructure, Iceberg, Conteneur, Lakehouse, Docker, Kubernetes
Pour sa troisième édition, toute l’équipe d’Adaltas se retrouve à Morzine pour une semaine entière avec 2 jours dédiés à la technologie les 15 et 16 septembre 2022. Les intervenants choisissent l’un…
Par WORMS David
13 janv. 2023
Comparaison des architectures de base de données : data warehouse, data lake and data lakehouse
Catégories : Big Data, Data Engineering | Tags : Gouvernance des données, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Format de fichier
Les architectures de base de données ont fait l’objet d’une innovation constante, évoluant avec l’apparition de nouveaux cas d’utilisation, de contraintes techniques et d’exigences. Parmi les trois…
17 mai 2022