Apache Avro
Avro est un format de sérialisation de données orienté lignes hébergé par la fondation Apache. Un fichier Avro se compose d'un en-tête, sérialisé au format JSON, suivi des données. Les données sont sérialisées en JSON ou en binaire. La majorité des applications stocke les données au format binaire pour des raisons de performance. Il est plus petit et plus rapide. Ainsi, le schéma est interprétable par les machines, tout en restant lisible par les humains, et les données sont hautement optimisées. Une autre caractéristique clé est que les fichiers binaires avro sont compressibles et divisibles.
Avro est particulièrement adapté aux données qui nécessitent un schéma qui peut potentiellement changer. En effet, il supporte le typage dynamique des données, car le schéma peut être modifié. Différentes versions du schéma sont enregistrées, ce qui permet la résolution des conflits de schémas. Ceci est utile pour gérer la qualité des données dans les applications de traitement de flux de données comme Kafka. Les consommateurs peuvent s'adapter au schéma actuellement disponible. De plus, les consommateurs et les opérations Hadoop MapReduce peuvent profiter de la divisibilité des fichiers binaires pour le traitement parallèle.
Les types de données pris en charge sont :
- Primitifs : null, boolean, int, long, float, double, bytes et string.
- Complexes : arrays, enums, fixed, maps, records, et unions.
Avro peut également être utilisé pour échanger des données (RPC) en partageant le schéma pendant la connexion. La compressibilité des fichiers augmente l'efficacité des échanges et le stockage de données.
- En savoir plus
- Site officiel
Articles associés
H2O en pratique : un protocole combinant AutoML et les approches de modélisation traditionnelles
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python, XGBoost
H20 est livré avec de nombreuses fonctionnalités. La deuxième partie de la série H2O en pratique propose un protocole pour combiner la modélisation AutoML avec des approches de modélisation et d…
12 nov. 2021
H2O en pratique: retour d'expérience d'un Data Scientist
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
Les plates-formes d’apprentissage automatique (AutoML) gagnent en popularité et deviennent un outil puissant à disposition des data scientists. Il y a quelques mois, j’ai présenté H2O, une plate-forme…
29 sept. 2021
Espace de stockage et temps de génération des formats de fichiers
Catégories : Data Engineering, Data Science | Tags : Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)
Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts…
Par NGOM Barthelemy
22 mars 2021
Développement accéléré de modèles avec H2O AutoML et Flow
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…
10 déc. 2020
Comparaison de différents formats de fichier en Big Data
Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers
Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…
Par NGOM Aida
23 juil. 2020
Ingestion de Data Lake, quelques bonnes pratiques
Catégories : Big Data, Data Engineering | Tags : NiFi, Gouvernance des données, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, Schéma
La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…
Par WORMS David
18 juin 2018