Protocol Buffers
Protocol Buffers est un format de sérialisation utilisé pour l'échange et le stockage de données. Les cas d'utilisation incluent les traitements par batch et en streaming et la communication entre plusieurs microservices indépendamment de la plate-forme. Protocol Buffers se concentre uniquement sur la capacité de sérialiser et de désérialiser les données aussi rapidement que possible et de rendre les données aussi petites que possible pour réduire la bande passante requise. De plus, Protocol Buffers, comme AVRO, prend en charge l'évolution du schéma. Il utilise un fichier binaire pour la définition du schéma. D'autre part, Protocol Buffers ne divise pas les données comme CSV et ne prend pas en charge la compression des données (contrairement à ORC, Parquet et AVRO).
Protocol Buffers a été créé par Google en 2008 sous le nom de ProtoBuf. C'est la méthode de sérialisation la plus couramment utilisé par gRPC. Protocol Buffers ne prenait initialement en charge que trois langages : C++, Java et Python. Aujourd'hui, Protocol Buffers prend en charge des langages supplémentaires tels que Go, Ruby, JS, PHP, C# et Objective C.
- En savoir plus
- Wikipédia
Articles associés
Comparaison de différents formats de fichier en Big Data
Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers
Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…
Par NGOM Aida
23 juil. 2020
Ingestion de Data Lake, quelques bonnes pratiques
Catégories : Big Data, Data Engineering | Tags : NiFi, Gouvernance des données, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, Schéma
La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…
Par WORMS David
18 juin 2018