Traitement par lots

Le traitement par lots est un terme décrivant le traitement non interactif, automatique, séquentiel et complet d'un ou de plusieurs fichiers des données. Voici quelques exemples courants de traitement par lots :

La comptabilité : Comptabiliser les paiements entrants d'un jour ouvrable, ce qui entraîne de nouveaux soldes de comptes
Migration de données : Convertir un certain nombre de fichiers d'un format à un autre.
Vente au détail : Générer des statistiques agrégées à partir de toutes les ventes du mois en cours.

Les résultats du traitement par lots sont souvent des lots eux-mêmes, par exemple des listes de reçus, des rapports ou des ensembles de données modifiés.

En savoir plus: Wikipédia

Articles associés

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données

Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Pipeline, Flink, Spark

Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…

Par LEONARD Gauthier

24 mai 2018

Apache Flink : passé, présent et futur

Catégories : Data Engineering | Tags : Pipeline, Flink, Kubernetes, Machine Learning, SQL, Streaming

Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…

Par BEREZOWSKI César

5 nov. 2018

Comparaison de différents formats de fichier en Big Data

Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers

Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…

Par NGOM Aida

23 juil. 2020

Espace de stockage et temps de génération des formats de fichiers

Catégories : Data Engineering, Data Science | Tags : Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)

Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts…

Par NGOM Barthelemy

22 mars 2021