Traitement par lots
Le traitement par lots est un terme décrivant le traitement non interactif, automatique, séquentiel et complet d'un ou de plusieurs fichiers des données. Voici quelques exemples courants de traitement par lots :
- La comptabilité : Comptabiliser les paiements entrants d'un jour ouvrable, ce qui entraîne de nouveaux soldes de comptes
- Migration de données : Convertir un certain nombre de fichiers d'un format à un autre.
- Vente au détail : Générer des statistiques agrégées à partir de toutes les ventes du mois en cours.
Les résultats du traitement par lots sont souvent des lots eux-mêmes, par exemple des listes de reçus, des rapports ou des ensembles de données modifiés.
- En savoir plus
- Wikipédia
Articles associés
Espace de stockage et temps de génération des formats de fichiers
Catégories : Data Engineering, Data Science | Tags : Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)
Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts…
Par NGOM Barthelemy
22 mars 2021
Comparaison de différents formats de fichier en Big Data
Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers
Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…
Par NGOM Aida
23 juil. 2020
Apache Flink : passé, présent et futur
Catégories : Data Engineering | Tags : Pipeline, Flink, Kubernetes, Machine Learning, SQL, Streaming
Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…
Par BEREZOWSKI César
5 nov. 2018
Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Pipeline, Flink, Spark
Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…
Par LEONARD Gauthier
24 mai 2018