Streaming
Le streaming est la transmission de données en continue sur un réseau. Les flux de données sont un flux continu d'enregistrements (records) de données, dont la fin ne peut généralement pas être prévue à l'avance. Les enregistrements de données sont traités en continu dès leur réception. La quantité d'enregistrements de données par unité de temps (débit de données) peut varier et peut devenir si importante que les ressources limitées sont insuffisantes pour un traitement ultérieur et que le destinataire doit réagir en conséquence (par exemple, éliminer les enregistrements de données). Contrairement à d'autres sources de données, les flux de données ne peuvent être traités en continu enregistrement par enregistrement - en particulier, contrairement aux structures de données à accès aléatoire (telles que les tableaux), seul un accès séquentiel aux enregistrements de données individuels est généralement possible.
Les flux de données sont souvent utilisés pour la communication interprocessus (communication entre les processus sur un ordinateur) et pour la transmission de données sur les réseaux, en particulier l'IoT et pour le streaming multimédia. Ils peuvent être utilisés de plusieurs manières dans le cadre du paradigme de programmation des pipes et des filters. Pipe est une fonctionnalité courante des shells Unix. Des exemples de flux de données sont les données météorologiques, les métriques systèmes, les informations sur les périphériques d'usine, ainsi que les flux audio et vidéo (supports de diffusion en continu).
- Tags associés
- Internet des Object (IOT)
Articles associés
Gestion de Kafka dans Kubernetes avec Strimzi
Catégories : Big Data, Orchestration de conteneurs, Infrastructure | Tags : Kafka, Big Data, Kubernetes, Open source, Streaming
Kubernetes n’est pas la première plateforme à laquelle on pense pour faire tourner des clusters Apache Kafka. En effet, la forte adhérence de Kafka au stockage pourrait être difficile à gérer par…
Par SCHOUKROUN Leo
7 mars 2023
Collecte de logs Databricks vers Azure Monitor à l'échelle d'un workspace
Catégories : Cloud computing, Data Engineering, Adaltas Summit 2021 | Tags : Métriques, Supervision, Spark, Azure, Databricks, Log4j
Databricks est une plateforme optimisée d’analyse de données, basée sur Apache Spark. La surveillance de la plateforme Databricks est cruciale pour garantir la qualité des données, les performances du…
Par PLAYE Claire
10 mai 2022
Stage de fin d'étude printemps 2022 en Data Engineering
Catégories : Front End, Formation | Tags : Métriques, Supervision, Hadoop, Hive, Kafka, Delta Lake, Elasticsearch, IaC, Internship, Kubernetes, MLflow, Prometheus, Streaming, TFX
Descriptif du stage La donnée est un actif précieux des entreprises. Le data engineer collecte, convertit et valorise la donnée brute en une information exploitable par les business analysts et les…
Par WORMS David
25 oct. 2021
Spark Streaming partie 4 : clustering avec Spark MLlib
Catégories : Data Engineering, Data Science, Formation | Tags : Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming
Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…
Par RYNKIEWICZ Oskar
27 juin 2019
Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark
Catégories : Big Data, Data Engineering, DevOps & SRE | Tags : Apache Spark Streaming, DevOps, Enseignement et tutorial, Spark
L’indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…
Par RYNKIEWICZ Oskar
31 mai 2019
Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop
Catégories : Data Engineering, Formation | Tags : Apache Spark Streaming, Spark, Python, Streaming
Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…
Par RYNKIEWICZ Oskar
28 mai 2019
Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming
Catégories : Data Engineering, Formation | Tags : Apache Spark Streaming, Kafka, Spark, Big Data, Streaming
Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured…
Par RYNKIEWICZ Oskar
18 avr. 2019
Apache Flink : passé, présent et futur
Catégories : Data Engineering | Tags : Pipeline, Flink, Kubernetes, Machine Learning, SQL, Streaming
Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…
Par BEREZOWSKI César
5 nov. 2018
Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Pipeline, Flink, Spark
Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…
Par LEONARD Gauthier
24 mai 2018
Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Streaming
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
Par BEREZOWSKI César
23 mai 2018
Node CSV version 0.2.1
Catégories : Node.js | Tags : CoffeeScript, CSV, Versions et évolutions, Streaming
Faisant suite à l’annonce de la version 0.2.0 du parser CSV pour Node.js début octobre, aujourd’hui sort la nouvelle version 0.2.1. Il s’agit essentiellement d’une distribution corrigeant des bugs…
Par WORMS David
24 juil. 2012
Node CSV version 0.2 incluant le support de l'API streaming
Catégories : Node.js | Tags : CSV, Markdown, Node.js, Streaming
Annoncé en Août, le parser CSV pour Node.js dans sa version 0.2 est sorti hier. Cette version est une mise à jour majeure dans le sens ou elle aligne l’API de la librairie avec les meilleures…
Par WORMS David
2 juil. 2012