Apache Kafka
Apache Kafka est une plateforme open source pour le traitement de flux. Le logiciel a été initialement développé par LinkedIn et écrit dans les langages de programmation Scala et Java. En 2011, Kafka a rejoint la fondation Apache. Le logiciel a été nommé d'après l'auteur Franz Kafka car il représente un système optimisé pour l'écriture.
L'objectif du projet est de fournir une plateforme unifiée à haut débit et à faible latence pour le traitement des flux de données en temps réel. Kafka peut se connecter à des systèmes externes et, avec Kafka Streams, propose un traitement de flux en Java.
Kafka est largement utilisé dans les architectures de données de streaming en temps réel pour fournir des analyses en temps réel. Il est conçu pour:
- Publication et abonnement aux flux de données
- Stockage efficace des flux de données
- Traitez et analyser les flux en temps réel
Le logiciel étant un système de messagerie de publication-abonnement (publish-subscribe) rapide, évolutif et tolérant aux pannes, Kafka est utilisé dans les cas d'utilisation où les systèmes de messagerie Java Message Service (JMS), RabbitMQ et AMQP peuvent ne pas être pris en compte en raison du volume et de la réactivité. Kafka offre des propriétés de débit et de fiabilité plus élevées et convient donc aux volumes de données élevés avec lesquels les Message Oriented Middleware (MOM) conventionnels peuvent être submergés.
- En savoir plus
- Site officiel
Articles associés
Gestion de Kafka dans Kubernetes avec Strimzi
Catégories : Big Data, Orchestration de conteneurs, Infrastructure | Tags : Kafka, Big Data, Kubernetes, Open source, Streaming
Kubernetes n’est pas la première plateforme à laquelle on pense pour faire tourner des clusters Apache Kafka. En effet, la forte adhérence de Kafka au stockage pourrait être difficile à gérer par…
Par SCHOUKROUN Leo
7 mars 2023
Stage de fin d'étude printemps 2022 - construction d'un Data Lab
Catégories : Data Science, Formation | Tags : Spark, Argo CD, Elasticsearch, Internship, Keycloak, Kubernetes, MongoDB, OpenID Connect, PostgreSQL
Descriptif du stage Au cours des dernières années, nous avons développé la capacité d’utiliser les ordinateurs pour traiter une grande quantité de données. L’écosystème a évolué vers une offre étendue…
Par WORMS David
24 nov. 2021
Stage de fin d'étude printemps 2022 en Data Engineering
Catégories : Front End, Formation | Tags : Métriques, Supervision, Hadoop, Hive, Kafka, Delta Lake, Elasticsearch, IaC, Internship, Kubernetes, MLflow, Prometheus, Streaming, TFX
Descriptif du stage La donnée est un actif précieux des entreprises. Le data engineer collecte, convertit et valorise la donnée brute en une information exploitable par les business analysts et les…
Par WORMS David
25 oct. 2021
Comparaison de différents formats de fichier en Big Data
Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers
Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…
Par NGOM Aida
23 juil. 2020
Sécurisation des services avec Open Policy Agent
Catégories : Cybersécurité, Gouvernance des données | Tags : Ranger, REST, Kafka, Autorisation, Cloud, Kubernetes, SSL/TLS
Open Policy Agent est un un moteur de règles multifonction. L’objectif principal du projet est de centraliser l’application de règles de sécurité à travers la stack cloud native. Le projet a été crée…
Par SCHOUKROUN Leo
22 janv. 2020
Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming
Catégories : Data Engineering, Formation | Tags : Apache Spark Streaming, Kafka, Spark, Big Data, Streaming
Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured…
Par RYNKIEWICZ Oskar
18 avr. 2019
Migration Big Data et Data Lake vers le Cloud
Catégories : Big Data, Cloud computing | Tags : DevOps, AWS, Azure, Cloud, CDP, Databricks, GCP
Est-il impératif de suivre tendance et de migrer ses données, workflow et infrastructure vers l’un des Cloud providers tels que GCP, AWS ou Azure ? Lors de la Strata Data Conference à New-York, un…
Par RUMMENS Joris
9 déc. 2019
Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes
Catégories : Big Data, Orchestration de conteneurs | Tags : DevOps, LXD, Hadoop, Kafka, Spark, Ceph, Internship, Kubernetes, NoSQL
Contexte L’acquisition d’un cluster à forte capacité répond à la volonté d’Adaltas de construire une offre de type PAAS pour disposer et mettre à disposition des plateformes de Big Data et d…
Par WORMS David
26 nov. 2019
Stage Data Science & Data Engineer - ML en production et ingestion streaming
Catégories : Data Engineering, Data Science | Tags : DevOps, Flink, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python
Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…
Par WORMS David
26 nov. 2019
Mise en production d'un modèle de Machine Learning
Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma
“Le Machine Learning en entreprise nécessite une vision globale […] du point de vue de l’ingénierie et de la plateforme de données”, a expliqué Justin Norman lors de son intervention sur le…
Par RYNKIEWICZ Oskar
30 sept. 2019
Apache Hive 3, nouvelles fonctionnalités et conseils et astuces
Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, JDBC, LLAP, Hadoop, Hive, Kafka, Versions et évolutions
Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de donn ées. Malheureusement, comme beaucoup de…
Par LEONARD Gauthier
25 juil. 2019
Déploiement d'un cluster Flink sécurisé sur Kubernetes
Catégories : Big Data | Tags : Chiffrement, Flink, HDFS, Kafka, Elasticsearch, Kerberos, SSL/TLS
Le déploiement sécurisée d’une application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser…
Par WORMS David
8 oct. 2018
Lando : résumé de conversation en Deep Learning
Catégories : Data Science, Formation | Tags : Micro Services, Open API, Deep Learning, Internship, Kubernetes, Réseau de neurones, Node.js
Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…
Par HATI Yliess
18 sept. 2018
Remède à l'aveuglement de Kafka
Catégories : Big Data | Tags : Ambari, Ranger, Hortonworks, HDF, JMX, UI, Kafka, HDP
Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt…
Par BAKALIAN Lucas
20 juin 2018
Apache Metron dans le monde réel
Catégories : Cybersécurité, DataWorks Summit 2018 | Tags : Algorithme, NiFi, Solr, Storm, pcap, SGBDR, HDFS, Kafka, Metron, Spark, Data Science, Elasticsearch, SQL
Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…
Par HATOUM Michael
29 mai 2018
Exposition de brokers Kafka sur deux interfaces réseaux
Catégories : Infrastructure | Tags : Cybersécurité, VLAN, Kafka, Cloudera, CDH, Réseau
Une installation Big Data nécessite généralement d’avoir plusieurs interfaces réseaux, nous allons voir comment paramétrer Kafka pour écouter sur plus d’une. La procédure décrite dans cette article a…
Par BEREZOWSKI César
22 juil. 2017
Apache Apex : l'analytique Big Data nouvelle génération
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Storm, Tools, Flink, Hadoop, Kafka, Data Science, Machine Learning
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…
Par BEREZOWSKI César
17 juil. 2016