Articles publiés
Mise en production d'un modèle de Machine Learning
Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma
“Le Machine Learning en entreprise nécessite une vision globale […] du point de vue de l’ingénierie et de la plateforme de données”, a expliqué Justin Norman lors de son intervention sur le…
Par RYNKIEWICZ Oskar
30 sept. 2019
Spark Streaming partie 4 : clustering avec Spark MLlib
Catégories : Data Engineering, Data Science, Formation | Tags : Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming
Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…
Par RYNKIEWICZ Oskar
27 juin 2019
Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark
Catégories : Big Data, Data Engineering, DevOps & SRE | Tags : Apache Spark Streaming, DevOps, Enseignement et tutorial, Spark
L’indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…
Par RYNKIEWICZ Oskar
31 mai 2019
Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop
Catégories : Data Engineering, Formation | Tags : Apache Spark Streaming, Spark, Python, Streaming
Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…
Par RYNKIEWICZ Oskar
28 mai 2019
Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming
Catégories : Data Engineering, Formation | Tags : Apache Spark Streaming, Kafka, Spark, Big Data, Streaming
Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured…
Par RYNKIEWICZ Oskar
18 avr. 2019
Publier Spark SQL Dataframe et RDD avec Spark Thrift Server
Catégories : Data Engineering | Tags : Thrift, JDBC, Hadoop, Hive, Spark, SQL
La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…
Par RYNKIEWICZ Oskar
25 mars 2019