Apache Spark

Articles associés

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Catégories : Data Engineering, Data Science | Tags : Flink, Kafka, Spark, DevOps, Kubernetes, Hadoop, HBase, Python

Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…

By WORMS David

26 nov. 2019

Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes

Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes

Catégories : Big Data, Orchestration de conteneurs | Tags : Kafka, Spark, DevOps, Kubernetes, LXD, NoSQL, Hadoop, Ceph

Contexte L’acquisition d’un cluster à forte capacité répond à la volonté d’Adaltas de construire une offre de type PAAS pour disposer et mettre à disposition des plateformes de Big Data et d…

By WORMS David

26 nov. 2019

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark Streaming partie 4 : clustering avec Spark MLlib

Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Apache Spark Streaming, Big Data, Partitionnement, Machine Learning, Scala, Streaming

Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…

By RYNKIEWICZ Oskar

11 juil. 2019

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Catégories : Big Data, Data Engineering, DevOps & SRE | Tags : Spark, Apache Spark Streaming, DevOps, Enseignement et tutorial

L’indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…

By RYNKIEWICZ Oskar

19 juin 2019

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Catégories : Data Engineering, Formation | Tags : Spark, Apache Spark Streaming, Streaming, Python

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…

By RYNKIEWICZ Oskar

28 mai 2019

Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming

Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming

Catégories : Data Engineering, Formation | Tags : Kafka, Spark, Apache Spark Streaming, Big Data, Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured…

By RYNKIEWICZ Oskar

18 avr. 2019

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Catégories : Data Engineering | Tags : Hive, Spark, Thrift, JDBC, Hadoop, SQL

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…

By RYNKIEWICZ Oskar

25 mars 2019

Migration de cluster et de traitements entre Hadoop 2 et 3

Migration de cluster et de traitements entre Hadoop 2 et 3

Catégories : Big Data, Infrastructure | Tags : HDFS, Shiro, Spark, YARN, Docker, Erasure Coding, Rolling Upgrade

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…

By BAKALIAN Lucas

25 juil. 2018

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop

Catégories : Data Science | Tags : Spark, Spark MLlib, YARN, Deep Learning, GPU, PyTorch, TensorFlow, XGBoost, Hadoop

Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…

By BIANCHERIN Louis

24 juil. 2018

Ingestion de Data Lake, quelques bonnes pratiques

Ingestion de Data Lake, quelques bonnes pratiques

Catégories : Big Data, Data Engineering | Tags : Avro, Hive, NiFi, ORC, Spark, Format de fichier, Gouvernance des données, HDF, Exploitation, Protocol Buffers, Registre, Schéma, Lac de données

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…

By WORMS David

18 juin 2018

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes

Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, Spark, YARN, C++, CPU, GPU, JavaScript, Keras, Kubernetes, Machine Learning, TensorFlow, Performance, Python

L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…

By HATI Yliess

29 mai 2018

Apache Metron dans le monde réel

Apache Metron dans le monde réel

Catégories : Cybersécurité, DataWorks Summit 2018 | Tags : Algorithme, HDFS, Kafka, NiFi, Solr, Spark, Storm, Elasticsearch, pcap, SGBDR, Metron, SQL

Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…

By HATOUM Michael

29 mai 2018

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données

Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Flink, Spark, Pipeline

Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…

By LEONARD Gauthier

24 mai 2018

Quelles nouveautés pour Apache Spark 2.3 ?

Quelles nouveautés pour Apache Spark 2.3 ?

Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, ORC, Spark, Spark MLlib, PySpark, Docker, Kubernetes, Streaming, Performance, pandas

Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…

By BEREZOWSKI César

23 mai 2018

EclairJS - Un peu de Spark dans les Web Apps

EclairJS - Un peu de Spark dans les Web Apps

Catégories : Data Engineering, Front End | Tags : Spark, JavaScript, Jupyter

Présentation de David Fallside, IBM. Les images sont issues des slides de présentation. Introduction Le développement d’applications Web est passé d’un environnement Java vers des environnements…

By WORMS David

17 juil. 2016

Canada - Morocco - France

International locations

10 rue de la Kasbah
2393 Rabbat
Canada

Nous sommes une équipe passionnées par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.