Spark MLlib

Apache Spark MLlib est une bibliothèque d'apprentissage automatique qui s'exécute sur Spark core. Il prend en charge l'informatique distribuée et est scalable verticalement et horizontalement. Il propose des API pour Java, Scala, Python, R et SQL.

Il fournit des outils tels que :

  • Algorithmes ML: algorithmes d'apprentissage courants tels que classification, régression, clustering et filtrage collaboratif
  • Featurization: extraction et sélection de variables, transformation, réduction de dimensionnalité
  • Pipelines: outils de construction, d'évaluation et de tuning de pipelines ML
  • Persistance: sauvegarde et chargement d'algorithmes, de modèles et de pipelines
  • Utilitaires: algèbre linéaire, statistiques, manipulations des données, etc.
En savoir plus
Documentation MLlib
Tags associés
Machine Learning

Articles associés

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Catégories : Data Engineering, Data Science, Formation | Tags : AWS, Azure, Databricks, Deep Learning, Déploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop

Catégories : Data Science | Tags : GPU, Hadoop, MXNet, Spark, Spark MLlib, YARN, Deep Learning, PyTorch, TensorFlow, XGBoost

Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…

BIANCHERIN Louis

Par BIANCHERIN Louis

24 juil. 2018

Quelles nouveautés pour Apache Spark 2.3 ?

Quelles nouveautés pour Apache Spark 2.3 ?

Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Streaming

Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…

BEREZOWSKI César

Par BEREZOWSKI César

23 mai 2018

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain