Spark MLlib
Apache Spark MLlib est une bibliothèque d'apprentissage automatique qui s'exécute sur Spark core. Il prend en charge l'informatique distribuée et est scalable verticalement et horizontalement. Il propose des API pour Java, Scala, Python, R et SQL.
Il fournit des outils tels que :
- Algorithmes ML: algorithmes d'apprentissage courants tels que classification, régression, clustering et filtrage collaboratif
- Featurization: extraction et sélection de variables, transformation, réduction de dimensionnalité
- Pipelines: outils de construction, d'évaluation et de tuning de pipelines ML
- Persistance: sauvegarde et chargement d'algorithmes, de modèles et de pipelines
- Utilitaires: algèbre linéaire, statistiques, manipulations des données, etc.
- En savoir plus
- Documentation MLlib
- Tags associés
- Machine Learning
Articles associés
MLflow tutorial : une plateforme de Machine Learning (ML) Open Source
Catégories : Data Engineering, Data Science, Formation | Tags : AWS, Azure, Databricks, Deep Learning, Déploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn
Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…
23 mars 2020
Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop
Catégories : Data Science | Tags : GPU, Hadoop, MXNet, Spark, Spark MLlib, YARN, Deep Learning, PyTorch, TensorFlow, XGBoost
Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…
Par BIANCHERIN Louis
24 juil. 2018
Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Streaming
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
Par BEREZOWSKI César
23 mai 2018