Machine Learning
L'apprentissage automatique est un sous-domaine de l'intelligence artificielle. L'objectif est de construire une description ou un modèle mathématique des données dont nous disposons afin de pouvoir acquérir une nouvelle compréhension du système ou de prédire son comportement futur. Les approches peuvent être divisées en trois catégories :
- Apprentissage supervisé - les observations sont annotées, ce qui signifie que chaque observation appartient à une classe connue. L'objectif est de prédire cette classe pour nouvelles observations, comme elle est inconnue. Quelques algorithmes : régression linéaire et logistique, arbres de décision, machines à vecteurs de support, réseaux de neurones artificiels.
- Apprentissage non supervisé - les données ne sont pas annotées. L'objectif est de découvrir de nouvelles connaissances avec un minimum de supervision humaine. Des exemples d'algorithmes sont le clustering, l'analyse des composants principaux et les règles d'association.
- Apprentissage par renforcement - n'a pas besoin de données annotées. Un agent existe dans un environnement dans lequel il prend des actions pour atteindre un objectif. Pour chaque action, elle peut être récompensée positivement ou négativement. Après avoir répété plusieurs fois la même séquence d'actions, il cherche à maximiser la récompense et minimiser l’effort. Ainsi il apprend la manière optimale d'accomplir une tâche. Deux catégories d'algorithmes sont les algorithmes sans modèle et les algorithmes basés sur le modèle.
- En savoir plus
- Wikipédia
Articles associés

Apache Apex : l'analytique Big Data nouvelle génération
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Storm, Tools, Flink, Hadoop, Kafka, Data Science, Machine Learning
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…
Par BEREZOWSKI César
17 juil. 2016

Apache Apex avec Apache SAMOA
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Samoa, Storm, Tools, Flink, Hadoop, Machine Learning
Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training : Construction du modèle Holdout : tuning du paramétrage Test : précision…
Par SAUVAGE Pierre
17 juil. 2016

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes
Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, C++, CPU, GPU, Performance, Spark, YARN, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow
L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…
Par HATI Yliess
29 mai 2018

YARN et le calcul distribué sur GPU pour le machine learning
Catégories : Data Science, DataWorks Summit 2018 | Tags : GPU, YARN, Machine Learning, Réseau de neurones, Storage
Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…
Par JOUET Grégor
30 mai 2018

Apache Flink : passé, présent et futur
Catégories : Data Engineering | Tags : Pipeline, Flink, Kubernetes, Machine Learning, SQL, Streaming
Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…
Par BEREZOWSKI César
5 nov. 2018

CodaLab - Concours de Data Science
Catégories : Data Science, Adaltas Summit 2018, Formation | Tags : Base de données, Infrastructure, Machine Learning, MySQL, Node.js, Python
CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…
17 déc. 2018

Apprentissage par renforcement appliqué au jeu de Poker
Catégories : Data Science | Tags : Algorithme, Jeu, Q-learning, Deep Learning, Machine Learning, Réseau de neurones, Python
Dans cet article, nous présenterons le “Deep Reinforcement Learning”, et plus particulièrement l’algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie…
9 janv. 2019

Introduction à Cloudera Data Science Workbench
Catégories : Data Science | Tags : Azure, Cloudera, Docker, Git, Kubernetes, Machine Learning, MLOps, Notebook
Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet…
Par ELALAMI Mehdi
28 févr. 2019

Mise en production d'un modèle de Machine Learning
Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma
“Le Machine Learning en entreprise nécessite une vision globale […] du point de vue de l’ingénierie et de la plateforme de données”, a expliqué Justin Norman lors de son intervention sur le…
Par RYNKIEWICZ Oskar
30 sept. 2019

Éviter les blocages dans les pipelines distribués de Deep Learning avec Horovod
Catégories : Data Science | Tags : GPU, Deep Learning, Horovod, Keras, TensorFlow
L’entraînement des modèles Deep Learning peut être grandement accéléré en utilisant un cluster de GPUs. Lorsqu’il s’agit de grandes quantités de données, effectuer des calculs distribués devient…
Par JOUET Grégor
15 nov. 2019

Spark Streaming partie 4 : clustering avec Spark MLlib
Catégories : Data Engineering, Data Science, Formation | Tags : Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming
Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…
Par RYNKIEWICZ Oskar
27 juin 2019

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask
Catégories : Data Science, Tech Radar | Tags : Enseignement et tutorial, Deep Learning, Machine Learning, Machine Learning, Python
Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…
2 mars 2020

Importer ses données dans Databricks : tables externes et Delta Lake
Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python
Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…
21 mai 2020

Versionnage des données et ML reproductible avec DVC et MLflow
Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Databricks, Delta Lake, Git, Machine Learning, MLflow, Storage
Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…
30 sept. 2020

Suivi d'expériences avec MLflow sur Databricks Community Edition
Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn
Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…
10 sept. 2020

Développement accéléré de modèles avec H2O AutoML et Flow
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…
10 déc. 2020

TensorFlow Extended (TFX) : les composants et leurs fonctionnalités
Catégories : Big Data, Data Engineering, Data Science, Formation | Tags : Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, Déploiement, Machine Learning, MLOps, Open source, Python, TensorFlow
La mise en production des modèles de Machine Learning (ML) et de Deep Learning (DL) est une tâche difficile. Il est reconnu qu’elle est plus sujette à l’échec et plus longue que la modélisation…
5 mars 2021

Apache Liminal, quand le MLOps rencontre le GitOps
Catégories : Big Data, Orchestration de conteneurs, Data Engineering, Data Science, Tech Radar | Tags : Data Engineering, CI/CD, Data Science, Deep Learning, Déploiement, Docker, GitOps, Kubernetes, Machine Learning, MLOps, Open source, Python, TensorFlow
Apache Liminal propose une solution clés en main permettant de déployer un pipeline de Machine Learning. C’est un projet open-source, qui centralise l’ensemble des étapes nécessaires à l’entrainement…
Par COINTEPAS Aargan
31 mars 2021

Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks
Catégories : Data Engineering, Formation | Tags : Cloud, Data Lake, Databricks, Delta Lake, MLflow
Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre à votre rythme et selon vos besoins. Il vous en coûtera 2000 $ US pour un accès illimité…
Par KNYAZEVA Anna
26 mai 2021

H2O en pratique: retour d'expérience d'un Data Scientist
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
Les plates-formes d’apprentissage automatique (AutoML) gagnent en popularité et deviennent un outil puissant à disposition des data scientists. Il y a quelques mois, j’ai présenté H2O, une plate-forme…
29 sept. 2021

H2O en pratique : un protocole combinant AutoML et les approches de modélisation traditionnelles
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python, XGBoost
H20 est livré avec de nombreuses fonctionnalités. La deuxième partie de la série H2O en pratique propose un protocole pour combiner la modélisation AutoML avec des approches de modélisation et d…
12 nov. 2021

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source
Catégories : Data Engineering, Data Science, Formation | Tags : AWS, Azure, Databricks, Deep Learning, Déploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn
Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…
23 mars 2020