Machine Learning

L'apprentissage automatique est un sous-domaine de l'intelligence artificielle. L'objectif est de construire une description ou un modèle mathématique des données dont nous disposons afin de pouvoir acquérir une nouvelle compréhension du système ou de prédire son comportement futur. Les approches peuvent être divisées en trois catégories :

  • Apprentissage supervisé - les observations sont annotées, ce qui signifie que chaque observation appartient à une classe connue. L'objectif est de prédire cette classe pour nouvelles observations, comme elle est inconnue. Quelques algorithmes : régression linéaire et logistique, arbres de décision, machines à vecteurs de support, réseaux de neurones artificiels.
  • Apprentissage non supervisé - les données ne sont pas annotées. L'objectif est de découvrir de nouvelles connaissances avec un minimum de supervision humaine. Des exemples d'algorithmes sont le clustering, l'analyse des composants principaux et les règles d'association.
  • Apprentissage par renforcement - n'a pas besoin de données annotées. Un agent existe dans un environnement dans lequel il prend des actions pour atteindre un objectif. Pour chaque action, elle peut être récompensée positivement ou négativement. Après avoir répété plusieurs fois la même séquence d'actions, il cherche à maximiser la récompense et minimiser l’effort. Ainsi il apprend la manière optimale d'accomplir une tâche. Deux catégories d'algorithmes sont les algorithmes sans modèle et les algorithmes basés sur le modèle.
En savoir plus
Wikipédia

Articles associés

H2O en pratique : un protocole combinant AutoML et les approches de modélisation traditionnelles

H2O en pratique : un protocole combinant AutoML et les approches de modélisation traditionnelles

Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python, XGBoost

H20 est livré avec de nombreuses fonctionnalités. La deuxième partie de la série H2O en pratique propose un protocole pour combiner la modélisation AutoML avec des approches de modélisation et d…

H2O en pratique: retour d'expérience d'un Data Scientist

H2O en pratique: retour d'expérience d'un Data Scientist

Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python

Les plates-formes d’apprentissage automatique (AutoML) gagnent en popularité et deviennent un outil puissant à disposition des data scientists. Il y a quelques mois, j’ai présenté H2O, une plate-forme…

KAFERLE DEVISSCHERE Petra

Par KAFERLE DEVISSCHERE Petra

29 sept. 2021

Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks

Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks

Catégories : Data Engineering, Formation | Tags : Cloud, Data Lake, Databricks, Delta Lake, MLflow

Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre à votre rythme et selon vos besoins. Il vous en coûtera 2000 $ US pour un accès illimité…

KNYAZEVA Anna

Par KNYAZEVA Anna

26 mai 2021

Apache Liminal, quand le MLOps rencontre le GitOps

Apache Liminal, quand le MLOps rencontre le GitOps

Catégories : Big Data, Orchestration de conteneurs, Data Engineering, Data Science, Tech Radar | Tags : Data Engineering, CI/CD, Data Science, Deep Learning, Déploiement, Docker, GitOps, Kubernetes, Machine Learning, MLOps, Open source, Python, TensorFlow

Apache Liminal propose une solution clés en main permettant de déployer un pipeline de Machine Learning. C’est un projet open-source, qui centralise l’ensemble des étapes nécessaires à l’entrainement…

COINTEPAS Aargan

Par COINTEPAS Aargan

31 mars 2021

TensorFlow Extended (TFX) : les composants et leurs fonctionnalités

TensorFlow Extended (TFX) : les composants et leurs fonctionnalités

Catégories : Big Data, Data Engineering, Data Science, Formation | Tags : Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, Déploiement, Machine Learning, MLOps, Open source, Python, TensorFlow

La mise en production des modèles de Machine Learning (ML) et de Deep Learning (DL) est une tâche difficile. Il est reconnu qu’elle est plus sujette à l’échec et plus longue que la modélisation…

Développement accéléré de modèles avec H2O AutoML et Flow

Développement accéléré de modèles avec H2O AutoML et Flow

Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python

La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…

KAFERLE DEVISSCHERE Petra

Par KAFERLE DEVISSCHERE Petra

10 déc. 2020

Versionnage des données et ML reproductible avec DVC et MLflow

Versionnage des données et ML reproductible avec DVC et MLflow

Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Databricks, Delta Lake, Git, Machine Learning, MLflow, Storage

Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…

KAFERLE DEVISSCHERE Petra

Par KAFERLE DEVISSCHERE Petra

30 sept. 2020

Suivi d'expériences avec MLflow sur Databricks Community Edition

Suivi d'expériences avec MLflow sur Databricks Community Edition

Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn

Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…

KAFERLE DEVISSCHERE Petra

Par KAFERLE DEVISSCHERE Petra

10 sept. 2020

Importer ses données dans Databricks : tables externes et Delta Lake

Importer ses données dans Databricks : tables externes et Delta Lake

Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python

Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Catégories : Data Engineering, Data Science, Formation | Tags : AWS, Azure, Databricks, Deep Learning, Déploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask

Catégories : Data Science, Tech Radar | Tags : Enseignement et tutorial, Deep Learning, Machine Learning, Machine Learning, Python

Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…

SOARES Robert Walid

Par SOARES Robert Walid

2 mars 2020

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark Streaming partie 4 : clustering avec Spark MLlib

Catégories : Data Engineering, Data Science, Formation | Tags : Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming

Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…

RYNKIEWICZ Oskar

Par RYNKIEWICZ Oskar

27 juin 2019

Éviter les blocages dans les pipelines distribués de Deep Learning avec Horovod

Éviter les blocages dans les pipelines distribués de Deep Learning avec Horovod

Catégories : Data Science | Tags : GPU, Deep Learning, Horovod, Keras, TensorFlow

L’entraînement des modèles Deep Learning peut être grandement accéléré en utilisant un cluster de GPUs. Lorsqu’il s’agit de grandes quantités de données, effectuer des calculs distribués devient…

JOUET Grégor

Par JOUET Grégor

15 nov. 2019

Mise en production d'un modèle de Machine Learning

Mise en production d'un modèle de Machine Learning

Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma

“Le Machine Learning en entreprise nécessite une vision globale […] du point de vue de l’ingénierie et de la plateforme de données”, a expliqué Justin Norman lors de son intervention sur le…

RYNKIEWICZ Oskar

Par RYNKIEWICZ Oskar

30 sept. 2019

Introduction à Cloudera Data Science Workbench

Introduction à Cloudera Data Science Workbench

Catégories : Data Science | Tags : Azure, Cloudera, Docker, Git, Kubernetes, Machine Learning, MLOps, Notebook

Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de créer, gérer, exécuter et planifier des workflows de Data Science à partir de leur navigateur. Cela leur permet…

ELALAMI Mehdi

Par ELALAMI Mehdi

28 févr. 2019

Apprentissage par renforcement appliqué au jeu de Poker

Apprentissage par renforcement appliqué au jeu de Poker

Catégories : Data Science | Tags : Algorithme, Jeu, Q-learning, Deep Learning, Machine Learning, Réseau de neurones, Python

Dans cet article, nous présenterons le “Deep Reinforcement Learning”, et plus particulièrement l’algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie…

BLAZEJEWSKI Oscar

Par BLAZEJEWSKI Oscar

9 janv. 2019

CodaLab - Concours de Data Science

CodaLab - Concours de Data Science

Catégories : Data Science, Adaltas Summit 2018, Formation | Tags : Base de données, Infrastructure, Machine Learning, MySQL, Node.js, Python

CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…

SOARES Robert Walid

Par SOARES Robert Walid

17 déc. 2018

Apache Flink : passé, présent et futur

Apache Flink : passé, présent et futur

Catégories : Data Engineering | Tags : Pipeline, Flink, Kubernetes, Machine Learning, SQL, Streaming

Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…

BEREZOWSKI César

Par BEREZOWSKI César

5 nov. 2018

YARN et le calcul distribué sur GPU pour le machine learning

YARN et le calcul distribué sur GPU pour le machine learning

Catégories : Data Science, DataWorks Summit 2018 | Tags : GPU, YARN, Machine Learning, Réseau de neurones, Storage

Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…

JOUET Grégor

Par JOUET Grégor

30 mai 2018

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes

Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, C++, CPU, GPU, Performance, Spark, YARN, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow

L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…

HATI Yliess

Par HATI Yliess

29 mai 2018

Apache Apex avec Apache SAMOA

Apache Apex avec Apache SAMOA

Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Samoa, Storm, Tools, Flink, Hadoop, Machine Learning

Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training : Construction du modèle Holdout : tuning du paramétrage Test : précision…

SAUVAGE Pierre

Par SAUVAGE Pierre

17 juil. 2016

Apache Apex : l'analytique Big Data nouvelle génération

Apache Apex : l'analytique Big Data nouvelle génération

Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Storm, Tools, Flink, Hadoop, Kafka, Data Science, Machine Learning

Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…

BEREZOWSKI César

Par BEREZOWSKI César

17 juil. 2016

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain