Data Science
Data science, and more generally Artificial Intelligence (AI), differs from traditional programming and analysis in its ability to extract knowledge from data and modify its behavior and learn without specific programming. While traditional software predefines the logic that governs their processes, Data Science's algorithms build and discover models and are able to continually improve them.
Data science brings together a set of skills including Machine Learning, Natural Language Processing (NLP), speech, images and faces recognition (among other applications). In some applications, the algorithms go so far as to simulate human intelligence.
Key Takeaways
- Data scientists build, train, and validate models to drive critical business decisions.
- Data scientists are concerned with data access, reproducibility, and collaboration in order to make models quickly at scale.
- Adaltas enable Data scientists to easily build, scale, and deploy machine learning models in minutes, helping drive innovation across the business.
Articles related to data science
Deployez vos aplications IA conteneurisƩes avec nvidia-docker
Categories: Orchestration de conteneurs, Data Science | Tags: containerd, DevOps, Enseignement et tutorial, NVIDIA, Docker, Keras, TensorFlow
De plus en plus de produits et services prennent avantage des capacitĆ©s de modĆ©lisation et prĆ©diction des IA. Cet article prĆ©sente lāoutil nvidia-docker permettant dāintĆ©grer des briques logiciels IAā¦
Mar 24, 2022
Stage de fin d'Ć©tude printemps 2022 - construction d'un Data Lab
Categories: Data Science, Formation | Tags: Spark, Argo CD, Elasticsearch, Internship, Keycloak, Kubernetes, MongoDB, OpenID Connect, PostgreSQL
Descriptif du stage Au cours des derniĆØres annĆ©es, nous avons dĆ©veloppĆ© la capacitĆ© dāutiliser les ordinateurs pour traiter une grande quantitĆ© de donnĆ©es. LāĆ©cosystĆØme a Ć©voluĆ© vers une offre Ć©tendueā¦
By WORMS David
Nov 24, 2021
H2O en pratique : un protocole combinant AutoML et les approches de modƩlisation traditionnelles
Categories: Data Science, Formation | Tags: Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python, XGBoost
H20 est livrĆ© avec de nombreuses fonctionnalitĆ©s. La deuxiĆØme partie de la sĆ©rie H2O en pratique propose un protocole pour combiner la modĆ©lisation AutoML avec des approches de modĆ©lisation et dā¦
Nov 12, 2021
H2O en pratique: retour d'expƩrience d'un Data Scientist
Categories: Data Science, Formation | Tags: Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
Les plates-formes dāapprentissage automatique (AutoML) gagnent en popularitĆ© et deviennent un outil puissant Ć disposition des data scientists. Il y a quelques mois, jāai prĆ©sentĆ© H2O, une plate-formeā¦
Sep 29, 2021
Apache Liminal, quand le MLOps rencontre le GitOps
Categories: Big Data, Orchestration de conteneurs, Data Engineering, Data Science, Tech Radar | Tags: Data Engineering, CI/CD, Data Science, Deep Learning, DĆ©ploiement, Docker, GitOps, Kubernetes, Machine Learning, MLOps, Open source, Python, TensorFlow
Apache Liminal propose une solution clĆ©s en main permettant de dĆ©ployer un pipeline de Machine Learning. Cāest un projet open-source, qui centralise lāensemble des Ć©tapes nĆ©cessaires Ć lāentrainementā¦
Mar 31, 2021
Espace de stockage et temps de gƩnƩration des formats de fichiers
Categories: Data Engineering, Data Science | Tags: Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)
Le choix dāun format de fichier appropriĆ© est essentiel, que les donnĆ©es soient en transit ou soient stockĆ©es. Chaque format de fichier a ses avantages et ses inconvĆ©nients. Nous les avons couvertsā¦
Mar 22, 2021
TensorFlow Extended (TFX) : les composants et leurs fonctionnalitƩs
Categories: Big Data, Data Engineering, Data Science, Formation | Tags: Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, DĆ©ploiement, Machine Learning, MLOps, Open source, Python, TensorFlow
La mise en production des modĆØles de Machine Learning (ML) et de Deep Learning (DL) est une tĆ¢che difficile. Il est reconnu quāelle est plus sujette Ć lāĆ©chec et plus longue que la modĆ©lisationā¦
Mar 5, 2021
DĆ©veloppement accĆ©lĆ©rĆ© de modĆØles avec H2O AutoML et Flow
Categories: Data Science, Formation | Tags: Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
La construction de modĆØles de Machine Learning (ML) est un processus trĆØs consommateur de temps. De plus, il requiĆØre de bonne connaissance en statistique, en algorithme de ML ainsi quāenā¦
Dec 10, 2020
Versionnage des donnƩes et ML reproductible avec DVC et MLflow
Categories: Data Science, DevOps & SRE, ĆvĆØnements | Tags: Data Engineering, Databricks, Delta Lake, Git, Machine Learning, MLflow, Storage
Notre prĆ©sentation sur la gestion de versions sur des donnĆ©es et le dĆ©veloppement reproductible dāalgorithmes de Machine Learning proposĆ© au Data + AI Summit (anciennement Spark + AI) est acceptĆ©. Laā¦
Sep 30, 2020
Suivi d'expƩriences avec MLflow sur Databricks Community Edition
Categories: Data Engineering, Data Science, Formation | Tags: Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn
Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre dāoutils permettant aux Data Scientists de crĆ©er des modĆØles plus rapidement augmente. Par consĆ©quent, la nĆ©cessitĆ© deā¦
Sep 10, 2020
Gestion des versions de vos jeux de donnƩes avec Data Version Control (DVC) et Git
Categories: Data Science, DevOps & SRE | Tags: DevOps, Infrastructure, Exploitation, Git, GitOps, SCM
Lāutilisation dāun systĆØme de contrĆ“le de version tel que Git pour le code source est une bonne pratique et une norme de lāindustrie. Ćtant donnĆ© que les projets se concentrent de plus en plus sur lesā¦
Sep 3, 2020
Importer ses donnƩes dans Databricks : tables externes et Delta Lake
Categories: Data Engineering, Data Science, Formation | Tags: Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python
Au cours dāun projet dāapprentissage automatique (Machine Learning, ML), nous devons garder une trace des donnĆ©es test que nous utilisons. Cela est important Ć des fins dāaudit et pour Ć©valuer laā¦
May 21, 2020
MLflow tutorial : une plateforme de Machine Learning (ML) Open Source
Categories: Data Engineering, Data Science, Formation | Tags: AWS, Azure, Databricks, Deep Learning, DĆ©ploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn
Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en mĆŖme temps une collecte de donnĆ©es de plus en plus importante dans tous les domaines, deā¦
Mar 23, 2020
Introduction Ć Ludwig et comment dĆ©ployer un modĆØle de Deep Learning via Flask
Categories: Data Science, Tech Radar | Tags: Enseignement et tutorial, Deep Learning, Machine Learning, Machine Learning, Python
Au cours de la derniĆØre dĆ©cennie, les modĆØles de Machine Learning et de Deep Learning se sont rĆ©vĆ©lĆ©s trĆØs efficaces pour effectuer une grande variĆ©tĆ© de tĆ¢ches tels que la dĆ©tection de fraudes, laā¦
Mar 2, 2020
Stage Data Science & Data Engineer - ML en production et ingestion streaming
Categories: Data Engineering, Data Science | Tags: DevOps, Flink, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python
Contexte LāĆ©volution exponentielle des donnĆ©es a bouleversĆ© lāindustrie en redĆ©finissant les mĆ©thodes de stockages, de traitement et dāacheminement des donnĆ©es. Maitriser ces mĆ©thodes faciliteā¦
By WORMS David
Nov 26, 2019
Ćviter les blocages dans les pipelines distribuĆ©s de Deep Learning avec Horovod
Categories: Data Science | Tags: GPU, Deep Learning, Horovod, Keras, TensorFlow
LāentraĆ®nement des modĆØles Deep Learning peut ĆŖtre grandement accĆ©lĆ©rĆ© en utilisant un cluster de GPUs. Lorsquāil sāagit de grandes quantitĆ©s de donnĆ©es, effectuer des calculs distribuĆ©s devientā¦
Nov 15, 2019
Innovation, culture projet vs culture produit en Data Science
Categories: Data Science, Gouvernance des donnƩes | Tags: DevOps, Agile, Scrum
La Data Science porte en elle le mĆ©tier de demain. Elle est Ć©troitement liĆ©e Ć la comprĆ©hension du mĆ©tier, des comportements et de lāintelligence quāon tirera des donnĆ©es existantes. Les enjeux sont Ć ā¦
By WORMS David
Oct 8, 2019
Mise en production d'un modĆØle de Machine Learning
Categories: Big Data, Data Engineering, Data Science, DevOps & SRE | Tags: DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, SchƩma
āLe Machine Learning en entreprise nĆ©cessite une vision globale [ā¦] du point de vue de lāingĆ©nierie et de la plateforme de donnĆ©esā, a expliquĆ© Justin Norman lors de son intervention sur leā¦
Sep 30, 2019
Installation de TensorFlow avec Docker
Categories: Orchestration de conteneurs, Data Science, Formation | Tags: CPU, Jupyter, Linux, IA, Deep Learning, Docker, TensorFlow
TensorFlow est un logiciel open source de Google pour le calcul numĆ©rique utilisant une reprĆ©sentation en graphĀ : Vertex (nodes) reprĆ©sentent des opĆ©rations mathĆ©matiques Edges reprĆ©sentent un tableauā¦
Aug 5, 2019
Spark Streaming partie 4 : clustering avec Spark MLlib
Categories: Data Engineering, Data Science, Formation | Tags: Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming
Spark MLlib est une bibliothĆØque Spark dāApache offrant des implĆ©mentations performantes de divers algorithmes dāapprentissage automatique supervisĆ©s et non supervisĆ©s. Ainsi, le framework Spark peutā¦
Jun 27, 2019
Introduction Ć Cloudera Data Science Workbench
Categories: Data Science | Tags: Azure, Cloudera, Docker, Git, Kubernetes, Machine Learning, MLOps, Notebook
Cloudera Data Science Workbench est une plateforme qui permet aux Data Scientists de crĆ©er, gĆ©rer, exĆ©cuter et planifier des workflows de Data Science Ć partir de leur navigateur. Cela leur permetā¦
Feb 28, 2019
Apprentissage par renforcement appliquƩ au jeu de Poker
Categories: Data Science | Tags: Algorithme, Jeu, Q-learning, Deep Learning, Machine Learning, RĆ©seau de neurones, Python
Dans cet article, nous prĆ©senterons le āDeep Reinforcement Learningā, et plus particuliĆØrement lāalgorithme de Deep Q Learning introduit par DeepMind il y a quelques annĆ©es. Dans une seconde partieā¦
Jan 9, 2019
CodaLab - Concours de Data Science
Categories: Data Science, Adaltas Summit 2018, Formation | Tags: Base de donnƩes, Infrastructure, Machine Learning, MySQL, Node.js, Python
CodaLab Competition est une plateforme servant Ć lāexĆ©cution de code dans le domaine de la Data Science. Elle se prĆ©sente sous la forme dāune interface web sur laquelle un utilisateur peut soumettreā¦
Dec 17, 2018
Nvidia et l'IA embarquƩ
Categories: Data Science | Tags: Caffe, GPU, NVIDIA, IA, Deep Learning, Edge computing, Keras, PyTorch, TensorFlow
Depuis un peu plus de quatre ans, beaucoup de sociĆ©tĆ©s investissent dans lāintelligence artificielle et plus particuliĆØrement dans le Deep Learning et le Edge Computing. Alors que la thĆ©orie avance Ć ā¦
By HATI Yliess
Oct 10, 2018
LandoĀ : rĆ©sumĆ© de conversation en Deep Learning
Categories: Data Science, Formation | Tags: Micro Services, Open API, Deep Learning, Internship, Kubernetes, RĆ©seau de neurones, Node.js
LandoĀ : Les derniers maĆ®tres des mots Lando est une application de rĆ©sumĆ© de rĆ©union qui utilise les technologies de Speech To Text pour transcrire de lāaudio en Ć©crit et les technologies de Deepā¦
By HATI Yliess
Sep 18, 2018
Deep learning sur YARNĀ : lancer Tensorflow et ses amis sur des clusters Hadoop
Categories: Data Science | Tags: GPU, Hadoop, MXNet, Spark, Spark MLlib, YARN, Deep Learning, PyTorch, TensorFlow, XGBoost
Avec lāarrivĆ©e de Hadoop 3, YARN offre plus de possibilitĆ©s dans la gestion des ressources. Il est dĆ©sormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dĆ©diĆ©s duā¦
Jul 24, 2018
YARN et le calcul distribuƩ sur GPU pour le machine learning
Categories: Data Science, DataWorks Summit 2018 | Tags: GPU, YARN, Machine Learning, RĆ©seau de neurones, Storage
Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisĆ©s pour exĆ©cuter ce type dāalgorithmes, puis nous expliquerons comment un gestionnaire deā¦
May 30, 2018
TensorFlow avec Spark 2.3Ā : Le Meilleur des Deux Mondes
Categories: Data Science, DataWorks Summit 2018 | Tags: Mesos, C++, CPU, GPU, Performance, Spark, YARN, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow
LāintĆ©gration de Tensorflow dans Spark apporte de nombreux bĆ©nĆ©fices et crĆ©e de nombreuses opportunitĆ©s. Cet article est basĆ© sur une confĆ©rence du DataWorks Summit 2018 Ć Berlin. Cette confĆ©renceā¦
By HATI Yliess
May 29, 2018
Apache Apex avec Apache SAMOA
Categories: Data Science, ĆvĆØnements, Tech Radar | Tags: Apex, Samoa, Storm, Tools, Flink, Hadoop, Machine Learning
Le Machine learning OrientĆ© batch SupervisĆ© - plus courant Training et Scoring Construction prĆ©liminaire du modĆØle TrainingĀ : Construction du modĆØle HoldoutĀ : tuning du paramĆ©trage TestĀ : prĆ©cisionā¦
Jul 17, 2016
Apache ApexĀ : l'analytique Big Data nouvelle gĆ©nĆ©ration
Categories: Data Science, ĆvĆØnements, Tech Radar | Tags: Apex, Storm, Tools, Flink, Hadoop, Kafka, Data Science, Machine Learning
Ci-dessous une compilation de mes notes prises lors de la prĆ©sentation dāApache Apex par Thomas Weise de DataTorrent, lāentreprise derriĆØre Apex. Introduction Apache Apex est un moteur de traitementsā¦
Jul 17, 2016
Installation de PostgreSQL et Madlib sur OSX
Categories: Data Science | Tags: Base de donnƩes, Greenplum, Statistiques, PostgreSQL, SQL
Nous couvrons lāinstallation et lāutilisation de PostgreSQL et de MADlib sur OSX et Ubuntu. Les instructions pour les autres environnements doivent ĆŖtre similaires. PostgreSQL est une base de donnĆ©esā¦
By WORMS David
Jul 7, 2012