Databricks

Databricks fournit une plateforme de traitement basée sur Apache Spark et disponible auprès de trois des plus grands fournisseurs de services cloud : Microsoft Azure, Amazon AWS et Google GCP.

Fondée par des développeurs de Spark, Databricks se concentre sur la monétisation du système open source Big Data Apache Spark en offrant une expérience utilisateur unifiée et simple. La plateforme est utilisée pour construire des Data Lake, pour implémenter des cas d'utilisation de streaming en temps réel ou pour remplacer de grands processus ETL.

La plateforme Databricks propose un espace de travaille pour l’écriture d’applications écrites en Spark. L’écosystème Databricks est enrichi par des outils tels que Delta Lake pour exposer les données stockées dans le Data Lake, MLFlow pour développer et opérer des pipelines de Machine Learning, et Databricks SQL pour construire un data warehouse multi-cloud et effectuer de la BI.

Adaltas est un spécialisé dans le Big Data et partenaire Databricks. La société met à disposition plusieurs consultants certifiés Databricks dans le cadre de missions d’accompagnement et de formations principalement en France et en région parisienne.

En savoir plus: Site officiel
Tags associés: Apache Spark; Big Data; Business Intelligence; Delta Lake; MLflow Machine Learning Lifecycle Platform

Articles associés

Migration Big Data et Data Lake vers le Cloud

Catégories : Big Data, Cloud computing | Tags : DevOps, AWS, Azure, Cloud, CDP, Databricks, GCP

Est-il impératif de suivre tendance et de migrer ses données, workflow et infrastructure vers l’un des Cloud providers tels que GCP, AWS ou Azure ? Lors de la Strata Data Conference à New-York, un…

Par RUMMENS Joris

9 déc. 2019

Importer ses données dans Databricks : tables externes et Delta Lake

Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python

Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…

Par KAFERLE DEVISSCHERE Petra

21 mai 2020

Versionnage des données et ML reproductible avec DVC et MLflow

Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Databricks, Delta Lake, Git, Machine Learning, MLflow, Storage

Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…

Par KAFERLE DEVISSCHERE Petra

30 sept. 2020

Gestion des versions de vos jeux de données avec Data Version Control (DVC) et Git

Catégories : Data Science, DevOps & SRE | Tags : DevOps, Infrastructure, Exploitation, Git, GitOps, SCM

L’utilisation d’un système de contrôle de version tel que Git pour le code source est une bonne pratique et une norme de l’industrie. Étant donné que les projets se concentrent de plus en plus sur les…

Par JOUET Grégor

3 sept. 2020

Suivi d'expériences avec MLflow sur Databricks Community Edition

Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn

Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…

Par KAFERLE DEVISSCHERE Petra

10 sept. 2020

Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks

Catégories : Data Engineering, Formation | Tags : Cloud, Data Lake, Databricks, Delta Lake, MLflow

Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre à votre rythme et selon vos besoins. Il vous en coûtera 2000 $ US pour un accès illimité…

Par KNYAZEVA Anna

26 mai 2021

Collecte de logs Databricks vers Azure Monitor à l'échelle d'un workspace

Catégories : Cloud computing, Data Engineering, Adaltas Summit 2021 | Tags : Métriques, Supervision, Spark, Azure, Databricks, Log4j

Databricks est une plateforme optimisée d’analyse de données, basée sur Apache Spark. La surveillance de la plateforme Databricks est cruciale pour garantir la qualité des données, les performances du…

Par PLAYE Claire

10 mai 2022

Exigences et attentes d'une plateforme Big Data

Catégories : Big Data, Infrastructure | Tags : Data Engineering, Gouvernance des données, Analyse de données, Data Hub, Data Lake, Lakehouse, Data Science

Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources. Elle se compose de…

Par WORMS David

23 mars 2023

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Catégories : Data Engineering, Data Science, Formation | Tags : AWS, Azure, Databricks, Deep Learning, Déploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…

Par KAFERLE DEVISSCHERE Petra

23 mars 2020