Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks
26 mai 2021
- Catégories
- Data Engineering
- Formation
- Tags
- Cloud
- Data Lake
- Databricks
- Delta Lake
- MLflow [plus][moins]
Ne ratez pas nos articles sur l'open source, le big data et les systèmes distribués, fréquence faible d’un email tous les deux mois.
Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre à votre rythme et selon vos besoins. Il vous en coûtera 2000 $ US pour un accès illimité à ces modules sur une période d’un an. Notez néanmoins que ce programme d’apprentissage reste gratuit pour les entreprises clientes ou partenaires de Databricks. La liste des cours disponibles en ligne contient, au moment ou nous écrivons ces lignes, 71 cours qui couvrent les cinq domaines principaux de la Big Data et de l’IA. Cet article propose de vous aider à construire votre propre programme d’apprentissage.
Merci à toute l’équipe Databricks, en particulier Taggart McCurdy, pour leurs relectures, commentaires et contributions à cet article. Adaltas est un partenaire Databricks basé à Paris. N’hésitez pas à nous contacter si vous avez des questions.
Voici l’approche que nous vous proposons :
- Finir tout les modules présents dans le socle commun qui contient des cours présents dans toutes les spécialités professionnelles. Ces cours enseignent les fondamentaux requis du Big Data et de l’IA.
- Choisir une voie de spécialisation professionnelle parmi les suivantes :
- Business Leader
- SQL Analyst
- Platform Administrator
- Data Scientist
- Data Engineer
- Passer les cours fondamentaux, les options et les accréditations présentes dans votre spécialité.
- Notez également, que les voies Platform Administrator, Data Scientist et Data Engineer ont des certifications spécifiques que vous pouvez passez pour obtenir des badges qui seront le gage de votre réussite.
Sur la base de cette proposition, chaque voie d’apprentissage que nous décrirons contient une succession de modules appartenant à trois groupes : les fondamentaux, les options et les accréditations. Les modules fondamentaux aident à construire progressivement un socle de connaissances spécifiques à chaque spécialisation professionnelle. Les modules optionnels sont là pour venir compléter vos connaissances sur des sujets très spécifiques. Enfin les accréditations sont l’occasion de mettre en pratique vos compétences en testant vos connaissances.
D’un point de vue pratique, gardez à l’esprit que certains modules peuvent nécessiter un investissement financier supplémentaires. Nous le préciserons dans cet article à chaque fois que nécessaire.
La structure du programme d’apprentissage et des différentes certifications disponibles pour chaque spécialité est décrite dans la figure ci-dessous. Tout ce qui est surligne en vert fonce correspond aux cours couverts par les modules en ligne proposés par Databricks Academy.
Ces cours vous donnent la possibilité d’obtenir trois accréditation. De plus ils vous préparent parfaitement pour attaquer des sujets plus avancées et pointus. C’est pourquoi passer les cours de ce programme est recommandé pour se construire un socle de connaissances solide dans le domaine du Big Data et de l’IA.
Le socle commun disponible pour toutes les spécialités professionnelles
Si vous découvrez le domaine du Big Data ou que vous n’avez aucune idée des services proposés par Databricks, nous vous conseillons de commencer par là. Le socle commun vous permettra d’obtenir toutes les connaissances fondamentales nécessaires à la compréhension des enjeux liées à la Big Data. De plus ces modules vous enseignent comment utiliser et exploiter la plateforme Databricks. Un compte gratuit “Databricks community edition” est suffisant pour finir l’ensemble des modules du socle commun.
Les fondamentaux
- Fundamentals of Big Data (précédemment nommé “Introduction to Big Data”)
- Fundamentals of Unified Data Analytics with Databricks (précédemment nommé “Introduction to Unified Data Analytics with Databricks”)
- Fundamentals of Delta Lake
Les options
- Databricks: How-To Videos
- Quick Reference: Databricks Workspace User Interface
- Quick Reference: Managing Databricks Notebooks with the Databricks Workspace
- How to Manage Clusters in Databricks
Les accréditations
- Fundamentals of Unified Data Analytics with Databricks Accreditation
- Fundamentals of Delta Lake Accreditation (précédemment nommé “Delta Lake Fundamentals Accreditation”)
La spécialisation Business Leader
Les modules de cette spécialisation proposent une approche générale et technique sur plusieurs sujets liés à l’ingénierie data, la science des données et à l’architecture de la plateforme Databricks. Cette spécialisation est parfaite pour des professionnels avec déjà une certaine expérience de la Big Data mais qui veulent renforcer leur compétences techniques sur les solutions proposées par Databricks. Un compte gratuit “Databricks community edition” est suffisant pour finir l’ensemble de ces enseignements.
Options
- Fundamentals of Data Lakes and Data Warehouses
- Fundamentals of Lakehouse Architecture
- Fundamentals of Machine Learning
- Fundamentals of Structured Streaming
La spécialisation SQL Analyst
Choisissez cette voie si vous souhaitez améliorer vos compétences en analyse de données avec SQL sur la plateforme Databricks. Ce programme vous enseigne comment Databricks exploite Spark et le langage SQL pour établir des processus ETL et assurer l’analyse de données. Néanmoins, certains enseignements requièrent l’utilisation de la solution Databricks SQL analytics qui, à l’heure ou nous écrivons ces lignes, n’est toujours pas commercialisé ou accessible au public. Vous pouvez néanmoins vous inscrire sur la liste d’attente sur le site web de Databricks.
Les fondamentaux
- Introduction to SQL on Databricks
- Quick Reference: Spark Architecture
- Delta Lake Rapid Start with Spark SQL
- Applications of SQL on Databricks
- SQL Coding Challenges
- Databricks SQL Analytics Fundamentals
- Data Visualization with Databricks SQL Analytics (requiert un accès à Databricks SQL analytics)
Les options
- Fundamentals of Lakehouse Architecture
- Introduction to Apache Spark Architecture
- Databricks Workspace Fundamentals for Business Analytics
- How to Code-Along with Self-Paced Courses
- Just Enough Python for Apache Spark™
- Quick Reference: Relational Entities on Databricks
- What’s New In Spark 3.0
Les accréditations
La spécialisation Platform Administrator
Cette spécialisation enseigne les connaissances théoriques et pratiques nécessaires à la gestion et la maintenance de clusters Big Data sur la plateforme Databricks et les solutions Cloud partenaires. Par conséquent, il est conseillé d’avoir déjà une bonne connaissance théorique et surtout pratique sur le Big Data, la plateforme Databricks et les solutions Cloud existantes. Enfin sachez que cette spécialisation entraîne des coûts supplémentaires incluant l’acquisition ou l’accès à un compte payant sur Databricks. L’ensemble des pré-requis supplémentaires est décrit dans le tableau ci-dessous. Notez qu’une certification validant la réussite de cette voie sera disponible durant le second semestre de l’année 2021.
Les fondamentaux
- Collection: AWS Databricks Workspace Administration
- AWS Databricks SQL Analytics Administration
- Collection: Azure Databricks Workspace Administration
- Azure Databricks SQL Analytics Administration
- Google Cloud Fundamentals
- Databricks on Google Cloud: Workspace Deployment
- Databricks on Google Cloud: Architecture and Security Fundamentals
- Databricks on Google Cloud: Cloud Architecture and System Integration
- Databricks on Google Cloud: Cluster Usage Management
Les options
- Fundamentals of Lakehouse Architecture
- Databricks Command Line Interface (CLI) FundamentalsAdditional courses
- Quick Reference: CI/CD
- Setting Up SQL Analytics
Liste des pré-requis nécessaires selon les modules enseignés
Modules | Pré-requis |
---|---|
AWS Databricks Workspace Deployment | Un compte Databricks avec les permissions "Account Owner" |
AWS Databricks Identity Access Management | Un espace de travail Databricks avec les droits administrateur |
AWS Databricks Data Access Management | Compte premium chez Databricks |
Collection: AWS Databricks Workspace Administration | Compte premium chez Databricks + les droits administrateur pour un espace de travail Databricks sur AWS |
AWS Databricks SQL Analytics Administration | Compte premium chez Databricks (avec SQL Analytics active) + Un espace de travail Databricks avec les droits administrateur |
Azure Databricks Workspace Deployment | Accès a la console administrateur pour un espace de travail Azure Databricks |
Azure Databricks Data Access Management | Compte premium chez Databricks |
Collection: Azure Databricks Workspace Administration | Compte premium chez Databricks ; les droits administrateur pour un espace de travail Databricks sur Microsoft Azure |
Azure Databricks SQL Analytics Administration | Compte premium chez Databricks (avec SQL Analytics active) + Un espace de travail Databricks avec les accès administrateur |
La spécialisation Data Scientist
Soyons clair, cette spécialisation ne fera pas de vous un Data Scientist prêt à l’emploie ! Néanmoins les modules qui la composent vous enseignent comment exploiter parfaitement la plateforme Databricks pour (i) réaliser des analyses de données exploratoires, (ii) entraîner et tester des modèles de Machine Learning avec Spark pour ensuite (iii) les suivre et les déployer avec MLflow. Par conséquent, cette spécialisation s’adresse essentiellement à des Data Scientist déjà expérimentés. Vous trouverez également au sein de cette spécialisation un ensemble de cours optionnels et pratiques pour vous rafraîchir la mémoire ou compléter vos connaissances liées au Machine Learning. Enfin une des options propose de vous préparer à la certification Databricks Certified Associate Developer for Apache Spark Exam. Un compte gratuit “Databricks community edition” est suffisant pour finir l’ensemble de ces enseignements.
Les fondamentaux
- Apache Spark Programming with Databricks
- Scalable Machine Learning with Apache Spark
- Data Science on Databricks: The Bias-Variance Tradeoff
- Tracking Experiments with MLflow
- Deploying a Machine Learning Project with MLflow Projects
Les options
- Quick Reference: Spark Architecture
- Introduction to Apache Spark Architecture
- Applied Statistics with Databricks
- Lakehouse with Delta Lake Deep Dive
- Data Science on Databricks Rapidstart
- How to Code-Along with Self-Paced Courses
- Databricks with R
- Delta Lake Rapid Start with Python
- Just Enough Python for Apache Spark™
- Delta Lake Rapid Start with Spark SQL
- Introduction to Applied Unsupervised Learning
- Introduction to Feature Engineering and Selection with Databricks
- Introduction to Hyperparameter Optimization with Databricks
- Introduction to Natural Language Processing with Databricks
- Natural Language Processing at Scale with Databricks
- Quick Reference: Relational Entities on Databricks
- What’s New In Spark 3.0
- Certification Prep Course for the Databricks Certified Associate Developer for Apache Spark Exam
La spécialisation Data Engineer
Cette spécialisation prépare des ingénieurs data (junior ou senior) à la maîtrise des outils proposés par Databricks pour architecturer des solutions Big Data. Les modules couvrent et fournissent les connaissances théoriques et pratiques nécessaires à un usage optimal et professionnel de Spark. Vous verrez notamment et en détails les dessous de l’architecture de Spark ainsi que ses différentes API (Scala et Python). Enfin des modules extrêmement pratiques vous montrerons comment exploiter au mieux Spark pour optimiser vos pipelines et vos traitement de données. Comme pour la spécialisation Data Sicentist vous trouverez un grand nombre de modules optionnels pour compléter votre apprentissage. La plupart de ces enseignements peuvent être suivis avec un compte gratuit “Databricks community edition”.
Les fondamentaux
Les options
- Introduction to Apache Spark Architecture
- Quick Reference: Spark Architecture
- Fundamentals of Lakehouse Architecture
- Lakehouse with Delta Lake Deep Dive
- How to Code-Along with Self-Paced Courses
- Just Enough Python for Apache Spark™
- Delta Lake Rapid Start with Python
- Delta Lake Rapid Start with Spark SQL
- AWS Databricks Cloud Architecture and System Integration Fundamentals
- Azure Databricks Cloud Architecture and System Integration Fundamentals
- Databricks Command Line Interface (CLI) Fundamentals
- Introduction to Databricks Connect
- Optimizing Apache Spark on Databricks
- Quick Reference: CI/CD
- Quick Reference: Relational Entities on Databricks
- Structured Streaming
- What’s New In Spark 3.0
- Certification Prep Course for the Databricks Certified Associate Developer for Apache Spark Exam
Conclusion
Voici une possible approche pour structurer votre apprentissage sur la plateforme Databricks à l’aide des nombreux modules proposés par leur académie. Notre conseil : définissez un objectif précis (l’acquisition du socle commun ou l’accomplissement d’une voie de spécialisation en particulier) et travailler de manière consciencieuse. Enfin gardez à l’esprit que certaines spécialisations ne peuvent se finir que si vous disposez de ressources supplémentaires, par conséquent n’oubliez pas d’anticiper leurs éventuels coûts. De plus notez que nous mettrons à jour cet article à chaque fois que Databricks étendra leur offre d’apprentissage en ligne.