Stage de fin d'étude printemps 2022 - construction d'un Data Lab
By WORMS David
24 nov. 2021
- Catégories
- Data Science
- Formation
- Tags
- Spark
- Argo CD
- Elasticsearch
- Internship
- Keycloak
- Kubernetes
- MongoDB
- OpenID Connect
- PostgreSQL [plus][moins]
Ne ratez pas nos articles sur l'open source, le big data et les systèmes distribués, fréquence faible d’un email tous les deux mois.
Descriptif du stage
Au cours des dernières années, nous avons développé la capacité d’utiliser les ordinateurs pour traiter une grande quantité de données. L’écosystème a évolué vers une offre étendue d’outils et de bibliothèques et avec l’émergence de la data science. Connecter tous ces composants dans une plate-forme cohérente et sécurisée est une tâche ardue. Les nouveaux arrivants ainsi que les utilisateurs plus expérimentés bénéficient de plateformes qui offrent une expérience développeur optimale.
Les Data Labs fournissent aux développeurs une suite complète de logiciels pour les aider à explorer, visualiser, traiter et exposer des données. En utilisant leur langage préféré tel que Python, JavaScript ou SQL, ils créent des pipelines pour collecter et stocker des données, créer des tableaux de bord de visualisation et déployer des modèles d’apprentissage automatique.
Dans le cadre de votre stage, vous assemblerez plusieurs technologies open source pour fournir aux data scientists un environnement moderne adapté à leurs besoins. Les data scientists s’attendent à une interface Web conviviale pour accéder à leurs éditeurs de développement préférés, la possibilité d’utiliser leurs bibliothèques habituelles sans restriction dans un environnement isolé et autonome, la mise à disposition des ressources en fonction de leurs besoins et la possibilité de pousser leur code en production.
La plate-forme Data Lab s’appuie sur le backend Kubernetes couplé à un stockage de documents compatible avec n’importe quelle interface compatible avec le standard S3. Les conteneurs à la demande doivent être provisionnés et couvrir un large panel de bases de données (Elasticsearch, MongoDB, PostgreSQL, …), d’environnements (TensorFlow, VSCode, Jupyter, RStudio, …) et d’outils complémentaires tels que la gestion des secrets avec Vault, le provisionnement automatisé avec Argo CD, l’authentification OpenID Connect avec Keycloack, la planification de workflow, la publication d’API, …
Au cours de ce stage, vous vous familiariserez avec Kubernetes et l’écosystème CNCF, acquerrez une compréhension approfondie des rôles et des responsabilités attendus des Data Scientists et serez à l’aise pour répondre à leurs besoins. Vous rejoindrez une équipe agile dirigée par un expert en Data Science.
De plus, vous obtiendrez à la fin du stage une certification d’un fournisseur Cloud, et une certification Databricks.
Présentation de la société
Adaltas est une agence de conseil dirigée par une équipe d’experts open source spécialisée dans la gestion des données. Nous déployons et exploitons les infrastructures de stockage et de calcul en collaboration avec nos clients.
Partenaire de Cloudera et Databricks, nous sommes également des contributeurs open source. Nous vous invitons à parcourir notre site et nos nombreuses publications techniques pour en savoir plus sur l’entreprise.
Responsabilités
- Comprendre et addresser les besoins des data scientists
- Maîtriser les différentes rouages d’un Data Lab
- Déployer le Data Lab dans un cluster Kubernetes
- Déployer des workflows de machine learning
Profil recherché
- Ecole d’ingénieur, stage de fin d’études
- Analytique et structuré(e)
- Autonome et curieux(se)
- Vous êtes quelqu’un d’ouvert qui aime échanger, communiquer et apprendre des autres
- Bonnes connaissances en Python, Spark et en systèmes Linux
Vous serez en charge de comprendre l’architecture et de l’intégrer à une infrastructure existante. Vous travaillerez avec des InfraOps et des data scientists. Nous recherchons une personne qui développera des compétences sur les outils et solutions suivants :
- Kubernetes
- Postgresql
- Spark
- MongoDB
- Elasticsearch
- Jupyter
- TensorFlow
- Prometheus
- Argo CD
- Oauth and OpenID
Toutes expériences complémentaires sont des atouts.
Informations additionnelles
- Localisation : Boulogne Billancourt, France
- Langues : Français ou anglais
- Démarrage : février 2022
- Durée : 6 mois
- Télétravail : possibilité d’effectuer 2 jours par semaine en distanciel
Équipement à disposition
Un ordinateur portable avec les caractéristiques suivantes :
- 32GB RAM
- 1TB SSD
- 8c/16t CPU
Un cluster composé de :
- 3x 28c/56t Intel Xeon Scalable Gold 6132
- 3x 192TB RAM DDR4 ECC 2666MHz
- 3x 14 SSD 480GB SATA Intel S4500 6Gbps
Plateformes, composants, outils
Un cluster Kubernetes.
Rémunération
- Salaire 1 200 € / mois
- Tickets restaurants
- Titres de transport
- Participation à une conférence internationale
Historiquement, les conférences auxquelles nous avons participé incluent : la KubeCon organisée par la fondation CNCF, l’Open Source Summit de la Linux Foundation et la Fosdem.
Contact
Pour toute demande d’information complémentaire et pour déposer votre candidature, adressez-vous à David Worms :
- david@adaltas.com
- +33 6 76 88 72 13
- https://www.linkedin.com/in/david-worms/