Stage infrastructure big data
By BAUM Stephan
2 déc. 2022
- Catégories
- Big Data
- Data Engineering
- DevOps & SRE
- Infrastructure
- Tags
- Infrastructure
- Hadoop
- Big Data
- Cluster
- Internship
- Kubernetes
- TDP [plus][moins]
Ne ratez pas nos articles sur l'open source, le big data et les systèmes distribués, fréquence faible d’un email tous les deux mois.
Présentation de l’offre
Le Big Data et l’informatique distribuée sont au cœur d’Adaltas. Nous accompagnons nos partenaires dans le déploiement, la maintenance, l’optimisation et nouvellement le support de certains des plus grands clusters de France.
En tant que grand défenseur et contributeur actif de l’Open Source, nous sommes à l’initiative de la plateforme data TDP (TOSIT Data Platform).
Au cours de ce stage, vous contribuerez à son développement, à son industrialisation, et à l’intégration de nouveaux composants Open Source et de nouvelles fonctionnalités. Vous serez accompagnés par l’équipe d’expert d’Alliage en charge du support éditeur de TDP.
Vous travaillerez aussi avec l’éco-système Kubernetes et l’automatisation des déploiements du datalab Onyxia. L’objectif est sa mise à disposition chez nos clients ainsi qu’aux étudiants dans le cadre de nos enseignements (devops, big data, …).
Votre enseignement participera à compléter les services proposés dans le cadre de l’offre de support open source d’Alliage. Les composants open source supportés inclus TDP, Onyxia, ScyllaDB, … Pour ceux qui souhaiteraient faire un peu de web en complément du big data, nous disposons déjà d’un intranet très fonctionnel (gestion des tickets, gestion du temps, recherche avancée, mentions and related articles, …) mais d’autres fonctionnalité sympathiques sont anticipées.
Vous mettrez en pratique des chaînes de publication GitOps et vous rédigerez des articles.
Vous travaillerez en équipe avec des conseillers seniors pour mentor.
Présentation de la société
Adaltas est une agence de conseil dirigée par une équipe d’experts open source spécialisée dans la gestion des données. Nous déployons et exploitons les infrastructures de stockage et de calcul en collaboration avec nos clients.
Partenaire de Cloudera et Databricks, nous sommes également des contributeurs open source. Nous vous invitons à parcourir notre site et nos nombreuses publications techniques pour en savoir plus sur l’entreprise.
Compétences requises et à acquérir
L’automatisation du deploiement du datalab Onyxia nécessite des connaissances Kubernetes et en Cloud native. Vous devez être à l’aise avec l’écosystème Kubernetes, l’écosystème Hadoop, et le modèle de calcul distribué. Vous maîtriserez comment les composants de base (HDFS, YARN, stockage object, Kerberos, OAuth, etc.) fonctionnent ensemble pour répondre aux usages du big data.
Une connaissance pratique de l’utilisation de Linux et de la ligne de commande est requise.
Au cours du stage, vous apprendrez :
- l’écosysteme Kubernetes/Hadoop pour la contribution au projet TDP
- La sécurisation des clusters avec Kerberos et les certificats SSL/TLS
- La haute disponibilité (HA) des services
- La répartition des ressources et des charges de travail
- La supervision des services et des applicatifs hébergés
- La tolérance aux pannes et récupération des données perdues en cas de défaillance de l’infrastructure
- L’Infrastructure as Code (IaC) via des outils DevOps tels que Ansible et Vagrant
- Être à l’aise avec l’architecture et le fonctionnement du data lakehouse
- La collaboration du code avec Git, Gitlab et Github
Responsabilités
- Se familiariser avec l’architecture et les méthodes de configuration de la distribution TDP
- Déployer et tester des clusters TDP sécurisés et hautement disponibles
- Contribuer à la base de connaissances TDP avec des guides de dépannage, des FAQ et des articles
- Contribuer activement aux idées et au code pour apporter des améliorations itératives à l’écosystème TDP
- Rechercher et analyser les différences entre les principales distributions Hadoop
- Mettre à jour Adaltas Cloud en utilisant Nikita
- Contribuer au développement d’un outil pour collecter les logs et les metrics des clients sur TDP et ScyllaDB
- Contribuer activement aux idées pour développer notre solution de support
Informations additionnelles
- Localisation : Boulogne Billancourt, France
- Langues : Français ou anglais
- Démarrage : mars 2022
- Durée : 6 mois
Une grande partie du monde numérique fonctionne à partir de logiciels Open Source et l’industrie du Big Data est en plein essor. Ce stage est l’occasion d’acquérir une expérience précieuse dans les deux domaines. TDP est désormais la seule distribution Hadoop véritablement Open Source. C’est le bon moment pour rejoindre l’initiative. En tant que membre de l’équipe TDP, vous aurez la possibilité d’apprendre l’une des principales plateformes distribuées et de participer au développement et à la future feuille de route du projet. Nous pensons qu’il s’agit d’une opportunité passionnante et qu’à la fin du stage, vous serez prêt pour commencer votre carrière dans le Big Data.
Équipement à disposition
Un ordinateur portable avec les caractéristiques suivantes :
- 32GB RAM
- 1TB SSD
- 8c/16t CPU
Un cluster composé de :
- 3x 28c/56t Intel Xeon Scalable Gold 6132
- 3x 192TB RAM DDR4 ECC 2666MHz
- 3x 14 SSD 480GB SATA Intel S4500 6Gbps
Plateformes, composants, outils
Un cluster Kubernetes et un cluster Hadoop.
Rémunération
- Salaire 1 200 € / mois
- Tickets restaurants
- Titre de transport
- Participation à une conférence internationale
Historiquement, les conférences auxquelles nous avons participé incluent : la KubeCon organisée par la fondation CNCF, l’Open Source Summit de la Linux Foundation et la Fosdem.
Contact
Pour toute demande d’information complémentaire et pour déposer votre candidature, adressez-vous à David Worms :
- david@adaltas.com
- +33 6 76 88 72 13
- https://www.linkedin.com/in/david-worms/