Stage de fin d'étude printemps 2022 en Data Engineering
By WORMS David
25 oct. 2021
Ne ratez pas nos articles sur l'open source, le big data et les systèmes distribués, fréquence faible d’un email tous les deux mois.
Descriptif du stage
La donnée est un actif précieux des entreprises. Le data engineer collecte, convertit et valorise la donnée brute en une information exploitable par les business analysts et les data scientists.
Dans le cadre de votre stage, vous serez formé aux différents aspects du métier de data engineer. Vous construirez une pipeline d’ingestion de données en streaming, de bout en bout, combinant les collectes de métriques, le nettoyage et l’aggregation de données, le stockage vers plusieurs entrepôts de données, l’analyse en temps réél par l’affichage d’indicateurs clés dans un tableau de bord et l’application de modèles de machine learning appliqués à la prédiction et à la détection de signaux faibles.
Vous participerez à l’architecture applicative et à la mise en œuvre de la pipeline dans un objectif de mise en production. Vous rejoindrez une équipe agile pilotée par un expert Big Data.
En complément, vous obtiendrez à l’issue du stage une certification d’un fournisseur Cloud et une certification Databricks.
Présentation de la société
Adaltas est spécialisée dans le traitement et le stockage de données. Nous intervenons on-premise et sur le cloud pour opérer des plateformes Big Data et renforcer les équipes de nos clients sur les domaines de l’architecture, de l’exploitation, du data engineering, de la data science et du DevOps. Partenaire Cloudera et Databricks, nous sommes aussi contributeurs de l’open source. Nous vous invitons à parcourir notre site et nos nombreuses publications techniques.
Responsabilités
- La collecte de métriques systèmes et applicatives
- L’alimentation d’un data warehouse distribué avec stockage colonne de type OLAP
- Le nettoyage, l’enrichissement, l’aggregation des flux de données
- L’analyse en temps réél en SQL
- La mise à disposition de tableaux de bords
- La mise en production de modèles de machine learning dans un cycle MLOps
- Le déploiement dans une infrastructure cloud Azure et on-premise
Profil recherché
- Ecole d’ingénieur, stage de fin d’études
- Analytique et structuré(e)
- Autonome et curieux(se)
- Vous êtes quelqu’un d’ouvert qui aime échanger, communiquer et apprendre des autres
- Bonnes connaissances en Python, Spark et en systèmes Linux
Vous serez en charge de concevoir l’architecture technique. Nous recherchons une personne qui maitrise ou qui montera en compétences sur les outils/solutions suivants :
Toutes expériences complémentaires sont des atouts.
Informations additionnelles
- Localisation : Boulogne Billancourt, France
- Langues : Français ou anglais
- Démarrage : février 2022
- Durée : 6 mois
- Télétravail : possibilité d’effectuer 2 jours par semaine en distanciel
Équipement à disposition
Un ordinateur portable avec les caractéristiques suivantes :
- 32GB RAM
- 1TB SSD
- 8c/16t CPU
Un cluster composé de :
- 3x 28c/56t Intel Xeon Scalable Gold 6132
- 3x 192TB RAM DDR4 ECC 2666MHz
- 3x 14 SSD 480GB SATA Intel S4500 6Gbps
Plateformes, composants, outils
Un cluster Kubernetes et un cluster Hadoop.
Rémunération
- Salaire 1 200 € / mois
- Tickets restaurants
- Titres de transport
- Participation à une conférence internationale
Historiquement, les conférences auxquelles nous avons participé incluent : la KubeCon organisée par la fondation CNCF, l’Open Source Summit de la Linux Foundation et la Fosdem.
Contact
Pour toute demande d’information complémentaire et pour déposer votre candidature, adressez-vous à David Worms :
- david@adaltas.com
- +33 6 76 88 72 13
- https://www.linkedin.com/in/david-worms/