Codalab pour les équipes Data Science
- Intervenant : Robert Walid SOARES
- Durée : 1h
- Format : démonstration
Présentation
CodaLab est un puissant framework open source pour l'organisation de compétitions impliquant la soumission de résultats ou de codes. Vous pouvez participer à un concours existant ou organiser un nouveau concours. L'objectif pour la R&D d'EDF est de pouvoir organiser des concours en interne sur des thèmes tels que le Machine Learning, le Deep Learning, sur la Data Science en général.
Codalab permet de soumettre des scripts via une interface web afin que ces derniers se lancent sur des machines de manière automatisée et que l'on puisse faire des comparaisons de performances entre les différents scripts. Organiser des compétitions en interne revitalise la vie du groupe, motive encore plus les membres de l'équipe en organisant des compétitions en équipe. Cela aiderait également à développer un bon esprit de compétition et inciterait, par exemple, les data scientists à écrire des codes de plus en plus performants.
Dans un premier temps, je parlerai de l'architecture présente au sein de la R&D d'EDF, puis expliquerai plus en détail les circonstances qui ont conduit à l'émergence de ce sujet. Je vous présenterai la technologie, ses avantages et ses inconvénients. Je vais vous expliquer la procédure à suivre pour installer avec succès le serveur codalab. Je présenterai également les difficultés auxquelles nous nous sommes confrontés lors de l'installation.
Auteur
Je suis Robert Walid SOARES, junior data engineer/data scientist, je commencerai à travailler chez Adaltas à partir de novembre 2018. Je viens d'être diplômé et j'ai effectué ma dernière année de formation en alternance au sein de la R&D d'EDF en tant que data engineer/data scientist. J'ai administré le cluster HDP présent à la R&D mais j'ai également réalisé des POC (Proof Of Concept) sur Apache NiFi et Apache Atlas.