Guide d'installation à TDP, la plateforme big data 100% open source
By FARAULT Paul
18 oct. 2023
Ne ratez pas nos articles sur l'open source, le big data et les systèmes distribués, fréquence faible d’un email tous les deux mois.
La Trunk Data Platforme (TDP) est une distribution big data 100% open source, basée sur Apache Hadoop et compatible avec HDP 3.1. Initiée en 2021 par EDF, la DGFiP et Adaltas, le projet est gouverné par le TOSIT - une association de loi 1901 ayant pour objectif la promotion de l’open source auprès de grands comptes et institutions.
La version 1.1, qui sortira au 4ème trimestre 2023, ajoute notamment les fonctionnalités nécessaires à la gestion d’un cluster en production (voir #308). Des offres de support et de formation sont d’ores et déjà proposées par certaines ESN.
TDP s’adresse à toute personne souhaitant :
- Créer sa plateforme de données (Data Lake, Data Hub, Data Warehouse, Data Science Platform, etc.).
- Migrer sa solution actuelle vers une solution 100% open source (et gratuite).
- Développer sur des services big data (HDFS, Hive, Spark, etc.).
- Découvrir les technologies Hadoop.
Architecture
TDP peut être décomposé en 2 grandes parties :
- Une stack, basée sur Apache Hadoop et compatible avec HDP 3.1.
- Un manager de cluster, basé sur Ansible, permettant de déployer et de gérer un cluster TDP via une librairie, une API REST ou une interface graphique (voir
tdp-lib
,tdp-server
ettdp-ui
).
Le projet a été conçu de manière modulaire. À la fois pour la stack et pour le manager. Il est ainsi possible d’ajouter des composants, de ne pas utiliser l’UI etc.
Essayer TDP
Adaltas, à travers son offre Alliage, propose du support et de l’expertise sur TDP. Vous trouverez sur son site la publication d’un guide permettant de déployer un cluster TDP localement, à l’aide de Vagrant et VirtualBox. Il a pour but de découvrir les fonctionnalités de la plateforme.
Ce guide permet de disposer d’un environnement de développement. Il ne s’applique pas à des déploiements de production dont la documentation est en cours de rédaction, voir PR #88.
Construire la Data Platform qui vous convient
Adaltas est une société de services spécialisée dans les technologies big data et open source. Nous sommes partenaires de Cloudera, Dremio et Databricks. Nos clients font confiance à nos consultants pour contribuer au développement de TDP.
Nous saurons ainsi vous accompagner dans la mise en place de votre plateforme de données, de la conception à la production. N’hésitez pas à nous contacter pour plus d’informations.