Guide d'installation à TDP, la plateforme big data 100% open source

Guide d'installation à TDP, la plateforme big data 100% open source

Vous appréciez notre travail......nous recrutons !

Ne ratez pas nos articles sur l'open source, le big data et les systèmes distribués, fréquence faible d’un email tous les deux mois.

La Trunk Data Platforme (TDP) est une distribution big data 100% open source, basée sur Apache Hadoop et compatible avec HDP 3.1. Initiée en 2021 par EDF, la DGFiP et Adaltas, le projet est gouverné par le TOSIT - une association de loi 1901 ayant pour objectif la promotion de l’open source auprès de grands comptes et institutions.

La version 1.1, qui sortira au 4ème trimestre 2023, ajoute notamment les fonctionnalités nécessaires à la gestion d’un cluster en production (voir #308). Des offres de support et de formation sont d’ores et déjà proposées par certaines ESN.

TDP s’adresse à toute personne souhaitant :

  • Créer sa plateforme de données (Data Lake, Data Hub, Data Warehouse, Data Science Platform, etc.).
  • Migrer sa solution actuelle vers une solution 100% open source (et gratuite).
  • Développer sur des services big data (HDFS, Hive, Spark, etc.).
  • Découvrir les technologies Hadoop.

Architecture

TDP peut être décomposé en 2 grandes parties :

  • Une stack, basée sur Apache Hadoop et compatible avec HDP 3.1.
  • Un manager de cluster, basé sur Ansible, permettant de déployer et de gérer un cluster TDP via une librairie, une API REST ou une interface graphique (voir tdp-lib, tdp-server et tdp-ui).

Architecture de TDP

Le projet a été conçu de manière modulaire. À la fois pour la stack et pour le manager. Il est ainsi possible d’ajouter des composants, de ne pas utiliser l’UI etc.

Essayer TDP

Adaltas, à travers son offre Alliage, propose du support et de l’expertise sur TDP. Vous trouverez sur son site la publication d’un guide permettant de déployer un cluster TDP localement, à l’aide de Vagrant et VirtualBox. Il a pour but de découvrir les fonctionnalités de la plateforme.

Ce guide permet de disposer d’un environnement de développement. Il ne s’applique pas à des déploiements de production dont la documentation est en cours de rédaction, voir PR #88.

Construire la Data Platform qui vous convient

Adaltas est une société de services spécialisée dans les technologies big data et open source. Nous sommes partenaires de Cloudera, Dremio et Databricks. Nos clients font confiance à nos consultants pour contribuer au développement de TDP.

Nous saurons ainsi vous accompagner dans la mise en place de votre plateforme de données, de la conception à la production. N’hésitez pas à nous contacter pour plus d’informations.

Partagez cet article

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain