Hortonworks Data Platform (HDP)
Créée en 2011 par Hortonworks, HDP (Hortonworks Data Platform) est une distribution basée sur Apache Hadoop. Elle permet de faciliter la gestion et la manipulation de masses de données en regroupant plusieurs composants au sein d'un même système. Parmi ces composants, on peut retrouver : HDFS, Hbase, Hive, Spark, YARN, Zookeeper et encore d'autres. Ainsi, HDP peut stocker, traiter, interroger et programmer des flux de données.
Étant basée sur Apache Hadoop, HDP bénéficie d'une architecture distribuée pour manipuler les données.
Depuis 2019 et la fusion de Hortonworks avec Cloudera, HDP a été inclus dans CDP (Cloudera Data Platform).
Articles associés
Intégration de Spark et Hadoop dans Jupyter
Catégories : Adaltas Summit 2021, Infrastructure, Tech Radar | Tags : Infrastructure, Jupyter, Spark, YARN, CDP, HDP, Notebook, TDP
Depuis quelques années, Jupyter notebook s’impose comme la principale solution de notebook dans l’univers Python. Historiquement, Jupyter est l’outil de prédilection des data scientists développant…
Par COINTEPAS Aargan
1 sept. 2022
Apache HBase : colocation de RegionServers
Catégories : Big Data, Adaltas Summit 2021, Infrastructure | Tags : Ambari, Base de données, Infrastructure, Performance, Hadoop, HBase, Big Data, HDP, Storage
Les RegionServers sont les processus gérant le stockage et la récupération des données dans Apache HBase, la base de données non-relationnelle orientée colonne de Apache Hadoop. C’est à travers leurs…
Par BERLAND Pierre
22 févr. 2022
Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin
Catégories : Big Data, Infrastructure | Tags : Maven, Hadoop, HBase, Hive, Spark, Git, Versions et évolutions, TDP, Tests unitaires
L’écosystème Hadoop a donné naissance à de nombreux projets populaires tels que HBase, Spark et Hive. Bien que des technologies plus récentes commme Kubernetes et les stockages objets compatibles S…
Par SCHOUKROUN Leo
18 déc. 2020
Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)
Catégories : Big Data, Cloud computing, Data Engineering | Tags : NiFi, Hadoop, HDFS, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), OAuth2
Alors que les projets Data construits sur le cloud deviennent de plus en plus répandus, un cas d’utilisation courant consiste à interagir avec le stockage cloud à partir d’une plateforme Big Data on…
Par LEONARD Gauthier
5 nov. 2020
Reconstruction de Hive dans HDP : patch, test et build
Catégories : Big Data, Infrastructure | Tags : Maven, GitHub, Java, Hive, Git, Versions et évolutions, TDP, Tests unitaires
La distribution HDP d’Hortonworks va bientôt être dépreciée a profit de la distribution CDP proposée par Cloudera. Un client nous a demandé d’intégrer d’une nouvelle feature de Apache Hive sur son…
Par SCHOUKROUN Leo
6 oct. 2020
Installation d'Hadoop depuis le code source : build, patch et exécution
Catégories : Big Data, Infrastructure | Tags : Maven, Java, LXD, Hadoop, HDFS, Docker, TDP, Tests unitaires
Les distributions commerciales d’Apache Hadoop ont beaucoup évolué ces dernières années. Les deux concurrents Cloudera et Hortonworks ont fusionné : HDP ne sera plus maintenu et CDH devient CDP. HP a…
Par SCHOUKROUN Leo
4 août 2020
Notes sur le nouveau modèle de licences Open Source de Cloudera
Catégories : Big Data | Tags : CDSW, Licence, Cloudera Manager, Open source
Suite à la publication de sa stratégie de licences Open Source le 10 juillet 2019 dans un article intitulé “notre engagement envers les logiciels Open Source”, Cloudera a diffusé un webinaire hier le…
Par WORMS David
25 oct. 2019
Jumbo, le bootstrapper de clusters Hadoop
Catégories : Infrastructure | Tags : Ambari, Automation, REST, Ansible, Cluster, Vagrant, HDP
Présentation de Jumbo, un bootstrapper de cluster Hadoop pour les développeurs. Jumbo vous aide à déployer des environnements de développement pour les technologies Big Data. Il suffit de quelques…
Par LEONARD Gauthier
29 nov. 2018
Prise de contrôle d'un cluster Hadoop avec Apache Ambari
Catégories : Big Data, DevOps & SRE, Adaltas Summit 2018 | Tags : Ambari, Automation, iptables, Nikita, REST, Systemd, Cluster, HDP, Kerberos, Noeud, Node.js
Nous avons récemment migré un large cluster Hadoop de production installé “manuellement” vers Apache Ambari. Nous avons nommé cette opération “Ambari Takeover”. C’est un processus à risque et nous…
Par SCHOUKROUN Leo
15 nov. 2018
Remède à l'aveuglement de Kafka
Catégories : Big Data | Tags : Ambari, Ranger, Hortonworks, HDF, JMX, UI, Kafka, HDP
Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt…
Par BAKALIAN Lucas
20 juin 2018
Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak
Catégories : Big Data, Cloud computing, DataWorks Summit 2018 | Tags : Cloudbreak, Exploitation, Hadoop, AWS, Azure, GCP, HDP, OpenStack
Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…
Par RUMMENS Joris
28 mai 2018
Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Catégories : Big Data, DataWorks Summit 2018 | Tags : REST, Hadoop, Hive, Oozie, Sqoop, CDH, HDP
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
Par SCHOUKROUN Leo
23 mai 2018
Ambari - Comment utiliser les blueprints
Catégories : Big Data, DevOps & SRE | Tags : Ambari, Ranger, Automation, DevOps, Exploitation, REST
En tant qu ’ingénieurs d’infrastructure chez Adaltas, nous déployons des clusters. Beaucoup de clusters. Généralement, nos clients choisissent d’utiliser une distribution telle que Hortonworks HDP ou…
Par RUMMENS Joris
17 janv. 2018
MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : MiNiFi, NiFi, C++, HDF, Cloudera, HDP, IOT
Aldrin nous a rapidement présenté Apache NiFi puis expliqué d’où est venu MiNiFi : un agent NiFi à déployer sur un embarqué afin d’amener la donnée à pipeline d’un cluster NiFi (ex : IoT). Ce poste…
Par BEREZOWSKI César
8 juil. 2017
Supervision de clusters HDP
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : Alert, Ambari, Métriques, Supervision, REST, HDP
Avec la croissance actuelle des technologies BigData, de plus en plus d’entreprises construisent leurs propres clusters dans l’espoir de valoriser leurs données. L’une des principales préoccupations…
Par RUMMENS Joris
5 juil. 2017