Apache HBase
HBase est une base de données NoSQL orientée colonne qui fait partie de l’écosystème Hadoop. C’est une base distribuée open source spécialisée dans le stockage de données volumineuses qui offre des accès avec une faible latence et une forte concurrence. Le stockage est optmisé pour donner accès aux valeurs au travers d'une clé. Les clés sont ordonnées ce qui permet d'effectuer des requêtes d'une clé vers une autre (Range Query). Les données sont écrites dans HDFS, ce qui assure la réplication. Une base HBase est composée d’un master et de workers, selon le même principe que Hadoop. Chaque worker de HBase possède un seul HRegionServer par lequel transit les données. C’est le HRegionServer qui va gérer le stockage des données au sein d’une seule machine. Les données stockées dans HBase sont encapsulées dans des HRegions qui correspondent à un set de fichiers provenant d’une même table (les HFile). Ces HRegions sont gérées par les HRegionServer. Chaque machine peut posséder une ou plusieurs HRegions.
- En savoir plus
- Site officiel
Articles associés
Découvrez Trunk Data Platform : La Distribution Big Data Open-Source par TOSIT
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : Ranger, DevOps, Hortonworks, Ansible, Hadoop, HBase, Knox, Spark, Cloudera, CDP, CDH, Open source, TDP
Depuis la fusion de Cloudera et Hortonworks, la sélection de distributions Hadoop commerciales on-prem se réduit à CDP Private Cloud. CDP est un mélange de CDH et de HDP conservant les meilleurs…
Par SCHOUKROUN Leo
14 avr. 2022
Apache HBase : colocation de RegionServers
Catégories : Big Data, Adaltas Summit 2021, Infrastructure | Tags : Ambari, Base de données, Infrastructure, Performance, Hadoop, HBase, Big Data, HDP, Storage
Les RegionServers sont les processus gérant le stockage et la récupération des données dans Apache HBase, la base de données non-relationnelle orientée colonne de Apache Hadoop. C’est à travers leurs…
Par BERLAND Pierre
22 févr. 2022
Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin
Catégories : Big Data, Infrastructure | Tags : Maven, Hadoop, HBase, Hive, Spark, Git, Versions et évolutions, TDP, Tests unitaires
L’écosystème Hadoop a donné naissance à de nombreux projets populaires tels que HBase, Spark et Hive. Bien que des technologies plus récentes commme Kubernetes et les stockages objets compatibles S…
Par SCHOUKROUN Leo
18 déc. 2020
Stage Data Science & Data Engineer - ML en production et ingestion streaming
Catégories : Data Engineering, Data Science | Tags : DevOps, Flink, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python
Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…
Par WORMS David
26 nov. 2019
Migration de cluster et de traitements entre Hadoop 2 et 3
Catégories : Big Data, Infrastructure | Tags : Shiro, Erasure Coding, Rolling Upgrade, HDFS, Spark, YARN, Docker
La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…
Par BAKALIAN Lucas
25 juil. 2018
Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix
Catégories : Big Data, DataWorks Summit 2018 | Tags : Omid, Phoenix, Transaction, ACID, HBase, SQL
Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…
Par HERMAND Xavier
24 mai 2018
Questions essentielles sur les base de données Time Series
Catégories : Big Data | Tags : Druid, Grafana, HBase, Hive, ORC, Data Science, Elasticsearch, IOT
Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…
Par WORMS David
18 mars 2018
Stockage HDFS et Hive - comparaison des formats de fichiers et compressions
Catégories : Data Engineering | Tags : Business Intelligence, Hive, ORC, Parquet, Format de fichier
Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…
Par WORMS David
13 mars 2012
Deux Hive UDAF pour convertir une aggregation vers une map
Catégories : Data Engineering | Tags : Java, HBase, Hive, Format de fichier
Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…
Par WORMS David
6 mars 2012
Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribué
Catégories : Big Data, Formation | Tags : Hue, Infrastructure, Hadoop, HBase, Big Data, Déploiement
Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels est téléchargé depuis Internet, décompressé et paramétré…
Par WORMS David
1 déc. 2010
Stockage et traitement massif avec Hadoop
Catégories : Big Data, Node.js | Tags : REST, HBase, Big Data, Node.js
HBase est la base de données de type “column familly” de l’écosystème Hadoop construite sur le modèle de Google BigTable. HBase peut accueillir de très larges volumes de données (de l’ordre du tera ou…
Par WORMS David
1 nov. 2010