Stockage et traitement massif avec Hadoop

Stockage et traitement massif avec Hadoop

WORMS David

By WORMS David

26 nov. 2010

Catégories
Big Data
Tags
Hadoop
HDFS
Storage
[plus]
Vous appréciez notre travail......nous recrutons !

Ne ratez pas nos articles sur l'open source, le big data et les systèmes distribués, fréquence faible d’un email tous les deux mois.

Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés par un large éventail de projets R&D pour un nombre croissant d’acteurs du web (Yahoo!, EBay, Facebook, LinkedIn, Twitter) et leur taille ne cesse d’augmenter. Yahoo! regroupe 45000 machines dont le plus large cluster réunit 4000 serveurs et stocke 40 PB tandis que Facebook a rapporté stocker 20 PB sur un même cluster HDFS (pour Hadoop Distributed File System).

Les dotcoms furent les premières sociétés à voir leur volume de données croître exponentiellement. Beaucoup ont fondé leur modèle économique sur le traitement de ces données. Autant Google que Facebook tirent l’essentiel de leur revenu de l’analyse de données à des fins publicitaires. Ne pouvant attendre les éditeurs traditionnels, ces sociétés ont lourdement investi dans le développement de nouveaux logiciels pour faire face à cette explosion tout en exploitant de nouveaux concepts. Aujourd’hui, grâce au modèle de l’Open Source, ces technologies sont présentes dans un grand nombre d’industries et deviennent un composant clé de plusieurs sociétés et services gouvernementaux.

Hadoop, l’implémentation Open Source de l’infrastructure Google, fait suite à la publication par Google de deux documents. Le premier, publié en 2003, décrit l’architecture de GFS (pour Google Distributed Filesystem). Le second, publié en 2004, introduit le paradigme Map-Reduce. A cette époque, Doug Cutting, aujourd’hui chez Cloudera, travaillait sur Nutch, un logiciel Open Source de la fondation Apache incluant un aspirateur Internet et un moteur de recherche. Les besoins en stockage et capacité de calcul de Nutch ont conduit à l’implémentation des travaux de Google en ce qui deviendra Hadoop.

Partagez cet article

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain