Stockage et traitement massif avec Hadoop
By WORMS David
26 nov. 2010
Ne ratez pas nos articles sur l'open source, le big data et les systèmes distribués, fréquence faible d’un email tous les deux mois.
Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés par un large éventail de projets R&D pour un nombre croissant d’acteurs du web (Yahoo!, EBay, Facebook, LinkedIn, Twitter) et leur taille ne cesse d’augmenter. Yahoo! regroupe 45000 machines dont le plus large cluster réunit 4000 serveurs et stocke 40 PB tandis que Facebook a rapporté stocker 20 PB sur un même cluster HDFS (pour Hadoop Distributed File System).
Les dotcoms furent les premières sociétés à voir leur volume de données croître exponentiellement. Beaucoup ont fondé leur modèle économique sur le traitement de ces données. Autant Google que Facebook tirent l’essentiel de leur revenu de l’analyse de données à des fins publicitaires. Ne pouvant attendre les éditeurs traditionnels, ces sociétés ont lourdement investi dans le développement de nouveaux logiciels pour faire face à cette explosion tout en exploitant de nouveaux concepts. Aujourd’hui, grâce au modèle de l’Open Source, ces technologies sont présentes dans un grand nombre d’industries et deviennent un composant clé de plusieurs sociétés et services gouvernementaux.
Hadoop, l’implémentation Open Source de l’infrastructure Google, fait suite à la publication par Google de deux documents. Le premier, publié en 2003, décrit l’architecture de GFS (pour Google Distributed Filesystem). Le second, publié en 2004, introduit le paradigme Map-Reduce. A cette époque, Doug Cutting, aujourd’hui chez Cloudera, travaillait sur Nutch, un logiciel Open Source de la fondation Apache incluant un aspirateur Internet et un moteur de recherche. Les besoins en stockage et capacité de calcul de Nutch ont conduit à l’implémentation des travaux de Google en ce qui deviendra Hadoop.