Adaltas

OS Module on Steroids With the SIGAR Node Binding

Today we are announcing the first release of the Node binding to the SIGAR library. Visit the project website or the source code repository on GitHub.

SIGAR is a cross platform interface for gathering system information. From the project website, such information include:

  • System memory, swap, cpu, load average, uptime, logins
  • Per-process memory, cpu, credential info, state, arguments, environment, open files
  • File system detection and metrics
  • Network interface detection, configuration info and metrics
  • TCP and UDP connection tables
  • Network route table

Timeseries Storage in Hadoop and Hive

In the next few weeks, we will be exploring the storage and analytic of a large generated dataset. This dataset is composed of CRM tables associated to one timeserie table of about 7,000 billiard rows.

Before importing the dataset into Hive, we will be exploring different optimization options expected to impact speed and storage size.

How Node CSV Parser May Save Your Weekend

Last Friday, an hour before the doors of my customer close for the weekend, a co-worker came to me. He just finished to export 9 CSV files from Oracle which he wanted to import into Greenplum such as our customer could start testing on Monday morning.

The problem as exposed was quite simple. He needed a quick solution (less than an hour, coding included) to transform all the date in the source CSV file into a format suitable for Greenplum. While Oracle exported dates in the form of ‘DD/MM/YYYY’, Greenplum was picky enough to expect dates in the form of ‘YYYY-MM-DD’.

Node Intégré à La Plateforme Cloud Microsoft Azure

Node est désormais un citoyen de premier ordre dans l’environnement cloud de Microsoft Azure au côté de .Net, Java et PHP. Cette intégration est la conséquence logique de l’implication de Microsoft dans le développement de Node il y a maintenant un an. A l’origine seulement disponible sur les plateformes de type Unix (Linux, OSX, …), la version 5 de Node fut principalement consacré au portage sur Windows sans impacter les performances de la version Unix.

Chef : Configuration Et Deploiement Automatisé De Clusters

L’installation d’un cluster de plusieurs machines est consommateur de temps. La même procédure de mise en place des logiciels et de leurs paramétrages doit être répétées à l’identique. Au cours du temps, des mises à jours doivent être appliquées, certains logiciels doivent être supprimés quand d’autres sont ajoutés et au final, les systèmes divergent les uns des autres.

Pour répondre à ces problèmes, des logiciels gestion de configuration automatisent ces opérations. Un serveur s’installe et se paramètre en une seule commande en fonction des rôles qu’on souhaite lui alloué.

Finalement, avec Chef, la mise en place d’un système ce limite à 2 procédures:

  • Installer un système de base sans logiciels préinstallé, juste ssh
  • Lancer une commande indiquant l’adresse du serveur et ses rôles (par exemple “server, lamp”)

Installation Sous OSX en Mode Pseudo-distribué

Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels sont téléchargés depuis Internet, décompressés et paramétrés manuellement. Seuls quelques paquets sont installés par Macport mais ceux-ci sont aisément trouvables sur des outils équivalents comme Apt et Yum. Etant donné que les logiciels téléchargés sont en Java, il ne devrait pas y avoir de soucis quand à leur fonctionnement dans d’autres environnements.

Cette environnement est configuré en mode pseudo-distribué afin de simuler au mieux le comportement d’un cluster si un poste unique. Dans ce mode, chaque processus Java tourne dans sa propre JVM.

La procédure couvre l’installation des logiciels suivant:

Stockage Et Traitement Massif Avec Hadoop

Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyse adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés par un large éventail de projets R&D pour un nombre croissant d’acteurs du web (Yahoo!, EBay, Facebook, LinkedIn, Twitter) et leur taille ne cesse d’augmenter. Yahoo! regroupe 45000 machines dont le plus large cluster reuni 4000 serveurs et stocke 40 PB tandis que Facebook a rapporter stocker 20 PB sur un même cluster HDFS (pour Hadoop Distributed File System).

Node HBase, Client NodeJs Pour Apache HBase

HBase est la base de données de type “column familly” de l’écosystème Hadoop construit sur le modèle de Google BigTable. HBase peut accueillir de très larges volumes de données (de l’ordre du tera ou du peta) tout en maintenant une haute disponibilité et des temps de réponses rapides.

Adaltas a mis en ligne un client Node pour HBase qui utilise les webservices REST (aussi appelés Stargate) et le mode de transport JSON. L’intégration des services est complète et le code entièrement couvert par des tests unitaires.

Masson, Build Tool Pour NodeJS

Retrouvez Masson sur Github: http://github.com/wdavidw/node-masson

J’ai publié ces derniers jours plusieurs librairies pour Node. Je parlerai aujourd’hui de Masson, un projet similaire à Make, Ant ou encore Rake. Masson est donc un projet JavaScript pour l’environnement Node. Pour rappel, Node est basé sur le moteur V8 qui anime Google Chrome et fonctionnement de manière asynchronisé.

Présentation De MapReduce

Les systèmes d’information ont de plus en plus de données à stocker et à traiter. Des entreprises comme Google, Facebook, Twitter mais encore bien d’autre stockent des quantités d’information astronomiques en provenance de leurs clients et doivent être en mesure de les servir par les meilleurs recommandation tout en assurant la pérennité de leurs systèmes.

MapReduce est un moyen de modéliser un programme pour traiter de large volume de donnée. Par large, on entend massif, par exemple de l’ordre du petabytes. Orginallement créer par Google et décrit en détails dans la publication ”MapReduce: Simplified Data Processing on Large Clusters” publiée en 2004, une implémentation Open Source existe au travers d’Hadoop et de son écosystème de la fondation Apache.