Articles publiés en 2018

Ambari - Comment utiliser les blueprints
Catégories : Big Data, DevOps & SRE | Tags : Ambari, Ranger, Automation, DevOps, Exploitation, CDH, HDP, IaC, PostgreSQL, REST
En tant qu’ingénieurs d’infrastructure chez Adaltas, nous déployons des clusters. Beaucoup de clusters. Généralement, nos clients choisissent d’utiliser une distribution telle que Hortonworks HDP ou…
Par RUMMENS Joris
17 janv. 2018

Executer du Python dans un workflow Oozie
Catégories : Data Engineering | Tags : Oozie, Elasticsearch, Python, REST
Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…
Par BEREZOWSKI César
6 mars 2018

Questions essentielles sur les base de données Time Series
Catégories : Big Data | Tags : Druid, HBase, Hive, ORC, Data Science, Elasticsearch, Grafana, IOT
Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…
Par WORMS David
18 mars 2018

Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Python, Streaming
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
Par BEREZOWSKI César
23 mai 2018

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Catégories : Big Data, DataWorks Summit 2018 | Tags : Hadoop, Hive, Oozie, Sqoop, CDH, HDP, Python, REST
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
Par SCHOUKROUN Leo
23 mai 2018

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Java, Pipeline, Flink, Spark, Traitement par lots, Python, Streaming, TCO
Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…
Par LEONARD Gauthier
24 mai 2018

Apache Metron dans le monde réel
Catégories : Cybersécurité, DataWorks Summit 2018 | Tags : Algorithme, NiFi, Solr, Storm, pcap, SGBDR, HDFS, Kafka, Metron, Spark, Data Science, Elasticsearch, SQL
Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…
Par HATOUM Michael
29 mai 2018

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes
Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, C++, CPU, GPU, Performance, Spark, YARN, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow
L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…
Par HATI Yliess
29 mai 2018

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix
Catégories : Big Data, DataWorks Summit 2018 | Tags : Omid, Phoenix, Transaction, ACID, HBase, SQL
Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…
Par HERMAND Xavier
24 mai 2018

YARN et le calcul distribué sur GPU pour le machine learning
Catégories : Data Science, DataWorks Summit 2018 | Tags : arXiv, GPU, MXNet, YARN, Docker, Grafana, Machine Learning, Réseau de neurones, Storage, TensorFlow
Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…
Par JOUET Grégor
30 mai 2018

Accélérer vos requêtes avec les vues matérialisées dans Apache Hive
Catégories : Business Intelligence, DataWorks Summit 2018 | Tags : Calcite, Druid, OLAP, Hive, Versions et évolutions, SQL
Jesus Camacho Rodriguez a organisé une présentation “Accelerating query processing with materialized views in Apache Hive” sur une nouvelle fonctionnalité à venir dans Apache Hive 3.0 : les vues…
31 mai 2018

Apache Hadoop YARN 3.0 - État de l'art
Catégories : Big Data, DataWorks Summit 2018 | Tags : GPU, Hortonworks, Hadoop, HDFS, MapReduce, YARN, Cloudera, Data Science, Docker, Versions et évolutions
Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…
Par BAKALIAN Lucas
31 mai 2018

Ingestion de Data Lake, quelques bonnes pratiques
Catégories : Big Data, Data Engineering | Tags : NiFi, Gouvernance des données, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, Schéma
La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…
Par WORMS David
18 juin 2018

Guide pour les dossiers chiffrés sur Keybase
Catégories : Cybersécurité, Hack | Tags : Cryptographie, Chiffrement, Système de fichiers, Keybase, PGP, Autorisation
Cet article est un guide sur l’utilisation des dossiers chiffrés de Keybase pour stocker et partager des fichiers. Keybase is un logiciel pour partager ses groupes, ses fichiers et ses messages. Son…
Par BUSSER Arthur
18 juin 2018

Environnement de développement CoreOS avec Vagrant et VirtualBox
Catégories : Hack, Infrastructure | Tags : Arch Linux, CoreOS, Linux, VirtualBox, Clustering, Consensus, etcd, Vagrant
Suivre les instructions de CoreOS sur la façon de configurer un environnement de développement dans VirtualBox n’a pas bien fonctionné pour moi. Voici les étapes que j’ai suivies pour que Container…
Par BUSSER Arthur
20 juin 2018

Remède à l'aveuglement de Kafka
Catégories : Big Data | Tags : Ambari, Ranger, Hortonworks, HDF, JMX, UI, Kafka, HDP
Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt…
Par BAKALIAN Lucas
20 juin 2018

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop
Catégories : Data Science | Tags : GPU, Hadoop, MXNet, Spark, Spark MLlib, YARN, Deep Learning, PyTorch, TensorFlow, XGBoost
Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…
Par BIANCHERIN Louis
24 juil. 2018

Migration de cluster et de traitements entre Hadoop 2 et 3
Catégories : Big Data, Infrastructure | Tags : Shiro, Erasure Coding, Exploitation, Rolling Upgrade, SLA, Hadoop, HBase, HDFS, Oozie, Spark, YARN, Docker, TCO
La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…
Par BAKALIAN Lucas
25 juil. 2018

Lando : résumé de conversation en Deep Learning
Catégories : Data Science, Formation | Tags : CockroachDB, FoundationDB, Micro Services, NATS, Open API, React.js, Speech to text, Swagger, Vue.js, Kafka, Deep Learning, GitLab, IaC, Internship, JWT, Kubernetes, Réseau de neurones, Node.js, Python
Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…
Par HATI Yliess
18 sept. 2018

Machines KVM pour Vagrant sur Archlinux
Catégories : DevOps & SRE | Tags : Arch Linux, KVM, Linux, Virtualisation, VM, Vagrant
Vagrant supporte différents providers pour gérer la virtualisation. Dans un environnement Linux, il est possible d’améliorer considérablement les performances des VMs en utilisant le provider libvirt…
Par LEONARD Gauthier
19 sept. 2018

Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak
Catégories : Big Data, Cloud computing, DataWorks Summit 2018 | Tags : Cloudbreak, Exploitation, Hadoop, AWS, Azure, GCP, HDP, OpenStack
Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…
Par RUMMENS Joris
28 mai 2018

Déploiement d'un cluster Flink sécurisé sur Kubernetes
Catégories : Big Data | Tags : Chiffrement, Flink, HDFS, Kafka, Elasticsearch, Kerberos, SSL/TLS
Le déploiement sécurisée d’une application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser…
Par WORMS David
8 oct. 2018

Nvidia et l'IA embarqué
Catégories : Data Science | Tags : Caffe, GPU, NVIDIA, IA, Deep Learning, Edge computing, Keras, PyTorch, TCO, TensorFlow
Depuis un peu plus de quatre ans, beaucoup de sociétés investissent dans l’intelligence artificielle et plus particulièrement dans le Deep Learning et le Edge Computing. Alors que la théorie avance à…
Par HATI Yliess
10 oct. 2018

Une semaine à discuter techno isolés dans un riad Marocain
Catégories : Adaltas Summit 2018, Formation | Tags : CDSW, Gatsby, React.js, Flink, Hadoop, Knox, Data Science, Deep Learning, Kubernetes, Node.js
Adaltas organise sa première conférence entre les 22 et 26 Octobre. Au programme de ces 5 jours de conférence : discuter de technologie dans l’un des plus beau riad de Marrakech. Mélanger l’utile à l…
Par WORMS David
11 oct. 2018

Apache Flink : passé, présent et futur
Catégories : Data Engineering | Tags : Consistance, Micro Services, Pipeline, Flink, Traitement par lots, Kubernetes, Livre de compte (ledger), Machine Learning, Scikit-learn, SQL, Storage, Streaming
Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…
Par BEREZOWSKI César
5 nov. 2018

Gestion des identités utilisateurs sur clusters Big Data
Catégories : Cybersécurité, Gouvernance des données | Tags : LDAP, Active Directory, Ansible, FreeIPA, IaC, IAM, Kerberos
La sécurisation d’un cluster Big Data implique l’intégration ou le déploiement de services spécifiques pour stocker les utilisateurs. Certains utilisateurs sont spécifiques à un cluster lorsque d…
Par WORMS David
8 nov. 2018

Prise de contrôle d'un cluster Hadoop avec Apache Ambari
Catégories : Big Data, DevOps & SRE, Adaltas Summit 2018 | Tags : Ambari, Automation, iptables, Nikita, Systemd, Cluster, HDP, IaC, Kerberos, Noeud, Node.js, REST, SCM
Nous avons récemment migré un large cluster Hadoop de production installé “manuellement” vers Apache Ambari. Nous avons nommé cette opération “Ambari Takeover”. C’est un processus à risque et nous…
Par SCHOUKROUN Leo
15 nov. 2018

Node.js CSV version 4 - réécriture et performances
Catégories : Node.js | Tags : CLI, Data Engineering, Refactoring, CSV, Versions et évolutions
Nous publions aujourd’hui une nouvelle version majeure du projet CSV Parser pour Node.js. La version 4 est une réécriture complète du projet axée sur la performance. Il comporte également de nouvelles…
Par WORMS David
19 nov. 2018

Les principaux avantages de GraphQL comme alternative au REST
Catégories : Front End | Tags : gRPC, API, GraphQL, JavaScript Object Notation (JSON), Node.js, Registre, REST
GraphQL est basé sur une idée simple, déplacer l’assemblage d’une requête du serveur vers le client. Ce dernier voit l’ensemble du schéma fortement typé au lieu d’une multitude de services REST et…
Par WORMS David
27 nov. 2018

Jumbo, le bootstrapper de clusters Hadoop
Catégories : Infrastructure | Tags : Ambari, Automation, Ansible, Cluster, Vagrant, HDP, IaC, Python, REST, SCM
Présentation de Jumbo, un bootstrapper de cluster Hadoop pour les développeurs. Jumbo vous aide à déployer des environnements de développement pour les technologies Big Data. Il suffit de quelques…
Par LEONARD Gauthier
29 nov. 2018

Microsoft annonce Cloud Native Application Bundles
Catégories : Orchestration de conteneurs | Tags : CLI, Helm, Packaging, Docker, Kubernetes
Lors de la DockerCon EU 2018 à Barcelone, Matt Butcher, ingénieur principal chez Microsoft et inventeur de Helm, a présenté CNAB, Cloud Native Application Bundles, un format de packaging pour…
Par BUSSER Arthur
4 déc. 2018

CodaLab - Concours de Data Science
Catégories : Data Science, Adaltas Summit 2018, Formation | Tags : Base de données, Infrastructure, Machine Learning, MySQL, Node.js, Python
CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…
17 déc. 2018

Surveillance d'un cluster Hadoop de production avec Kubernetes
Catégories : DevOps & SRE | Tags : Thrift, Shinken, Hadoop, Knox, Cluster, Docker, Elasticsearch, Grafana, Kubernetes, Noeud, Node.js, Prometheus, Python
La surveillance d’un cluster Hadoop de production est un vrai challenge et se doit d’être en constante évolution. Aujourd’hui, la solution que nous utilisons se base sur Nagios. Efficace en ce qui…
21 déc. 2018

Les modules natifs Node.js avec N-API
Catégories : Adaltas Summit 2018, Front End | Tags : C++, NPM, JavaScript, Kerberos, Node.js
Que sont les modules natifs pour Node.js et comment les créer ? Les addons C/C++ sont une fonctionnalité utile et puissante du runtime Node.js. Explorons-les depuis leurs fonctionnement, jusqu’à leur…
Par HERMAND Xavier
12 déc. 2018

LXD : la pièce manquante
Catégories : Orchestration de conteneurs | Tags : CPU, Linux, LXD, VM, Docker, Kubernetes
LXD signifie Linux Container Daemon. Il s’agit d’une technologie de conteneur. Mais LXD est très différent. Il se distingue du peloton. Ce n’est pas nécessairement mieux ni beaucoup plus rapide ni…
Par SAHNOUNI Tariq
28 déc. 2018