Infrastructure
Parce qu’elle est vitale dans les projets Big Data, nous vous aidons à développer et à mettre en œuvre l’infrastructure de données appropriée et compatible avec votre environnement informatique existant.
Nos compétences couvrent les étapes clés du design et de l’architecture tels que le réseau, la surveillance, le diagnostic et le reporting, en passant par le déploiement automatisé, la configuration et la sécurisation. Notre expertise s’étend sur une multitude de technologies et de distributions Big Data.
Nous avons à de multiples reprises sécurisé avec Kerberos les distributions d’Hortonworks, de Cloudera et de MapR et avons l’expérience de mener des ateliers réunissant plusieurs acteurs de votre organisation en vue d’intégrer les plateformes Big Data avec des technologies comme SSL, l’Active Directory, FreeIPA, MIT Kerberos et OpenLDAP.
Articles associés à l'infrastructure
Hadoop Ozone partie 3: Stratégie de réplication avancée avec les Copyset
Catégories : Infrastructure | Tags : HDFS, Kubernetes, Ozone
Hadoop Ozone propose de configurer le type de réplication à chaque écriture effectué sur le cluster. Actuellement seules HDFS et Ratis sont disponibles mais des stratégies plus avancées sont…
3 déc. 2019
Hadoop Ozone partie 2: tutorial et démonstration des fonctionnalités
Catégories : Infrastructure | Tags : HDFS, CLI, Enseignement et tutorial, REST, Ozone, Amazon S3
Les versions d’Hadoop Ozone sont livrées avec des fichiers docker-compose très pratique pour tester Ozone. Les instructions ci-dessous apportent des détails sur comment les utiliser. Il est aussi…
3 déc. 2019
Hadoop Ozone partie 1: introduction du nouveau système de fichiers
Catégories : Infrastructure | Tags : HDFS, Kubernetes, Ozone
Hadoop Ozone est système de stockage d’objet pour Hadooop. Il est conçu pour supporter des milliards d’objets de tailles diverses. Il est actuellement en développement. La feuille de route est…
3 déc. 2019
Multihoming avec Hadoop
Catégories : Infrastructure | Tags : HDFS, Kerberos, Réseau, Hadoop
Le multihoming, qui implique l’association de plusieurs réseaux à un nœud, permet de gérer l’utilisation de réseaux hétérogènes dans un cluster Hadoop. Cet article est une introduction au concept de…
5 mars 2019
Jumbo, le bootstrapper de clusters Hadoop
Catégories : Infrastructure | Tags : Ansible, Ambari, Automation, HDP, REST, Vagrant
Présentation de Jumbo, un bootstrapper de cluster Hadoop pour les développeurs. Jumbo vous aide à déployer des environnements de développement pour les technologies Big Data. Il suffit de quelques…
29 nov. 2018
Migration de cluster et de traitements entre Hadoop 2 et 3
Catégories : Big Data, Infrastructure | Tags : HDFS, Shiro, Spark, YARN, Docker, Erasure Coding, Rolling Upgrade
La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…
25 juil. 2018
Environnement de développement CoreOS avec Vagrant et VirtualBox
Catégories : Hack, Infrastructure | Tags : Arch Linux, Partitionnement, CoreOS, etcd, Linux, Vagrant, VirtualBox
Suivre les instructions de CoreOS sur la façon de configurer un environnement de développement dans VirtualBox n’a pas bien fonctionné pour moi. Voici les étapes que j’ai suivies pour que Container…
20 juin 2018
Orchestration de conteneurs chez Facebook avec Tupperware
Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017, Infrastructure | Tags : Zookeeper, Btrfs, Cloud, LXD, Red Hat, Systemd
Dans cet article, je présenterai la solution d’orchestration de conteneurs mise en place par Facebook, appelée Tupperware. Qu’est-ce que Tupperware ? Tupperware est un framework fait maison écrit et…
3 nov. 2017
Personne* ne met Java dans un containeur
Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017, Infrastructure | Tags : cgroups, Docker, Java, JRE, JVM, Namespaces
Cette discussion porte sur les problèmes de mettre Java dans un conteneur et comment, dans sa dernière version 9, le JDK est maintenant plus conscient du conteneur dans lequel il s’exécute. La…
28 oct. 2017
MariaDB integration with Hadoop
Catégories : Infrastructure | Tags : Hive, Base de données, HA, MariaDB, Hadoop
Lors d’ateliers menés avec l’un de nos clients, Adaltas a levé un risque potentiel sur la stratégie utilisée pour la mise en haute disponibilité (HA) de MariaDB. Le client ayant sélectionné la…
By WORMS David
31 juil. 2017
Exposition de brokers Kafka sur deux interfaces réseaux
Catégories : Infrastructure | Tags : Kafka, Cloudera, CDH, Cybersécurité, Réseau, VLAN
Une installation Big Data nécessite généralement d’avoir plusieurs interfaces réseaux, nous allons voir comment paramétrer Kafka pour écouter sur plus d’une. La procédure décrite dans cette article a…
22 juil. 2017
MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : MiNiFi, NiFi, Cloudera, C++, HDP, HDF, IOT
Aldrin nous a rapidement présenté Apache NiFi puis expliqué d’où est venu MiNiFi : un agent NiFi à déployer sur un embarqué afin d’amener la donnée à pipeline d’un cluster NiFi (ex : IoT). Ce poste…
8 juil. 2017
Administration Hadoop multitenant avancée - protection de Zookeeper
Catégories : Big Data, Infrastructure | Tags : Zookeeper, Partitionnement, DoS, iptables, Exploitation, Passage à l'échelle
Zookeeper est un composant critique au fonctionnement d’Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège…
5 juil. 2017
Supervision de clusters HDP
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : Alert, Ambari, HDP, Métriques, Supervision, REST
Avec la croissance actuelle des technologies BigData, de plus en plus d’entreprises construisent leurs propres clusters dans l’espoir de valoriser leurs données. L’une des principales préoccupations…
5 juil. 2017
Chef : configuration et deploiement automatisé de Clusters
Catégories : DevOps & SRE, Infrastructure | Tags : Automation, Chef, Déploiement, Enseignement et tutorial, Puppet, Hadoop
L’installation d’un cluster de plusieurs machines est consommateur de temps. La même procédure de mise en place des logiciels et de leurs paramétrages doit être répétée à l’identique. Au cours du…
By WORMS David
10 déc. 2010