Infrastructure
Because of its importance within a Big Data project, we help you define and implement the appropriate infrastructure that is compatible with your existing and anticipated IT environment.
Our skills cover key topics in design and architecture such as networking, monitoring, diagnostics and reporting, automated deployment, configuration and security. Our expertise extends to a multitude of technologies and distributions.
We have repeatedly secured with Kerberos distributions from Hortonworks, Cloudera and MapR, and have the experience of conducting workshops with several players in your organization to integrate Big Data platforms with technologies such as SSL, Active Directory, FreeIPA, MIT Kerberos, and OpenLDAP.
Articles related to IT infrastructure
Introduction Ć OpenLineage
Categories: Big Data, Gouvernance des donnƩes, Infrastructure | Tags: Data Engineering, Infrastructure, Atlas, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse), TraƧabilitƩ (data lineage)
OpenLineage est une spĆ©cification open source de lineage des donnĆ©es. La spĆ©cification est complĆ©tĆ©e par Marquez, son implĆ©mentation de rĆ©fĆ©rence. Depuis son lancement fin 2020, OpenLineage estā¦
Dec 19, 2023
Guide d'installation Ć TDP, la plateforme big data 100% open source
Categories: Big Data, Infrastructure | Tags: Infrastructure, VirtualBox, Hadoop, Vagrant, TDP
La Trunk Data Platforme (TDP) est une distribution big data 100% open source, basĆ©e sur Apache Hadoop et compatible avec HDP 3.1. InitiĆ©e en 2021 par EDF, la DGFiP et Adaltas, le projet est gouvernĆ©ā¦
By FARAULT Paul
Oct 18, 2023
CDP partie 3 : activation des Data Services en environnment CDP Public Cloud
Categories: Big Data, Cloud computing, Infrastructure | Tags: Infrastructure, AWS, Big Data, Cloudera, CDP
Lāun des principaux arguments de vente de Cloudera Data Platform (CDP) est la maturitĆ© de son offre de services. Ceux-ci sont faciles Ć dĆ©ployer sur site, dans le cloud public ou dans le cadre dāuneā¦
Jun 27, 2023
CDP partie 2 : dƩploiement d'un environnement CDP Public Cloud sur AWS
Categories: Big Data, Cloud computing, Infrastructure | Tags: Infrastructure, AWS, Big Data, Cloud, Cloudera, CDP, Cloudera Manager
La Cloudera Data Platform (CDP) Public Cloud constitue la base sur laquelle des lacs de donnĆ©es (Data Lake) complets sont crĆ©Ć©s. Dans un article prĆ©cĆ©dent, nous avons prĆ©sentĆ© la plateforme CDP. Cetā¦
Jun 19, 2023
CDP partie 1 : introduction Ć l'architecture Data Lakehouse avec CDP
Categories: Cloud computing, Data Engineering, Infrastructure | Tags: Data Engineering, Iceberg, AWS, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, EntrepƓt de donnƩes (Data Warehouse)
Cloudera Data Platform (CDP) est une data platform hybride pour lāintĆ©gration de donnĆ©e, le machine learning et lāanalyse de la data. Dans cette sĆ©rie dāarticles nous allons dĆ©crire comment installerā¦
By BAUM Stephan
Jun 8, 2023
Exigences et attentes d'une plateforme Big Data
Categories: Big Data, Infrastructure | Tags: Data Engineering, Gouvernance des donnƩes, Analyse de donnƩes, Data Hub, Data Lake, Lakehouse, Data Science
Une plateforme Big Data est un systĆØme complexe et sophistiquĆ© qui permet aux organisations de stocker, traiter et analyser de gros volumes de donnĆ©es provenant de diverses sources. Elle se compose deā¦
By WORMS David
Mar 23, 2023
DĆ©ploiement de Keycloak sur EC2
Categories: Cloud computing, Data Engineering, Infrastructure | Tags: EC2, sƩcuritƩ, Authentification, AWS, Docker, Keycloak, SSL/TLS, SSO
Pourquoi utiliser Keycloak Keycloak est un fournisseur dāidentitĆ© open source (IdP) utilisant lāauthentification unique SSO. Un IdP est un outil permettant de crĆ©er, de maintenir et de gĆ©rer lesā¦
By BAUM Stephan
Mar 14, 2023
Gestion de Kafka dans Kubernetes avec Strimzi
Categories: Big Data, Orchestration de conteneurs, Infrastructure | Tags: Kafka, Big Data, Kubernetes, Open source, Streaming
Kubernetes nāest pas la premiĆØre plateforme Ć laquelle on pense pour faire tourner des clusters Apache Kafka. En effet, la forte adhĆ©rence de Kafka au stockage pourrait ĆŖtre difficile Ć gĆ©rer parā¦
Mar 7, 2023
PlongƩe dans tdp-lib, le SDK en charge de la gestion de clusters TDP
Categories: Big Data, Infrastructure | Tags: Programmation, Ansible, Hadoop, Python, TDP
Tous les dĆ©ploiements TDP sont automatisĆ©s. Ansible y joue un rĆ“le central. Avec la complexitĆ© grandissante de notre base logicielle, un nouveau systĆØme Ć©tait nĆ©cessaire afin de sāaffranchir desā¦
Jan 24, 2023
Stage infrastructure big data
Categories: Big Data, Data Engineering, DevOps & SRE, Infrastructure | Tags: Infrastructure, Hadoop, Big Data, Cluster, Internship, Kubernetes, TDP
PrĆ©sentation de lāoffre Le Big Data et lāinformatique distribuĆ©e sont au cÅur dāAdaltas. Nous accompagnons nos partenaires dans le dĆ©ploiement, la maintenance, lāoptimisation et nouvellement leā¦
By BAUM Stephan
Dec 2, 2022
Traefik, Docker et dnsmasq pour simplifier la mise en rƩseau des conteneurs
Categories: Orchestration de conteneurs, Infrastructure, Tech Radar | Tags: DNS, Gatsby, JAMstack, Linux, Docker, RĆ©seau
Les bonnes aventures technologiques commencent par une certaine frustration, un besoin ou une exigence. Cāest lāhistoire de la faƧon dont jāai simplifiĆ© la gestion et lāaccĆØs de mes applications Webā¦
By WORMS David
Nov 17, 2022
WasmEdge : Les runtimes WebAssembly sont en routes pour l'edge computing
Categories: Orchestration de conteneurs, Adaltas Summit 2021, Infrastructure, Tech Radar | Tags: JAMstack, Linux, Docker, Rust Lang, WebAssembly
Avec de nombreux de nombreux dĆ©fis en matiĆØre de sĆ©curitĆ© rĆ©solus de par sa conception, beaucoup de projets bĆ©nĆ©ficient de lāutilisation du WebAssembly. Le runtime WasmEdge est une machine virtuelleā¦
Sep 29, 2022
Ingress et Load Balancers dans Kubernetes avec MetalLB et nginx-ingress
Categories: Orchestration de conteneurs, Infrastructure, Tech Radar | Tags: Ingress, Kubeadm, Cluster, DĆ©ploiement, Kubernetes
Lorsque lāon souhaite exposer des services depuis un cluster Kubernetes et les rendre accessibles depuis lāextĆ©rieur du cluster, la solution la plus adĆ©quate est dāutiliser des services de type loadā¦
Sep 8, 2022
IntƩgration de Spark et Hadoop dans Jupyter
Categories: Adaltas Summit 2021, Infrastructure, Tech Radar | Tags: Infrastructure, Jupyter, Spark, YARN, CDP, HDP, Notebook, TDP
Depuis quelques annĆ©es, Jupyter notebook sāimpose comme la principale solution de notebook dans lāunivers Python. Historiquement, Jupyter est lāoutil de prĆ©dilection des data scientists dĆ©veloppantā¦
Sep 1, 2022
DĆ©couvrez Trunk Data Platform : La Distribution Big Data Open-Source par TOSIT
Categories: Big Data, DevOps & SRE, Infrastructure | Tags: Ranger, DevOps, Hortonworks, Ansible, Hadoop, HBase, Knox, Spark, Cloudera, CDP, CDH, Open source, TDP
Depuis la fusion de Cloudera et Hortonworks, la sĆ©lection de distributions Hadoop commerciales on-prem se rĆ©duit Ć CDP Private Cloud. CDP est un mĆ©lange de CDH et de HDP conservant les meilleursā¦
Apr 14, 2022
La blockchain pour les nuls 2 : Crypto-monnaies, portefeuilles et DApps
Categories: Adaltas Summit 2021, Infrastructure | Tags: Cryptographie, Infrastructure, Blockchain, Consensus
Beaucoup de gens possĆØdent des crypto-monnaies aujourdāhui. Mais dĆ©tenir quelques tokens sur un Ć©change ne signifie pas interagir avec la blockchain. Les actifs que vous tradez ne sont que des nombresā¦
Apr 12, 2022
Apache HBase : colocation de RegionServers
Categories: Big Data, Adaltas Summit 2021, Infrastructure | Tags: Ambari, Base de donnƩes, Infrastructure, Performance, Hadoop, HBase, Big Data, HDP, Storage
Les RegionServers sont les processus gĆ©rant le stockage et la rĆ©cupĆ©ration des donnĆ©es dans Apache HBase, la base de donnĆ©es non-relationnelle orientĆ©e colonne de Apache Hadoop. Cāest Ć travers leursā¦
Feb 22, 2022
Installation fiable et reproductible de Linux avec NixOS
Categories: Infrastructure, Formation | Tags: Linux, Packaging, VM, NixOS, TDP
Lors de lāutilisation dāun systĆØme dāexploitation, la mise Ć jour ou lāinstallation de packages sont des opĆ©rations courantes qui prĆ©sentent un risque pour la stabilitĆ© du systĆØme. NixOS est uneā¦
Feb 8, 2022
Introduction Ć Nix, concepts fondateurs et principales commandes
Categories: Infrastructure, Formation | Tags: Arch Linux, CentOS, Linux, OS X, Packaging, Ubuntu, NixOS, TDP
Nix est un gestionnaire de packages fonctionnel pour Linux et dāautres systĆØmes Unix, rendant la gestion des packages plus fiable et reproductible. Avec un gestionnaire de packages traditionnel, lorsā¦
Feb 1, 2022
La blockchain pour les nuls 1 : blockchains et mƩcanismes de consensus
Categories: Adaltas Summit 2021, Infrastructure, Formation | Tags: Cryptographie, Infrastructure, Blockchain, Consensus
Les crypto-monnaies sont en plein essor en 2021, avec une capitalisation boursiĆØre passant de 750 Ć plus de 3 000 milliards de dollars. Soyons honnĆŖtes, cela est principalement dĆ» Ć la spĆ©culationā¦
Jan 18, 2022
Stage en infrastructure Big Data avec TDP
Categories: Infrastructure, Formation | Tags: CybersƩcuritƩ, DevOps, Java, Ansible, Hadoop, Internship, TDP
Le Big Data et lāinformatique distribuĆ©e sont au cÅur dāAdaltas. Nous accompagnons nos partenaires dans le dĆ©ploiement, la maintenance et lāoptimisation de certains des plus grands clusters de Franceā¦
By HARTY Daniel
Oct 25, 2021
DĆ©sacraliser le overlay filesystem de Linux dans Docker
Categories: Orchestration de conteneurs, Infrastructure | Tags: DevOps, SystĆØme de fichiers, Linux, Docker
Le overlay filesystem (Ć©galement appelĆ©s union filesystems) est une technologie fondamentale dans Docker pour crĆ©er des images et des conteneurs. Ils permettent de crĆ©er une union de rĆ©pertoires pourā¦
By WORMS David
Jun 3, 2021
Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin
Categories: Big Data, Infrastructure | Tags: Maven, Hadoop, HBase, Hive, Spark, Git, Versions et Ć©volutions, TDP, Tests unitaires
LāĆ©cosystĆØme Hadoop a donnĆ© naissance Ć de nombreux projets populaires tels que HBase, Spark et Hive. Bien que des technologies plus rĆ©centes commme Kubernetes et les stockages objets compatibles Sā¦
Dec 18, 2020
Reconstruction de Hive dans HDP : patch, test et build
Categories: Big Data, Infrastructure | Tags: Maven, GitHub, Java, Hive, Git, Versions et Ć©volutions, TDP, Tests unitaires
La distribution HDP dāHortonworks va bientĆ“t ĆŖtre dĆ©preciĆ©e a profit de la distribution CDP proposĆ©e par Cloudera. Un client nous a demandĆ© dāintĆ©grer dāune nouvelle feature de Apache Hive sur sonā¦
Oct 6, 2020
Installation d'Hadoop depuis le code source : build, patch et exƩcution
Categories: Big Data, Infrastructure | Tags: Maven, Java, LXD, Hadoop, HDFS, Docker, TDP, Tests unitaires
Les distributions commerciales dāApache Hadoop ont beaucoup Ć©voluĆ© ces derniĆØres annĆ©es. Les deux concurrents Cloudera et Hortonworks ont fusionnĆ©Ā : HDP ne sera plus maintenu et CDH devient CDP. HP aā¦
Aug 4, 2020
Configuration Ć distance et auto-indexage des pipelines Logstash
Categories: Data Engineering, Infrastructure | Tags: Docker, Elasticsearch, Kibana, Logstash, Log4j
Logstash est un puissant moteur de collecte de donnĆ©es qui sāintĆØgre dans la suite Elastic (Elasticsearch - Logstash - Kibana). Lāobjectif de cet article est de montrer comment dĆ©ployer un clusterā¦
Dec 13, 2019
Hadoop Ozone partie 3: StratƩgie de rƩplication avancƩe avec les Copyset
Categories: Infrastructure | Tags: HDFS, Ozone, Cluster, Kubernetes, Noeud
Hadoop Ozone propose de configurer le type de rĆ©plication Ć chaque Ć©criture effectuĆ© sur le cluster. Actuellement seules HDFS et Ratis sont disponibles mais des stratĆ©gies plus avancĆ©es sontā¦
Dec 3, 2019
Hadoop Ozone partie 2: tutorial et dƩmonstration des fonctionnalitƩs
Categories: Infrastructure | Tags: CLI, Enseignement et tutorial, REST, HDFS, Ozone, Amazon S3, Cluster
Les versions dāHadoop Ozone sont livrĆ©es avec des fichiers docker-compose trĆØs pratique pour tester Ozone. Les instructions ci-dessous apportent des dĆ©tails sur comment les utiliser. Il est aussiā¦
Dec 3, 2019
Hadoop Ozone partie 1: introduction du nouveau systĆØme de fichiers
Categories: Infrastructure | Tags: HDFS, Ozone, Cluster, Kubernetes
Hadoop Ozone est systĆØme de stockage dāobjet pour Hadooop. Il est conƧu pour supporter des milliards dāobjets de tailles diverses. Il est actuellement en dĆ©veloppement. La feuille de route estā¦
Dec 3, 2019
Multihoming avec Hadoop
Categories: Infrastructure | Tags: Hadoop, HDFS, Kerberos, RĆ©seau
Le multihoming, qui implique lāassociation de plusieurs rĆ©seaux Ć un nÅud, permet de gĆ©rer lāutilisation de rĆ©seaux hĆ©tĆ©rogĆØnes dans un cluster Hadoop. Cet article est une introduction au concept deā¦
Mar 5, 2019
Jumbo, le bootstrapper de clusters Hadoop
Categories: Infrastructure | Tags: Ambari, Automation, REST, Ansible, Cluster, Vagrant, HDP
PrĆ©sentation de Jumbo, un bootstrapper de cluster Hadoop pour les dĆ©veloppeurs. Jumbo vous aide Ć dĆ©ployer des environnements de dĆ©veloppement pour les technologies Big Data. Il suffit de quelquesā¦
Nov 29, 2018
Migration de cluster et de traitements entre Hadoop 2 et 3
Categories: Big Data, Infrastructure | Tags: Shiro, Erasure Coding, Rolling Upgrade, HDFS, Spark, YARN, Docker
La migration de Hadoop 2 vers Hadoop 3 est un sujet brĆ»lant. Comment mettre Ć niveau vos clusters, quelles fonctionnalitĆ©s prĆ©sentes dans la nouvelle version peuvent rĆ©soudre les problĆØmes actuels etā¦
Jul 25, 2018
Environnement de dƩveloppement CoreOS avec Vagrant et VirtualBox
Categories: Hack, Infrastructure | Tags: Arch Linux, CoreOS, Linux, VirtualBox, etcd, Vagrant
Suivre les instructions de CoreOS sur la faƧon de configurer un environnement de dĆ©veloppement dans VirtualBox nāa pas bien fonctionnĆ© pour moi. Voici les Ć©tapes que jāai suivies pour que Containerā¦
Jun 20, 2018
Orchestration de conteneurs chez Facebook avec Tupperware
Categories: Orchestration de conteneurs, Open Source Summit Europe 2017, Infrastructure | Tags: Btrfs, LXD, Red Hat, Systemd, Zookeeper, Cloud, Consensus
Dans cet article, je prĆ©senterai la solution dāorchestration de conteneurs mise en place par Facebook, appelĆ©e Tupperware. Quāest-ce que TupperwareĀ ? Tupperware est un framework fait maison Ć©crit etā¦
Nov 3, 2017
Personne* ne met Java dans un containeur
Categories: Orchestration de conteneurs, Open Source Summit Europe 2017, Infrastructure | Tags: cgroups, Java, JRE, JVM, Namespaces, Docker
Cette discussion porte sur les problĆØmes de mettre Java dans un conteneur et comment, dans sa derniĆØre version 9, le JDK est maintenant plus conscient du conteneur dans lequel il sāexĆ©cute. Laā¦
Oct 28, 2017
MariaDB integration with Hadoop
Categories: Infrastructure | Tags: Base de donnƩes, HA, MariaDB, Hadoop, Hive
Lors dāateliers menĆ©s avec lāun de nos clients, Adaltas a levĆ© un risque potentiel sur la stratĆ©gie utilisĆ©e pour la mise en haute disponibilitĆ© (HA) de MariaDB. Le client ayant sĆ©lectionnĆ© laā¦
By WORMS David
Jul 31, 2017
Exposition de brokers Kafka sur deux interfaces rƩseaux
Categories: Infrastructure | Tags: CybersƩcuritƩ, VLAN, Kafka, Cloudera, CDH, RƩseau
Une installation Big Data nĆ©cessite gĆ©nĆ©ralement dāavoir plusieurs interfaces rĆ©seaux, nous allons voir comment paramĆ©trer Kafka pour Ć©couter sur plus dāune. La procĆ©dure dĆ©crite dans cette article aā¦
Jul 22, 2017
MiNiFiĀ : ScalabilitĆ© de la donnĆ©e & de l'intĆ©rĆŖt de commencer petit
Categories: Big Data, DevOps & SRE, Infrastructure | Tags: MiNiFi, NiFi, C++, HDF, Cloudera, HDP, IOT
Aldrin nous a rapidement prĆ©sentĆ© Apache NiFi puis expliquĆ© dāoĆ¹ est venu MiNiFiĀ : un agent NiFi Ć dĆ©ployer sur un embarquĆ© afin dāamener la donnĆ©e Ć pipeline dāun cluster NiFi (exĀ : IoT). Ce posteā¦
Jul 8, 2017
Administration Hadoop multitenant avancƩe - protection de Zookeeper
Categories: Big Data, Infrastructure | Tags: DoS, iptables, Exploitation, Passage Ć l'Ć©chelle, Zookeeper, Clustering, Consensus
Zookeeper est un composant critique au fonctionnement dāHadoop en haute disponibilitĆ©. Ce dernier se protĆØge en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protĆØgeā¦
Jul 5, 2017
Supervision de clusters HDP
Categories: Big Data, DevOps & SRE, Infrastructure | Tags: Alert, Ambari, MĆ©triques, Supervision, REST, HDP
Avec la croissance actuelle des technologies BigData, de plus en plus dāentreprises construisent leurs propres clusters dans lāespoir de valoriser leurs donnĆ©es. Lāune des principales prĆ©occupationsā¦
Jul 5, 2017
ChefĀ : configuration et deploiement automatisĆ© de Clusters
Categories: DevOps & SRE, Infrastructure | Tags: Automation, Chef, Enseignement et tutorial, Puppet, Hadoop, DĆ©ploiement
Lāinstallation dāun cluster de plusieurs machines est consommateur de temps. La mĆŖme procĆ©dure de mise en place des logiciels et de leurs paramĆ©trages doit ĆŖtre rĆ©pĆ©tĆ©e Ć lāidentique. Au cours duā¦
By WORMS David
Dec 10, 2010