Big Data, Cloud, DevOps et container orchestration

Articles récents

Introduction à OpenLineage

Catégories : Big Data, Gouvernance des données, Infrastructure | Tags : Atlas, Data Engineering, Infrastructure, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Traçabilité (data lineage)

OpenLineage est une spécification open source de lineage des données. La spécification est complétée par Marquez, son implémentation de référence. Depuis son lancement fin 2020, OpenLineage est…

Par PARREIRA Christophe

19 déc. 2023

Guide d'installation à TDP, la plateforme big data 100% open source

Catégories : Big Data, Infrastructure | Tags : Infrastructure, VirtualBox, Hadoop, Vagrant, TDP

La Trunk Data Platforme (TDP) est une distribution big data 100% open source, basée sur Apache Hadoop et compatible avec HDP 3.1. Initiée en 2021 par EDF, la DGFiP et Adaltas, le projet est gouverné…

Par FARAULT Paul

18 oct. 2023

Lancement du site Internet de TDP

Catégories : Big Data | Tags : Programmation, Ansible, Hadoop, Python, TDP

Le nouveau site Internet de TDP (Trunk Data Platform) est en ligne. Nous vous invitons à le parcourir pour découvrir la platorme, rester informés, et cultiver le contact avec la communauté TDP. TDP…

Par WORMS David

3 oct. 2023

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

Catégories : Big Data, Data Engineering, Formation | Tags : NiFi, Business Intelligence, Data Engineering, Iceberg, Spark, Big Data, Cloudera, CDP, Analyse de données, Data Lake, Entrepôt de données (Data Warehouse)

Dans cet exercice pratique, nous montrons comment construire une solution big data complète avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur l’infrastructure qui a été déployée tout…

Par CHAVARRIA Tobias

24 juil. 2023

CDP partie 5 : gestion des permissions utilisateurs sur CDP

Catégories : Big Data, Cloud computing, Gouvernance des données | Tags : Ranger, Cloudera, CDP, Entrepôt de données (Data Warehouse)

Lorsqu’un utilisateur ou un groupe est créé dans CDP, des permissions doivent leur être attribuées pour accéder aux ressources et utiliser les Data Services. Cet article est le cinquième d’une série…

Par CHAVARRIA Tobias

18 juil. 2023

CDP partie 4 : gestion des utilisateurs sur CDP avec Keycloak

Catégories : Big Data, Cloud computing, Gouvernance des données | Tags : EC2, Big Data, CDP, Docker Compose, Keycloak, SSO

Les articles précédents de la série couvrent le déploiement d’un environnement CDP Public Cloud. Tous les composants sont prêts à être utilisés et il est temps de mettre l’environnement à la…

Par CHAVARRIA Tobias

4 juil. 2023

CDP partie 3 : activation des Data Services en environnment CDP Public Cloud

Catégories : Big Data, Cloud computing, Infrastructure | Tags : Infrastructure, AWS, Big Data, Cloudera, CDP

L’un des principaux arguments de vente de Cloudera Data Platform (CDP) est la maturité de son offre de services. Ceux-ci sont faciles à déployer sur site, dans le cloud public ou dans le cadre d’une…

Par KONRAD Albert

27 juin 2023

CDP partie 2 : déploiement d'un environnement CDP Public Cloud sur AWS

Catégories : Big Data, Cloud computing, Infrastructure | Tags : Infrastructure, AWS, Big Data, Cloud, Cloudera, CDP, Cloudera Manager

La Cloudera Data Platform (CDP) Public Cloud constitue la base sur laquelle des lacs de données (Data Lake) complets sont créés. Dans un article précédent, nous avons présenté la plateforme CDP. Cet…

Par KONRAD Albert

19 juin 2023

CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP

Catégories : Cloud computing, Data Engineering, Infrastructure | Tags : Data Engineering, Iceberg, AWS, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, Entrepôt de données (Data Warehouse)

Cloudera Data Platform (CDP) est une data platform hybride pour l’intégration de donnée, le machine learning et l’analyse de la data. Dans cette série d’articles nous allons décrire comment installer…

Par BAUM Stephan

8 juin 2023

Des environnements de développement locaux avec Terraform + LXD

Catégories : Orchestration de conteneurs, DevOps & SRE | Tags : Automation, DevOps, KVM, LXD, Virtualisation, VM, Terraform, Vagrant

En tant qu’architecte de solutions Big Data et InfraOps, j’ai besoin d’environnements de développement pour installer et tester des logiciels. Ils doivent être configurables, flexibles et performants…

Par LEONARD Gauthier

1 juin 2023

Exigences et attentes d'une plateforme Big Data

Catégories : Big Data, Infrastructure | Tags : Data Engineering, Gouvernance des données, Analyse de données, Data Hub, Data Lake, Lakehouse, Data Science

Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources. Elle se compose de…

Par WORMS David

23 mars 2023

Déploiement de Keycloak sur EC2

Catégories : Cloud computing, Data Engineering, Infrastructure | Tags : EC2, sécurité, Authentification, AWS, Docker, Keycloak, SSL/TLS, SSO

Pourquoi utiliser Keycloak Keycloak est un fournisseur d’identité open source (IdP) utilisant l’authentification unique SSO. Un IdP est un outil permettant de créer, de maintenir et de gérer les…

Par BAUM Stephan

14 mars 2023

Gestion de Kafka dans Kubernetes avec Strimzi

Catégories : Big Data, Orchestration de conteneurs, Infrastructure | Tags : Kafka, Big Data, Kubernetes, Open source, Streaming

Kubernetes n’est pas la première plateforme à laquelle on pense pour faire tourner des clusters Apache Kafka. En effet, la forte adhérence de Kafka au stockage pourrait être difficile à gérer par…

Par SCHOUKROUN Leo

7 mars 2023

Kubernetes : déboguer avec les conteneurs éphémères

Catégories : Orchestration de conteneurs, Tech Radar | Tags : Debug, Kubernetes

Tout individu ayant eu un jour à manipuler Kubernetes s’est retrouvé confronter à la résolution d’erreurs de pods. Les méthodes prévues à cet effet sont performantes, et permettent de venir à bout des…

Par BERLAND Pierre

7 févr. 2023

Plongée dans tdp-lib, le SDK en charge de la gestion de clusters TDP

Catégories : Big Data, Infrastructure | Tags : Programmation, Ansible, Hadoop, Python, TDP

Tous les déploiements TDP sont automatisés. Ansible y joue un rôle central. Avec la complexité grandissante de notre base logicielle, un nouveau système était nécessaire afin de s’affranchir des…

Par BOUTRY Guillaume

24 janv. 2023

Adaltas Summit 2022 Morzine

Catégories : Big Data, Adaltas Summit 2022 | Tags : Data Engineering, Infrastructure, Iceberg, Conteneur, Lakehouse, Docker, Kubernetes

Pour sa troisième édition, toute l’équipe d’Adaltas se retrouve à Morzine pour une semaine entière avec 2 jours dédiés à la technologie les 15 et 16 septembre 2022. Les intervenants choisissent l’un…

Par WORMS David

13 janv. 2023

Comment construire ses images OCI avec Buildpacks

Catégories : Orchestration de conteneurs, DevOps & SRE | Tags : CNCF, OCI, CI/CD, Docker, Kubernetes

Docker est désormais devenu un standard pour déployer son application. Dans une image Docker on place notre code source, ses dépendances, quelques configurations et notre application est quasiment…

Par CORDONNIER Paul-Adrien

9 janv. 2023

Stage infrastructure big data

Catégories : Big Data, Data Engineering, DevOps & SRE, Infrastructure | Tags : Infrastructure, Hadoop, Big Data, Cluster, Internship, Kubernetes, TDP

Présentation de l’offre Le Big Data et l’informatique distribuée sont au cœur d’Adaltas. Nous accompagnons nos partenaires dans le déploiement, la maintenance, l’optimisation et nouvellement le…

Par BAUM Stephan

2 déc. 2022

Consulter plus d'articles

Adaltas Une équipe talentueuse de consultants
spécialisés dans le Big Data

Adaltas est une équipe de consultants experts en Open Source, Big Data et systèmes distribués. Nous sommes présents en France, au Canada et au Maroc.

Nos partenaires

Articles récents

Introduction à OpenLineage

Guide d'installation à TDP, la plateforme big data 100% open source

Lancement du site Internet de TDP

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

CDP partie 5 : gestion des permissions utilisateurs sur CDP

CDP partie 4 : gestion des utilisateurs sur CDP avec Keycloak

CDP partie 3 : activation des Data Services en environnment CDP Public Cloud

CDP partie 2 : déploiement d'un environnement CDP Public Cloud sur AWS

CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP

Des environnements de développement locaux avec Terraform + LXD

Exigences et attentes d'une plateforme Big Data

Déploiement de Keycloak sur EC2

Gestion de Kafka dans Kubernetes avec Strimzi

Kubernetes : déboguer avec les conteneurs éphémères

Plongée dans tdp-lib, le SDK en charge de la gestion de clusters TDP

Adaltas Summit 2022 Morzine

Comment construire ses images OCI avec Buildpacks

Stage infrastructure big data

Adaltas Une équipe talentueuse de consultants spécialisés dans le Big Data

Adaltas est une équipe de consultants experts en Open Source, Big Data et systèmes distribués. Nous sommes présents en France, au Canada et au Maroc.

Nos partenaires

Articles récents

Adaltas Une équipe talentueuse de consultants
spécialisés dans le Big Data