Articles publiés en 2023

Introduction à OpenLineage

Introduction à OpenLineage

Catégories : Big Data, Gouvernance des données, Infrastructure | Tags : Data Engineering, Infrastructure, Atlas, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse), Traçabilité (data lineage)

OpenLineage est une spécification open source de lineage des données. La spécification est complétée par Marquez, son implémentation de référence. Depuis son lancement fin 2020, OpenLineage est…

PARREIRA Christophe

Par PARREIRA Christophe

19 déc. 2023

Guide d'installation à TDP, la plateforme big data 100% open source

Guide d'installation à TDP, la plateforme big data 100% open source

Catégories : Big Data, Infrastructure | Tags : Infrastructure, VirtualBox, Hadoop, Vagrant, TDP

La Trunk Data Platforme (TDP) est une distribution big data 100% open source, basée sur Apache Hadoop et compatible avec HDP 3.1. Initiée en 2021 par EDF, la DGFiP et Adaltas, le projet est gouverné…

FARAULT Paul

Par FARAULT Paul

18 oct. 2023

Lancement du site Internet de TDP

Lancement du site Internet de TDP

Catégories : Big Data | Tags : Programmation, Ansible, Hadoop, Python, TDP

Le nouveau site Internet de TDP (Trunk Data Platform) est en ligne. Nous vous invitons à le parcourir pour découvrir la platorme, rester informés, et cultiver le contact avec la communauté TDP. TDP…

WORMS David

Par WORMS David

3 oct. 2023

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

Catégories : Big Data, Data Engineering, Formation | Tags : EC2, NiFi, Ranger, Business Intelligence, Data Engineering, Hive, Iceberg, Spark, Amazon S3, Big Data, Cloud, Cloudera, CDP, Analyse de données, Data Lake, Entrepôt de données (Data Warehouse)

Dans cet exercice pratique, nous montrons comment construire une solution big data complète avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur l’infrastructure qui a été déployée tout…

CHAVARRIA Tobias

Par CHAVARRIA Tobias

24 juil. 2023

CDP partie 5 : gestion des permissions utilisateurs sur CDP

CDP partie 5 : gestion des permissions utilisateurs sur CDP

Catégories : Big Data, Cloud computing, Gouvernance des données | Tags : Ranger, Cloudera, CDP, Entrepôt de données (Data Warehouse)

Lorsqu’un utilisateur ou un groupe est créé dans CDP, des permissions doivent leur être attribuées pour accéder aux ressources et utiliser les Data Services. Cet article est le cinquième d’une série…

CHAVARRIA Tobias

Par CHAVARRIA Tobias

18 juil. 2023

CDP partie 4 : gestion des utilisateurs sur CDP avec Keycloak

CDP partie 4 : gestion des utilisateurs sur CDP avec Keycloak

Catégories : Big Data, Cloud computing, Gouvernance des données | Tags : EC2, Big Data, CDP, Docker Compose, Keycloak, SSO

Les articles précédents de la série couvrent le déploiement d’un environnement CDP Public Cloud. Tous les composants sont prêts à être utilisés et il est temps de mettre l’environnement à la…

CHAVARRIA Tobias

Par CHAVARRIA Tobias

4 juil. 2023

CDP partie 3 : activation des Data Services en environnment CDP Public Cloud

CDP partie 3 : activation des Data Services en environnment CDP Public Cloud

Catégories : Big Data, Cloud computing, Infrastructure | Tags : Infrastructure, AWS, Big Data, Cloudera, CDP

L’un des principaux arguments de vente de Cloudera Data Platform (CDP) est la maturité de son offre de services. Ceux-ci sont faciles à déployer sur site, dans le cloud public ou dans le cadre d’une…

KONRAD Albert

Par KONRAD Albert

27 juin 2023

CDP partie 2 : déploiement d'un environnement CDP Public Cloud sur AWS

CDP partie 2 : déploiement d'un environnement CDP Public Cloud sur AWS

Catégories : Big Data, Cloud computing, Infrastructure | Tags : Infrastructure, AWS, Big Data, Cloud, Cloudera, CDP, Cloudera Manager

La Cloudera Data Platform (CDP) Public Cloud constitue la base sur laquelle des lacs de données (Data Lake) complets sont créés. Dans un article précédent, nous avons présenté la plateforme CDP. Cet…

KONRAD Albert

Par KONRAD Albert

19 juin 2023

CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP

CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP

Catégories : Cloud computing, Data Engineering, Infrastructure | Tags : EC2, CLI, Hue, Data Engineering, Hortonworks, Orchestration de conteneurs, Iceberg, AWS, Amazon S3, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, Analyse de données, Entrepôt de données (Data Warehouse), Déploiement, Keycloak

Cloudera Data Platform (CDP) est une data platform hybride pour l’intégration de donnée, le machine learning et l’analyse de la data. Dans cette série d’articles nous allons décrire comment installer…

BAUM Stephan

Par BAUM Stephan

8 juin 2023

Des environnements de développement locaux avec Terraform + LXD

Des environnements de développement locaux avec Terraform + LXD

Catégories : Orchestration de conteneurs, DevOps & SRE | Tags : Automation, DevOps, KVM, LXD, Virtualisation, VM, Terraform, Vagrant

En tant qu’architecte de solutions Big Data et InfraOps, j’ai besoin d’environnements de développement pour installer et tester des logiciels. Ils doivent être configurables, flexibles et performants…

LEONARD Gauthier

Par LEONARD Gauthier

1 juin 2023

Exigences et attentes d'une plateforme Big Data

Exigences et attentes d'une plateforme Big Data

Catégories : Big Data, Infrastructure | Tags : Data Engineering, Gouvernance des données, Iceberg, AWS, Azure, Cloudera, Analyse de données, Data Hub, Data Lake, Lakehouse, Data Science, Databricks, Format de fichier, GCP

Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources. Elle se compose de…

WORMS David

Par WORMS David

23 mars 2023

Déploiement de Keycloak sur EC2

Déploiement de Keycloak sur EC2

Catégories : Cloud computing, Data Engineering, Infrastructure | Tags : EC2, sécurité, SSH, Authentification, AWS, Cloudera, CDP, Docker, Keycloak, SSL/TLS, SSO

Pourquoi utiliser Keycloak Keycloak est un fournisseur d’identité open source (IdP) utilisant l’authentification unique SSO. Un IdP est un outil permettant de créer, de maintenir et de gérer les…

BAUM Stephan

Par BAUM Stephan

14 mars 2023

Gestion de Kafka dans Kubernetes avec Strimzi

Gestion de Kafka dans Kubernetes avec Strimzi

Catégories : Big Data, Orchestration de conteneurs, Infrastructure | Tags : Kafka, Big Data, Kubernetes, Open source, Streaming

Kubernetes n’est pas la première plateforme à laquelle on pense pour faire tourner des clusters Apache Kafka. En effet, la forte adhérence de Kafka au stockage pourrait être difficile à gérer par…

SCHOUKROUN Leo

Par SCHOUKROUN Leo

7 mars 2023

Kubernetes : déboguer avec les conteneurs éphémères

Kubernetes : déboguer avec les conteneurs éphémères

Catégories : Orchestration de conteneurs, Tech Radar | Tags : cgroups, Debug, Infrastructure, Linux, Docker, Kubernetes, PostgreSQL

Tout individu ayant eu un jour à manipuler Kubernetes s’est retrouvé confronter à la résolution d’erreurs de pods. Les méthodes prévues à cet effet sont performantes, et permettent de venir à bout des…

BERLAND Pierre

Par BERLAND Pierre

7 févr. 2023

Plongée dans tdp-lib, le SDK en charge de la gestion de clusters TDP

Plongée dans tdp-lib, le SDK en charge de la gestion de clusters TDP

Catégories : Big Data, Infrastructure | Tags : Programmation, Ansible, Hadoop, Python, TDP

Tous les déploiements TDP sont automatisés. Ansible y joue un rôle central. Avec la complexité grandissante de notre base logicielle, un nouveau système était nécessaire afin de s’affranchir des…

BOUTRY Guillaume

Par BOUTRY Guillaume

24 janv. 2023

Adaltas Summit 2022 Morzine

Adaltas Summit 2022 Morzine

Catégories : Big Data, Adaltas Summit 2022 | Tags : Data Engineering, Infrastructure, Iceberg, Conteneur, Lakehouse, Docker, Kubernetes

Pour sa troisième édition, toute l’équipe d’Adaltas se retrouve à Morzine pour une semaine entière avec 2 jours dédiés à la technologie les 15 et 16 septembre 2022. Les intervenants choisissent l’un…

WORMS David

Par WORMS David

13 janv. 2023

Comment construire ses images OCI avec Buildpacks

Comment construire ses images OCI avec Buildpacks

Catégories : Orchestration de conteneurs, DevOps & SRE | Tags : CI/CD, CNCF, Docker, Kubernetes, OCI

Docker est désormais devenu un standard pour déployer son application. Dans une image Docker on place notre code source, ses dépendances, quelques configurations et notre application est quasiment…

CORDONNIER Paul-Adrien

Par CORDONNIER Paul-Adrien

9 janv. 2023

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain