Big Data

Data, and the insight it offers, are essential for businesses to innovate and differentiate. Coming from a variety of sources, from inside the firewall out to the edge, the growth of data in terms of volume, variety, and speed leads to innovative approaches. Today, data lakes and data hub architectures allow organizations to accumulate huge reservoirs of information for future analysis. At the same time, the Cloud provides easy access to technologies to those who do not have the necessary infrastructure and Artificial Intelligence promises to proactively simplify management.

With Big Data technologies, Business Intelligence is entering a new era. Hadoop and the likes, NoSQL databases, and cloud-managed infrastructures store and represent structured and unstructured data and time series such as logs and sensors. From collect to visualization, the whole processing chain operates in batch and real-time.

Big Data

Infrastructure

Cloud, on-premise, and hybrid environments:

  • Integration with the information system
  • Automated deployments
  • End-to-end security
  • Management in multi-tenant environments
  • Clusters operations, disaster recovery
  • Level 3 support

Data management

Governance and data provisioning:

  • Big Data and Data Lake architecture
  • Modeling and application architecture
  • Low latency and high throughput use cases
  • Batch and streaming data sourcing and ingestion pipelines
  • Data cleaning and enrichment
  • Data quality control and enforcement

Data intelligence

Collaboration with business units to serve projects needs:

  • Restitution et visualisation de donnĆ©es
  • Distributed traitement Optimisation des flux et des traitements distribuĆ©s
  • Ad hoc queries and data mining
  • Machine Learning models and custom algorithms elaboration
  • DevOps, SRE et MLOps

Articles related to Big Data

Introduction Ć  OpenLineage

Introduction Ć  OpenLineage

Categories: Big Data, Gouvernance des donnƩes, Infrastructure | Tags: Atlas, Data Engineering, Infrastructure, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse), TraƧabilitƩ (data lineage)

OpenLineage est une spĆ©cification open source de lineage des donnĆ©es. La spĆ©cification est complĆ©tĆ©e par Marquez, son implĆ©mentation de rĆ©fĆ©rence. Depuis son lancement fin 2020, OpenLineage estā€¦

PARREIRA Christophe

By PARREIRA Christophe

Dec 19, 2023

Guide d'installation Ć  TDP, la plateforme big data 100% open source

Guide d'installation Ć  TDP, la plateforme big data 100% open source

Categories: Big Data, Infrastructure | Tags: Infrastructure, VirtualBox, Hadoop, Vagrant, TDP

La Trunk Data Platforme (TDP) est une distribution big data 100% open source, basĆ©e sur Apache Hadoop et compatible avec HDP 3.1. InitiĆ©e en 2021 par EDF, la DGFiP et Adaltas, le projet est gouvernĆ©ā€¦

FARAULT Paul

By FARAULT Paul

Oct 18, 2023

Lancement du site Internet de TDP

Lancement du site Internet de TDP

Categories: Big Data | Tags: Programmation, Ansible, Hadoop, Python, TDP

Le nouveau site Internet de TDP (Trunk Data Platform) est en ligne. Nous vous invitons Ć  le parcourir pour dĆ©couvrir la platorme, rester informĆ©s, et cultiver le contact avec la communautĆ© TDP. TDPā€¦

WORMS David

By WORMS David

Oct 3, 2023

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

Categories: Big Data, Data Engineering, Formation | Tags: NiFi, Business Intelligence, Data Engineering, Iceberg, Spark, Big Data, Cloudera, CDP, Analyse de donnƩes, Data Lake, EntrepƓt de donnƩes (Data Warehouse)

Dans cet exercice pratique, nous montrons comment construire une solution big data complĆØte avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur lā€™infrastructure qui a Ć©tĆ© dĆ©ployĆ©e toutā€¦

CHAVARRIA Tobias

By CHAVARRIA Tobias

Jul 24, 2023

CDP partie 5 : gestion des permissions utilisateurs sur CDP

CDP partie 5 : gestion des permissions utilisateurs sur CDP

Categories: Big Data, Cloud computing, Gouvernance des donnƩes | Tags: Ranger, Cloudera, CDP, EntrepƓt de donnƩes (Data Warehouse)

Lorsquā€™un utilisateur ou un groupe est crĆ©Ć© dans CDP, des permissions doivent leur ĆŖtre attribuĆ©es pour accĆ©der aux ressources et utiliser les Data Services. Cet article est le cinquiĆØme dā€™une sĆ©rieā€¦

CHAVARRIA Tobias

By CHAVARRIA Tobias

Jul 18, 2023

CDP partie 4 : gestion des utilisateurs sur CDP avec Keycloak

CDP partie 4 : gestion des utilisateurs sur CDP avec Keycloak

Categories: Big Data, Cloud computing, Gouvernance des donnƩes | Tags: EC2, Big Data, CDP, Docker Compose, Keycloak, SSO

Les articles prĆ©cĆ©dents de la sĆ©rie couvrent le dĆ©ploiement dā€™un environnement CDP Public Cloud. Tous les composants sont prĆŖts Ć  ĆŖtre utilisĆ©s et il est temps de mettre lā€™environnement Ć  laā€¦

CHAVARRIA Tobias

By CHAVARRIA Tobias

Jul 4, 2023

CDP partie 3 : activation des Data Services en environnment CDP Public Cloud

CDP partie 3 : activation des Data Services en environnment CDP Public Cloud

Categories: Big Data, Cloud computing, Infrastructure | Tags: Infrastructure, AWS, Big Data, Cloudera, CDP

Lā€™un des principaux arguments de vente de Cloudera Data Platform (CDP) est la maturitĆ© de son offre de services. Ceux-ci sont faciles Ć  dĆ©ployer sur site, dans le cloud public ou dans le cadre dā€™uneā€¦

KONRAD Albert

By KONRAD Albert

Jun 27, 2023

CDP partie 2 : dƩploiement d'un environnement CDP Public Cloud sur AWS

CDP partie 2 : dƩploiement d'un environnement CDP Public Cloud sur AWS

Categories: Big Data, Cloud computing, Infrastructure | Tags: Infrastructure, AWS, Big Data, Cloud, Cloudera, CDP, Cloudera Manager

La Cloudera Data Platform (CDP) Public Cloud constitue la base sur laquelle des lacs de donnĆ©es (Data Lake) complets sont crĆ©Ć©s. Dans un article prĆ©cĆ©dent, nous avons prĆ©sentĆ© la plateforme CDP. Cetā€¦

KONRAD Albert

By KONRAD Albert

Jun 19, 2023

Exigences et attentes d'une plateforme Big Data

Exigences et attentes d'une plateforme Big Data

Categories: Big Data, Infrastructure | Tags: Data Engineering, Gouvernance des donnƩes, Analyse de donnƩes, Data Hub, Data Lake, Lakehouse, Data Science

Une plateforme Big Data est un systĆØme complexe et sophistiquĆ© qui permet aux organisations de stocker, traiter et analyser de gros volumes de donnĆ©es provenant de diverses sources. Elle se compose deā€¦

WORMS David

By WORMS David

Mar 23, 2023

Gestion de Kafka dans Kubernetes avec Strimzi

Gestion de Kafka dans Kubernetes avec Strimzi

Categories: Big Data, Orchestration de conteneurs, Infrastructure | Tags: Kafka, Big Data, Kubernetes, Open source, Streaming

Kubernetes nā€™est pas la premiĆØre plateforme Ć  laquelle on pense pour faire tourner des clusters Apache Kafka. En effet, la forte adhĆ©rence de Kafka au stockage pourrait ĆŖtre difficile Ć  gĆ©rer parā€¦

SCHOUKROUN Leo

By SCHOUKROUN Leo

Mar 7, 2023

PlongƩe dans tdp-lib, le SDK en charge de la gestion de clusters TDP

PlongƩe dans tdp-lib, le SDK en charge de la gestion de clusters TDP

Categories: Big Data, Infrastructure | Tags: Programmation, Ansible, Hadoop, Python, TDP

Tous les dĆ©ploiements TDP sont automatisĆ©s. Ansible y joue un rĆ“le central. Avec la complexitĆ© grandissante de notre base logicielle, un nouveau systĆØme Ć©tait nĆ©cessaire afin de sā€™affranchir desā€¦

BOUTRY Guillaume

By BOUTRY Guillaume

Jan 24, 2023

Adaltas Summit 2022 Morzine

Adaltas Summit 2022 Morzine

Categories: Big Data, Adaltas Summit 2022 | Tags: Data Engineering, Infrastructure, Iceberg, Conteneur, Lakehouse, Docker, Kubernetes

Pour sa troisiĆØme Ć©dition, toute lā€™Ć©quipe dā€™Adaltas se retrouve Ć  Morzine pour une semaine entiĆØre avec 2 jours dĆ©diĆ©s Ć  la technologie les 15 et 16 septembre 2022. Les intervenants choisissent lā€™unā€¦

WORMS David

By WORMS David

Jan 13, 2023

Stage infrastructure big data

Stage infrastructure big data

Categories: Big Data, Data Engineering, DevOps & SRE, Infrastructure | Tags: Infrastructure, Hadoop, Big Data, Cluster, Internship, Kubernetes, TDP

PrĆ©sentation de lā€™offre Le Big Data et lā€™informatique distribuĆ©e sont au cœur dā€™Adaltas. Nous accompagnons nos partenaires dans le dĆ©ploiement, la maintenance, lā€™optimisation et nouvellement leā€¦

BAUM Stephan

By BAUM Stephan

Dec 2, 2022

Stockage objet Ceph dans un cluster Kubernetes avec Rook

Stockage objet Ceph dans un cluster Kubernetes avec Rook

Categories: Big Data, Gouvernance des donnƩes, Formation | Tags: Amazon S3, Big Data, Ceph, Cluster, Data Lake, Kubernetes, Storage

Ceph est un systĆØme tout-en-un de stockage distribuĆ©. Fiable et mature, sa premiĆØre version stable est parue en 2012 et a Ć©tĆ© depuis la rĆ©fĆ©rence pour le stockage open source. Lā€™avantage principal deā€¦

BIGOT Luka

By BIGOT Luka

Aug 4, 2022

Stockage objet avec MinIO dans un cluster Kubernetes

Stockage objet avec MinIO dans un cluster Kubernetes

Categories: Big Data, Gouvernance des donnƩes, Formation | Tags: Amazon S3, Big Data, Cluster, Data Lake, Kubernetes, Storage

MinIO est une solution de stockage objet populaire. Souvent recommandĆ© pour sa simplicitĆ© dā€™utilisation et dā€™installation, MinIO nā€™est pas seulement quā€™un bon moyen pour dĆ©buter avec le stockage objetā€¦

BIGOT Luka

By BIGOT Luka

Jul 9, 2022

Architecture du stockage objet et attributs du standard S3

Architecture du stockage objet et attributs du standard S3

Categories: Big Data, Gouvernance des donnƩes | Tags: Base de donnƩes, API, Amazon S3, Big Data, Data Lake, Storage

Le stockage objet a gagnĆ© en popularitĆ© parmi les architectures de stockage de donnĆ©es. ComparĆ© aux systĆØmes de fichiers et au stockage bloc, le stockage objet ne rencontre pas de limitations lorsquā€¦

BIGOT Luka

By BIGOT Luka

Jun 20, 2022

Comparaison des architectures de base de donnƩes : data warehouse, data lake and data lakehouse

Comparaison des architectures de base de donnƩes : data warehouse, data lake and data lakehouse

Categories: Big Data, Data Engineering | Tags: Gouvernance des donnƩes, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse), Format de fichier

Les architectures de base de donnĆ©es ont fait lā€™objet dā€™une innovation constante, Ć©voluant avec lā€™apparition de nouveaux cas dā€™utilisation, de contraintes techniques et dā€™exigences. Parmi les troisā€¦

HOLDORF Guillaume

By HOLDORF Guillaume

May 17, 2022

DĆ©couvrez Trunk Data Platform : La Distribution Big Data Open-Source par TOSIT

DĆ©couvrez Trunk Data Platform : La Distribution Big Data Open-Source par TOSIT

Categories: Big Data, DevOps & SRE, Infrastructure | Tags: Ranger, DevOps, Hortonworks, Ansible, Hadoop, HBase, Knox, Spark, Cloudera, CDP, CDH, Open source, TDP

Depuis la fusion de Cloudera et Hortonworks, la sĆ©lection de distributions Hadoop commerciales on-prem se rĆ©duit Ć  CDP Private Cloud. CDP est un mĆ©lange de CDH et de HDP conservant les meilleursā€¦

SCHOUKROUN Leo

By SCHOUKROUN Leo

Apr 14, 2022

Apache HBase : colocation de RegionServers

Apache HBase : colocation de RegionServers

Categories: Big Data, Adaltas Summit 2021, Infrastructure | Tags: Ambari, Base de donnƩes, Infrastructure, Performance, Hadoop, HBase, Big Data, HDP, Storage

Les RegionServers sont les processus gĆ©rant le stockage et la rĆ©cupĆ©ration des donnĆ©es dans Apache HBase, la base de donnĆ©es non-relationnelle orientĆ©e colonne de Apache Hadoop. Cā€™est Ć  travers leursā€¦

BERLAND Pierre

By BERLAND Pierre

Feb 22, 2022

Utilisation de Cloudera Deploy pour installer Cloudera Data Platform (CDP) Private Cloud

Utilisation de Cloudera Deploy pour installer Cloudera Data Platform (CDP) Private Cloud

Categories: Big Data, Cloud computing | Tags: Ansible, Cloudera, CDP, Cluster, EntrepƓt de donnƩes (Data Warehouse), Vagrant, IaC

Suite Ć  notre rĆ©cente prĆ©sentation de CDP, passons dĆ©sormais au dĆ©ploiement CDP private Cloud sur votre infrastructure locale. Le deploiement est entiĆØrement automatisĆ© avec les cookbooks Ansibleā€¦

HOFFMANN Alexander

By HOFFMANN Alexander

Jul 23, 2021

PrƩsentation de Cloudera Data Platform (CDP)

PrƩsentation de Cloudera Data Platform (CDP)

Categories: Big Data, Cloud computing, Data Engineering | Tags: SDX, Big Data, Cloud, Cloudera, CDP, CDH, Analyse de donnƩes, Data Hub, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse)

Cloudera Data Platform (CDP) est une plateforme de cloud computing pour les entreprises. CDP fournit des outils intĆ©grĆ©s et multifonctionnels en libre-service afin dā€™analyser et de centraliser lesā€¦

HOFFMANN Alexander

By HOFFMANN Alexander

Jul 19, 2021

Apache Liminal, quand le MLOps rencontre le GitOps

Apache Liminal, quand le MLOps rencontre le GitOps

Categories: Big Data, Orchestration de conteneurs, Data Engineering, Data Science, Tech Radar | Tags: Data Engineering, CI/CD, Data Science, Deep Learning, DĆ©ploiement, Docker, GitOps, Kubernetes, Machine Learning, MLOps, Open source, Python, TensorFlow

Apache Liminal propose une solution clĆ©s en main permettant de dĆ©ployer un pipeline de Machine Learning. Cā€™est un projet open-source, qui centralise lā€™ensemble des Ć©tapes nĆ©cessaires Ć  lā€™entrainementā€¦

COINTEPAS Aargan

By COINTEPAS Aargan

Mar 31, 2021

TensorFlow Extended (TFX) : les composants et leurs fonctionnalitƩs

TensorFlow Extended (TFX) : les composants et leurs fonctionnalitƩs

Categories: Big Data, Data Engineering, Data Science, Formation | Tags: Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, DĆ©ploiement, Machine Learning, MLOps, Open source, Python, TensorFlow

La mise en production des modĆØles de Machine Learning (ML) et de Deep Learning (DL) est une tĆ¢che difficile. Il est reconnu quā€™elle est plus sujette Ć  lā€™Ć©chec et plus longue que la modĆ©lisationā€¦

Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin

Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin

Categories: Big Data, Infrastructure | Tags: Maven, Hadoop, HBase, Hive, Spark, Git, Versions et Ć©volutions, TDP, Tests unitaires

Lā€™Ć©cosystĆØme Hadoop a donnĆ© naissance Ć  de nombreux projets populaires tels que HBase, Spark et Hive. Bien que des technologies plus rĆ©centes commme Kubernetes et les stockages objets compatibles Sā€¦

SCHOUKROUN Leo

By SCHOUKROUN Leo

Dec 18, 2020

Connexion Ć  ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Connexion Ć  ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Categories: Big Data, Cloud computing, Data Engineering | Tags: NiFi, Hadoop, HDFS, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), OAuth2

Alors que les projets Data construits sur le cloud deviennent de plus en plus rĆ©pandus, un cas dā€™utilisation courant consiste Ć  interagir avec le stockage cloud Ć  partir dā€™une plateforme Big Data onā€¦

LEONARD Gauthier

By LEONARD Gauthier

Nov 5, 2020

Reconstruction de Hive dans HDP : patch, test et build

Reconstruction de Hive dans HDP : patch, test et build

Categories: Big Data, Infrastructure | Tags: Maven, GitHub, Java, Hive, Git, Versions et Ć©volutions, TDP, Tests unitaires

La distribution HDP dā€™Hortonworks va bientĆ“t ĆŖtre dĆ©preciĆ©e a profit de la distribution CDP proposĆ©e par Cloudera. Un client nous a demandĆ© dā€™intĆ©grer dā€™une nouvelle feature de Apache Hive sur sonā€¦

SCHOUKROUN Leo

By SCHOUKROUN Leo

Oct 6, 2020

Installation d'Hadoop depuis le code source : build, patch et exƩcution

Installation d'Hadoop depuis le code source : build, patch et exƩcution

Categories: Big Data, Infrastructure | Tags: Maven, Java, LXD, Hadoop, HDFS, Docker, TDP, Tests unitaires

Les distributions commerciales dā€™Apache Hadoop ont beaucoup Ć©voluĆ© ces derniĆØres annĆ©es. Les deux concurrents Cloudera et Hortonworks ont fusionnĆ©Ā : HDP ne sera plus maintenu et CDH devient CDP. HP aā€¦

SCHOUKROUN Leo

By SCHOUKROUN Leo

Aug 4, 2020

TƩlƩchargement de jeux de donnƩes dans HDFS et Hive

TƩlƩchargement de jeux de donnƩes dans HDFS et Hive

Categories: Big Data, Data Engineering | Tags: Business Intelligence, Data Engineering, Data structures, Base de donnƩes, Hadoop, HDFS, Hive, Big Data, Analyse de donnƩes, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse)

Introduction De nos jours, lā€™analyse de larges quantitĆ©s de donnĆ©es devient de plus en plus possible grĆ¢ce aux technologies du Big data (Hadoop, Spark,ā€¦). Cela explique lā€™explosion du volume deā€¦

NGOM Aida

By NGOM Aida

Jul 31, 2020

Comparaison de diffƩrents formats de fichier en Big Data

Comparaison de diffƩrents formats de fichier en Big Data

Categories: Big Data, Data Engineering | Tags: Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers

Dans lā€™univers du traitement des donnĆ©es, il existe diffĆ©rents types de formats de fichiers pour stocker vos jeu de donnĆ©es. Chaque format a ses propres avantages et inconvĆ©nients selon les cas dā€¦

NGOM Aida

By NGOM Aida

Jul 23, 2020

Automatisation d'un workflow Spark sur GCP avec GitLab

Automatisation d'un workflow Spark sur GCP avec GitLab

Categories: Big Data, Cloud computing, Orchestration de conteneurs | Tags: Enseignement et tutorial, Airflow, Spark, CI/CD, GitLab, GitOps, GCP, Terraform

Un workflow consiste Ć  automiatiser une succĆ©ssion de tĆ¢che qui dont ĆŖtre menĆ©e indĆ©pendemment dā€™une intervention humaine. Cā€™est un concept important et populaire, sā€™appliquant particuliĆØrement Ć  unā€¦

DE BAECQUE Ferdinand

By DE BAECQUE Ferdinand

Jun 16, 2020

Premier pas avec Apache Airflow sur AWS

Premier pas avec Apache Airflow sur AWS

Categories: Big Data, Cloud computing, Orchestration de conteneurs | Tags: PySpark, Enseignement et tutorial, Airflow, Oozie, Spark, AWS, Docker, Python

Apache Airflow offre une solution rĆ©pondant au dĆ©fi croissant dā€™un paysage de plus en plus complexe dā€™outils de gestion de donnĆ©es, de scripts et de traitements dā€™analyse Ć  gĆ©rer et coordonner. Cā€™estā€¦

COINTEPAS Aargan

By COINTEPAS Aargan

May 5, 2020

Cloudera CDP et migration Cloud de votre Data Warehouse

Cloudera CDP et migration Cloud de votre Data Warehouse

Categories: Big Data, Cloud computing | Tags: Azure, Cloudera, Data Hub, Data Lake, EntrepƓt de donnƩes (Data Warehouse)

Alors que lā€™un de nos clients anticipe un passage vers le Cloud et avec lā€™annonce rĆ©cente de la disponibilitĆ© de Cloudera CDP mi-septembre lors de la confĆ©rence Strata, il semble que le moment soitā€¦

WORMS David

By WORMS David

Dec 16, 2019

Migration Big Data et Data Lake vers le Cloud

Migration Big Data et Data Lake vers le Cloud

Categories: Big Data, Cloud computing | Tags: DevOps, AWS, Azure, Cloud, CDP, Databricks, GCP

Est-il impĆ©ratif de suivre tendance et de migrer ses donnĆ©es, workflow et infrastructure vers lā€™un des Cloud providers tels que GCP, AWS ou AzureĀ ? Lors de la Strata Data Conference Ć  New-York, unā€¦

RUMMENS Joris

By RUMMENS Joris

Dec 9, 2019

Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes

Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes

Categories: Big Data, Orchestration de conteneurs | Tags: DevOps, LXD, Hadoop, Kafka, Spark, Ceph, Internship, Kubernetes, NoSQL

Contexte Lā€™acquisition dā€™un cluster Ć  forte capacitĆ© rĆ©pond Ć  la volontĆ© dā€™Adaltas de construire une offre de type PAAS pour disposer et mettre Ć  disposition des plateformes de Big Data et dā€¦

WORMS David

By WORMS David

Nov 26, 2019

Notes sur le nouveau modĆØle de licences Open Source de Cloudera

Notes sur le nouveau modĆØle de licences Open Source de Cloudera

Categories: Big Data | Tags: CDSW, Licence, Cloudera Manager, Open source

Suite Ć  la publication de sa stratĆ©gie de licences Open Source le 10 juillet 2019 dans un article intitulĆ© ā€œnotre engagement envers les logiciels Open Sourceā€, Cloudera a diffusĆ© un webinaire hier leā€¦

WORMS David

By WORMS David

Oct 25, 2019

Mise en production d'un modĆØle de Machine Learning

Mise en production d'un modĆØle de Machine Learning

Categories: Big Data, Data Engineering, Data Science, DevOps & SRE | Tags: DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, SchƩma

ā€œLe Machine Learning en entreprise nĆ©cessite une vision globale [ā€¦] du point de vue de lā€™ingĆ©nierie et de la plateforme de donnĆ©esā€, a expliquĆ© Justin Norman lors de son intervention sur leā€¦

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

Sep 30, 2019

Apache Hive 3, nouvelles fonctionnalitƩs et conseils et astuces

Apache Hive 3, nouvelles fonctionnalitƩs et conseils et astuces

Categories: Big Data, Business Intelligence, DataWorks Summit 2019 | Tags: Druid, JDBC, LLAP, Hadoop, Hive, Kafka, Versions et Ć©volutions

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalitĆ©s intĆ©ressantes Ć  lā€™entrepĆ“t de donnĆ©es. Malheureusement, comme beaucoup deā€¦

LEONARD Gauthier

By LEONARD Gauthier

Jul 25, 2019

Auto-scaling de Druid avec Kubernetes

Auto-scaling de Druid avec Kubernetes

Categories: Big Data, Business Intelligence, Orchestration de conteneurs | Tags: EC2, Druid, CNCF, Helm, MƩtriques, OLAP, Exploitation, Orchestration de conteneurs, Cloud, Analyse de donnƩes, Kubernetes, Prometheus, Python

Apache Druid est un systĆØme de stockage de donnĆ©es open-source destinĆ© Ć  lā€™analytics qui peut profiter des capacitĆ©s dā€™auto-scaling de Kubernetes de par son architecture distribuĆ©e. Cet article estā€¦

SCHOUKROUN Leo

By SCHOUKROUN Leo

Jul 16, 2019

IntƩgration de Druid et Hive

IntƩgration de Druid et Hive

Categories: Big Data, Business Intelligence, Tech Radar | Tags: Druid, LLAP, OLAP, Hive, Analyse de donnƩes, SQL

Nous allons dans cet article traiter de lā€™intĆ©gration entre Hive Interactive (LLAP) et Druid. Cet article est un complĆ©ment Ć  lā€™article Ultra-fast OLAP Analytics with Apache Hive and Druid.ā€¦

SAUVAGE Pierre

By SAUVAGE Pierre

Jun 17, 2019

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Categories: Big Data, Data Engineering, DevOps & SRE | Tags: Apache Spark Streaming, DevOps, Enseignement et tutorial, Spark

Lā€™indisponibilitĆ© des services entraĆ®ne des pertes financiĆØres pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une applicationā€¦

RYNKIEWICZ Oskar

By RYNKIEWICZ Oskar

May 31, 2019

Apache Knox, c'est facileĀ !

Apache Knox, c'est facileĀ !

Categories: Big Data, CybersƩcuritƩ, Adaltas Summit 2018 | Tags: Ranger, Kerberos, LDAP, Active Directory, REST, Knox

Apache Knox est le point dā€™entrĆ©e sĆ©curisĆ© dā€™un cluster Hadoop, mais peut-il ĆŖtre Ć©galement le point dā€™entrĆ©e de mes applications RESTĀ ? Vue dā€™ensemble dā€™Apache Knox Apache Knox est une passerelleā€¦

HATOUM Michael

By HATOUM Michael

Feb 4, 2019

Prise de contrƓle d'un cluster Hadoop avec Apache Ambari

Prise de contrƓle d'un cluster Hadoop avec Apache Ambari

Categories: Big Data, DevOps & SRE, Adaltas Summit 2018 | Tags: Ambari, Automation, iptables, Kerberos, Nikita, REST, Systemd, Cluster, HDP, Noeud, Node.js

Nous avons rĆ©cemment migrĆ© un large cluster Hadoop de production installĆ© ā€œmanuellementā€ vers Apache Ambari. Nous avons nommĆ© cette opĆ©ration ā€œAmbari Takeoverā€. Cā€™est un processus Ć  risque et nousā€¦

SCHOUKROUN Leo

By SCHOUKROUN Leo

Nov 15, 2018

DƩploiement d'un cluster Flink sƩcurisƩ sur Kubernetes

DƩploiement d'un cluster Flink sƩcurisƩ sur Kubernetes

Categories: Big Data | Tags: Flink, Chiffrement, Kerberos, HDFS, Kafka, Elasticsearch, SSL/TLS

Le dĆ©ploiement sĆ©curisĆ©e dā€™une application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sĆ©curisĆ©, vous pouvez compter sur la plateforme sous-jacente ou utiliserā€¦

WORMS David

By WORMS David

Oct 8, 2018

Migration de cluster et de traitements entre Hadoop 2 et 3

Migration de cluster et de traitements entre Hadoop 2 et 3

Categories: Big Data, Infrastructure | Tags: Shiro, Erasure Coding, Rolling Upgrade, HDFS, Spark, YARN, Docker

La migration de Hadoop 2 vers Hadoop 3 est un sujet brĆ»lant. Comment mettre Ć  niveau vos clusters, quelles fonctionnalitĆ©s prĆ©sentes dans la nouvelle version peuvent rĆ©soudre les problĆØmes actuels etā€¦

BAKALIAN Lucas

By BAKALIAN Lucas

Jul 25, 2018

RemĆØde Ć  l'aveuglement de Kafka

RemĆØde Ć  l'aveuglement de Kafka

Categories: Big Data | Tags: Ambari, Ranger, Hortonworks, HDF, JMX, UI, Kafka, HDP

Il est difficile de visualiser pour les dĆ©veloppeurs, opĆ©rateurs et manageurs, ce qui se cache Ć  lā€™intĆ©rieur des entrailles de Kafka. Cet article parle dā€™une nouvelle interface graphique bientĆ“tā€¦

BAKALIAN Lucas

By BAKALIAN Lucas

Jun 20, 2018

Ingestion de Data Lake, quelques bonnes pratiques

Ingestion de Data Lake, quelques bonnes pratiques

Categories: Big Data, Data Engineering | Tags: NiFi, Gouvernance des donnƩes, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, SchƩma

La crĆ©ation dā€™un Data Lake demande de la rigueur et de lā€™expĆ©rience. Voici plusieurs bonnes pratiques autour de lā€™ingestion des donnĆ©es en batch et en flux continu que nous recommandons et mettons enā€¦

WORMS David

By WORMS David

Jun 18, 2018

Apache Hadoop YARN 3.0 - Ɖtat de l'art

Apache Hadoop YARN 3.0 - Ɖtat de l'art

Categories: Big Data, DataWorks Summit 2018 | Tags: GPU, Hortonworks, Hadoop, HDFS, MapReduce, YARN, Cloudera, Data Science, Docker, Versions et Ć©volutions

Cet article couvre la prĆ©sentation ā€Apache Hadoop YARN: state of the unionā€ (YARN Ć©tat de lā€™art) par Wangda Tan dā€™Hortonworks lors de la confĆ©rence DataWorks Summit 2018 Berlin (anciennement Hadoopā€¦

BAKALIAN Lucas

By BAKALIAN Lucas

May 31, 2018

ExƩcuter des workloads d'entreprise dans le Cloud avec Cloudbreak

ExƩcuter des workloads d'entreprise dans le Cloud avec Cloudbreak

Categories: Big Data, Cloud computing, DataWorks Summit 2018 | Tags: Cloudbreak, Exploitation, Hadoop, AWS, Azure, GCP, HDP, OpenStack

Cet article se base sur la confĆ©rence de Peter Darvasi et Richard Doktorics ā€œRunning Enterprise Workloads in the Cloudā€ au DataWorks Summit 2018 Ć  Berlin. Il prĆ©sentera lā€™outil de dĆ©ploiementā€¦

RUMMENS Joris

By RUMMENS Joris

May 28, 2018

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix

Categories: Big Data, DataWorks Summit 2018 | Tags: Omid, Phoenix, Transaction, ACID, HBase, SQL

Apache Omid fournit une couche transactionnelle au-dessus des bases de donnĆ©es clĆ©s/valeurs NoSQL. CrĆ©dits Ć  Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le rĆ©sultatā€¦

HERMAND Xavier

By HERMAND Xavier

May 24, 2018

Le futur de l'orchestration de workflows dans HadoopĀ : Oozie 5.x

Le futur de l'orchestration de workflows dans HadoopĀ : Oozie 5.x

Categories: Big Data, DataWorks Summit 2018 | Tags: REST, Hadoop, Hive, Oozie, Sqoop, CDH, HDP

Au DataWorks Summit Europe 2018 de Berlin, jā€™ai eu lā€™occasion dā€™assister Ć  une session sur Apache Oozie. La prĆ©sentation se concentre sur les caractĆ©ristiques du prochain Oozie 5.0 et celles Ć  venirā€¦

SCHOUKROUN Leo

By SCHOUKROUN Leo

May 23, 2018

Questions essentielles sur les base de donnƩes Time Series

Questions essentielles sur les base de donnƩes Time Series

Categories: Big Data | Tags: Druid, Grafana, HBase, Hive, ORC, Data Science, Elasticsearch, IOT

Aujourdā€™hui, le gros des donnĆ©es Big Data est de nature temporelle. On le constate dans les mĆ©dias comme chez nos clientsĀ : compteurs intelligents, transactions bancaires, usines intelligentes,ā€¦

WORMS David

By WORMS David

Mar 18, 2018

Ambari - Comment utiliser les blueprints

Ambari - Comment utiliser les blueprints

Categories: Big Data, DevOps & SRE | Tags: Ambari, Ranger, Automation, DevOps, Exploitation, REST

En tant quā€™ingĆ©nieurs dā€™infrastructure chez Adaltas, nous dĆ©ployons des clusters. Beaucoup de clusters. GĆ©nĆ©ralement, nos clients choisissent dā€™utiliser une distribution telle que Hortonworks HDP ouā€¦

RUMMENS Joris

By RUMMENS Joris

Jan 17, 2018

Cloudera Sessions Paris 2017

Cloudera Sessions Paris 2017

Categories: Big Data, ƉvĆØnements | Tags: EC2, Altus, CDSW, SDX, Azure, Cloudera, CDH, Data Science, PaaS

Adaltas Ć©tait prĆ©sent le 5 octobre aux Cloudera Sessions, la journĆ©e de prĆ©sentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. NoteĀ : les informations ont Ć©tĆ©ā€¦

BEREZOWSKI CĆ©sar

By BEREZOWSKI CĆ©sar

Oct 16, 2017

Changer la couleur de la topbar d'Ambari

Changer la couleur de la topbar d'Ambari

Categories: Big Data, Hack | Tags: Ambari, Front-end

Jā€™Ć©tais rĆ©cemment chez un client qui a plusieurs environnements (Prod, Integration, Recette, ā€¦) sur HDP avec chacun son instance Ambari. Lā€™une des questions soulevĆ©e par le client est la suivanteā€¦

BEREZOWSKI CĆ©sar

By BEREZOWSKI CĆ©sar

Jul 9, 2017

MiNiFiĀ : ScalabilitĆ© de la donnĆ©e & de l'intĆ©rĆŖt de commencer petit

MiNiFiĀ : ScalabilitĆ© de la donnĆ©e & de l'intĆ©rĆŖt de commencer petit

Categories: Big Data, DevOps & SRE, Infrastructure | Tags: MiNiFi, NiFi, C++, HDF, Cloudera, HDP, IOT

Aldrin nous a rapidement prĆ©sentĆ© Apache NiFi puis expliquĆ© dā€™oĆ¹ est venu MiNiFiĀ : un agent NiFi Ć  dĆ©ployer sur un embarquĆ© afin dā€™amener la donnĆ©e Ć  pipeline dā€™un cluster NiFi (exĀ : IoT). Ce posteā€¦

BEREZOWSKI CĆ©sar

By BEREZOWSKI CĆ©sar

Jul 8, 2017

Supervision de clusters HDP

Supervision de clusters HDP

Categories: Big Data, DevOps & SRE, Infrastructure | Tags: Alert, Ambari, MĆ©triques, Supervision, REST, HDP

Avec la croissance actuelle des technologies BigData, de plus en plus dā€™entreprises construisent leurs propres clusters dans lā€™espoir de valoriser leurs donnĆ©es. Lā€™une des principales prĆ©occupationsā€¦

RUMMENS Joris

By RUMMENS Joris

Jul 5, 2017

Administration Hadoop multitenant avancƩe - protection de Zookeeper

Administration Hadoop multitenant avancƩe - protection de Zookeeper

Categories: Big Data, Infrastructure | Tags: DoS, iptables, Exploitation, Passage Ć  l'Ć©chelle, Zookeeper, Clustering, Consensus

Zookeeper est un composant critique au fonctionnement dā€™Hadoop en haute disponibilitĆ©. Ce dernier se protĆØge en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protĆØgeā€¦

SAUVAGE Pierre

By SAUVAGE Pierre

Jul 5, 2017

Hive Metastore HA avec DBTokenStoreĀ : Failed to initialize master key

Hive Metastore HA avec DBTokenStoreĀ : Failed to initialize master key

Categories: Big Data, DevOps & SRE | Tags: Infrastructure, Hive, Bug

Cet article dĆ©crit ma petite aventure autour dā€™une erreur au dĆ©marrage du Hive Metastore. Elle se reproduit dans un environnement prĆ©cis qui est celui dā€™une installation sĆ©curisĆ©e, entendre avecā€¦

WORMS David

By WORMS David

Jul 21, 2016

Maitrisez vos workflows avec Apache Airflow

Maitrisez vos workflows avec Apache Airflow

Categories: Big Data, Tech Radar | Tags: DevOps, Airflow, Cloud, Python

Ci-dessous une compilation de mes notes prises lors de la prĆ©sentation dā€™Apache Airflow par Christian Trebing de chez BlueYonder. Introduction Use caseĀ : comment traiter des donnĆ©es arrivantā€¦

BEREZOWSKI CĆ©sar

By BEREZOWSKI CĆ©sar

Jul 17, 2016

Hive, Calcite et Druid

Hive, Calcite et Druid

Categories: Big Data | Tags: Druid, Business Intelligence, Base de donnƩes, Hadoop, Hive

BI/OLAP est nĆ©cessaire Ć  la visualisation interactive de flux de donnĆ©esĀ : ƉvĆØnements issus dā€™enchĆØres en temps rĆ©el Flux dā€™activitĆ© utilisateur Log de tĆ©lĆ©phonie Suivi du trafic rĆ©seau ƉvĆØnements deā€¦

WORMS David

By WORMS David

Jul 14, 2016

L'offre Red Hat Storage et son intƩgration avec Hadoop

L'offre Red Hat Storage et son intƩgration avec Hadoop

Categories: Big Data | Tags: GlusterFS, Red Hat, Hadoop, HDFS, Storage

Jā€™ai eu lā€™occasion dā€™ĆŖtre introduit Ć  Red Hat Storage et Gluster lors dā€™une prĆ©sentation menĆ©e conjointement par Red Hat France et la sociĆ©tĆ© StartX. Jā€™ai ici recompilĆ© mes notes, du moinsā€¦

WORMS David

By WORMS David

Jul 3, 2015

Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribuƩ

Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribuƩ

Categories: Big Data, Formation | Tags: Hue, Infrastructure, Hadoop, HBase, Big Data, DĆ©ploiement

Le systĆØme dā€™exploitation choisi est OSX mais la procĆ©dure nā€™est pas si diffĆ©rente pour tout environnement Unix car lā€™essentiel des logiciels est tĆ©lĆ©chargĆ© depuis Internet, dĆ©compressĆ© et paramĆ©trĆ©ā€¦

WORMS David

By WORMS David

Dec 1, 2010

Stockage et traitement massif avec Hadoop

Stockage et traitement massif avec Hadoop

Categories: Big Data | Tags: Hadoop, HDFS, Storage

Apache Hadoop est un systĆØme pour construire des infrastructures de stockage partagĆ© et dā€™analyses adaptĆ©es Ć  des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisĆ©sā€¦

WORMS David

By WORMS David

Nov 26, 2010

Stockage et traitement massif avec Hadoop

Stockage et traitement massif avec Hadoop

Categories: Big Data, Node.js | Tags: REST, HBase, Big Data, Node.js

HBase est la base de donnĆ©es de type ā€œcolumn famillyā€ de lā€™Ć©cosystĆØme Hadoop construite sur le modĆØle de Google BigTable. HBase peut accueillir de trĆØs larges volumes de donnĆ©es (de lā€™ordre du tera ouā€¦

WORMS David

By WORMS David

Nov 1, 2010

PrƩsentation de MapReduce

PrƩsentation de MapReduce

Categories: Big Data | Tags: Java, MapReduce, Big Data, JavaScript

Les systĆØmes dā€™information ont de plus en plus de donnĆ©es Ć  stocker et Ć  traiter. Des entreprises comme Google, Facebook, Twitter mais encore bien dā€™autre stockent des quantitĆ©s dā€™informationā€¦

WORMS David

By WORMS David

Jun 26, 2010

Canada - Morocco - France

We are a team of Open Source enthusiasts doing consulting in Big Data, Cloud, DevOps, Data Engineering, Data Scienceā€¦

We provide our customers with accurate insights on how to leverage technologies to convert their use cases to projects in production, how to reduce their costs and increase the time to market.

If you enjoy reading our publications and have an interest in what we do, contact us and we will be thrilled to cooperate with you.

Support Ukrain