Data Engineering
Data is the energy that feeds digital transformation. The developers consume it in their applications. Data Analysts search, query and share it. Data Scientists feed their algorithms with it. Data Engineers are responsible for setting up the value chain that includes the collection, cleaning, enrichment and provision of data.
Manage scalability, ensure data security and integrity, be fault-tolerant, manipulate batch or streaming data, validate schemas, publish APIs, select formats, models and databases appropriate for their exhibitions are the prerogatives of the Data Engineer. From his work derives the trust and success of those who consume and exploit the data.
Articles related to Data Engineering
CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP
Categories: Big Data, Data Engineering, Formation | Tags: NiFi, Business Intelligence, Data Engineering, Iceberg, Spark, Big Data, Cloudera, CDP, Analyse de donnƩes, Data Lake, EntrepƓt de donnƩes (Data Warehouse)
Dans cet exercice pratique, nous montrons comment construire une solution big data complĆØte avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur lāinfrastructure qui a Ć©tĆ© dĆ©ployĆ©e toutā¦
Jul 24, 2023
CDP partie 1 : introduction Ć l'architecture Data Lakehouse avec CDP
Categories: Cloud computing, Data Engineering, Infrastructure | Tags: Data Engineering, Iceberg, AWS, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, EntrepƓt de donnƩes (Data Warehouse)
Cloudera Data Platform (CDP) est une data platform hybride pour lāintĆ©gration de donnĆ©e, le machine learning et lāanalyse de la data. Dans cette sĆ©rie dāarticles nous allons dĆ©crire comment installerā¦
By BAUM Stephan
Jun 8, 2023
DĆ©ploiement de Keycloak sur EC2
Categories: Cloud computing, Data Engineering, Infrastructure | Tags: EC2, sƩcuritƩ, Authentification, AWS, Docker, Keycloak, SSL/TLS, SSO
Pourquoi utiliser Keycloak Keycloak est un fournisseur dāidentitĆ© open source (IdP) utilisant lāauthentification unique SSO. Un IdP est un outil permettant de crĆ©er, de maintenir et de gĆ©rer lesā¦
By BAUM Stephan
Mar 14, 2023
Stage infrastructure big data
Categories: Big Data, Data Engineering, DevOps & SRE, Infrastructure | Tags: Infrastructure, Hadoop, Big Data, Cluster, Internship, Kubernetes, TDP
PrĆ©sentation de lāoffre Le Big Data et lāinformatique distribuĆ©e sont au cÅur dāAdaltas. Nous accompagnons nos partenaires dans le dĆ©ploiement, la maintenance, lāoptimisation et nouvellement leā¦
By BAUM Stephan
Dec 2, 2022
Comparaison des architectures de base de donnƩes : data warehouse, data lake and data lakehouse
Categories: Big Data, Data Engineering | Tags: Gouvernance des donnƩes, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse), Format de fichier
Les architectures de base de donnĆ©es ont fait lāobjet dāune innovation constante, Ć©voluant avec lāapparition de nouveaux cas dāutilisation, de contraintes techniques et dāexigences. Parmi les troisā¦
May 17, 2022
Collecte de logs Databricks vers Azure Monitor Ć l'Ć©chelle d'un workspace
Categories: Cloud computing, Data Engineering, Adaltas Summit 2021 | Tags: MĆ©triques, Supervision, Spark, Azure, Databricks, Log4j
Databricks est une plateforme optimisĆ©e dāanalyse de donn Ć©es, basĆ©e sur Apache Spark. La surveillance de la plateforme Databricks est cruciale pour garantir la qualitĆ© des donnĆ©es, les performances duā¦
By PLAYE Claire
May 10, 2022
PrƩsentation de Cloudera Data Platform (CDP)
Categories: Big Data, Cloud computing, Data Engineering | Tags: SDX, Big Data, Cloud, Cloudera, CDP, CDH, Analyse de donnƩes, Data Hub, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse)
Cloudera Data Platform (CDP) est une plateforme de cloud computing pour les entreprises. CDP fournit des outils intĆ©grĆ©s et multifonctionnels en libre-service afin dāanalyser et de centraliser lesā¦
Jul 19, 2021
Guide d'apprentissage pour vous former au Big Data & Ć L'IA avec la plateforme Databricks
Categories: Data Engineering, Formation | Tags: Cloud, Data Lake, Databricks, Delta Lake, MLflow
Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre Ć votre rythme et selon vos besoins. Il vous en coĆ»tera 2000 $ US pour un accĆØs illimitĆ©ā¦
May 26, 2021
Les certifications Microsoft Azure associƩes aux donnƩes
Categories: Cloud computing, Data Engineering | Tags: Gouvernance des donnƩes, Azure, Data Science
Microsoft Azure a des parcours de certification pour de nombreux postes techniques tels que dĆ©veloppeur, Data Engineers, Data Scientists et architect solution, entre autres. Chacune de cesā¦
Apr 14, 2021
Apache Liminal, quand le MLOps rencontre le GitOps
Categories: Big Data, Orchestration de conteneurs, Data Engineering, Data Science, Tech Radar | Tags: Data Engineering, CI/CD, Data Science, Deep Learning, DĆ©ploiement, Docker, GitOps, Kubernetes, Machine Learning, MLOps, Open source, Python, TensorFlow
Apache Liminal propose une solution clĆ©s en main permettant de dĆ©ployer un pipeline de Machine Learning. Cāest un projet open-source, qui centralise lāensemble des Ć©tapes nĆ©cessaires Ć lāentrainementā¦
Mar 31, 2021
Espace de stockage et temps de gƩnƩration des formats de fichiers
Categories: Data Engineering, Data Science | Tags: Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)
Le choix dāun format de fichier appropriĆ© est essentiel, que les donnĆ©es soient en transit ou soient stockĆ©es. Chaque format de fichier a ses avantages et ses inconvĆ©nients. Nous les avons couvertsā¦
Mar 22, 2021
TensorFlow Extended (TFX) : les composants et leurs fonctionnalitƩs
Categories: Big Data, Data Engineering, Data Science, Formation | Tags: Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, DĆ©ploiement, Machine Learning, MLOps, Open source, Python, TensorFlow
La mise en production des modĆØles de Machine Learning (ML) et de Deep Learning (DL) est une tĆ¢che difficile. Il est reconnu quāelle est plus sujette Ć lāĆ©chec et plus longue que la modĆ©lisationā¦
Mar 5, 2021
Connexion Ć ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)
Categories: Big Data, Cloud computing, Data Engineering | Tags: NiFi, Hadoop, HDFS, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), OAuth2
Alors que les projets Data construits sur le cloud deviennent de plus en plus rĆ©pandus, un cas dāutilisation courant consiste Ć interagir avec le stockage cloud Ć partir dāune plateforme Big Data onā¦
Nov 5, 2020
Suivi d'expƩriences avec MLflow sur Databricks Community Edition
Categories: Data Engineering, Data Science, Formation | Tags: Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn
Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre dāoutils permettant aux Data Scientists de crĆ©er des modĆØles plus rapidement augmente. Par consĆ©quent, la nĆ©cessitĆ© deā¦
Sep 10, 2020
TƩlƩchargement de jeux de donnƩes dans HDFS et Hive
Categories: Big Data, Data Engineering | Tags: Business Intelligence, Data Engineering, Data structures, Base de donnƩes, Hadoop, HDFS, Hive, Big Data, Analyse de donnƩes, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse)
Introduction De nos jours, lāanalyse de larges quantitĆ©s de donnĆ©es devient de plus en plus possible grĆ¢ce aux technologies du Big data (Hadoop, Spark,ā¦). Cela explique lāexplosion du volume deā¦
By NGOM Aida
Jul 31, 2020
Comparaison de diffƩrents formats de fichier en Big Data
Categories: Big Data, Data Engineering | Tags: Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers
Dans lāunivers du traitement des donnĆ©es, il existe diffĆ©rents types de formats de fichiers pour stocker vos jeu de donnĆ©es. Chaque format a ses propres avantages et inconvĆ©nients selon les cas dā¦
By NGOM Aida
Jul 23, 2020
Importer ses donnƩes dans Databricks : tables externes et Delta Lake
Categories: Data Engineering, Data Science, Formation | Tags: Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python
Au cours dāun projet dāapprentissage automatique (Machine Learning, ML), nous devons garder une trace des donnĆ©es test que nous utilisons. Cela est important Ć des fins dāaudit et pour Ć©valuer laā¦
May 21, 2020
Optimisation d'applicationS Spark dans Hadoop YARN
Categories: Data Engineering, Formation | Tags: Performance, Hadoop, Spark, Python
Apache Spark est un outil de traitement de donnĆ©es in-memory trĆØs rĆ©pandu en entreprise pour traiter des problĆ©matiques Big Data. LāexĆ©cution dāune application Spark en production nĆ©cessite desā¦
Mar 30, 2020
MLflow tutorial : une plateforme de Machine Learning (ML) Open Source
Categories: Data Engineering, Data Science, Formation | Tags: AWS, Azure, Databricks, Deep Learning, DĆ©ploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn
Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en mĆŖme temps une collecte de donnĆ©es de plus en plus importante dans tous les domaines, deā¦
Mar 23, 2020
Configuration Ć distance et auto-indexage des pipelines Logstash
Categories: Data Engineering, Infrastructure | Tags: Docker, Elasticsearch, Kibana, Logstash, Log4j
Logstash est un puissant moteur de collecte de donnĆ©es qui sāintĆØgre dans la suite Elastic (Elasticsearch - Logstash - Kibana). Lāobjectif de cet article est de montrer comment dĆ©ployer un clusterā¦
Dec 13, 2019
Stage Data Science & Data Engineer - ML en production et ingestion streaming
Categories: Data Engineering, Data Science | Tags: DevOps, Flink, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python
Contexte LāĆ©volution exponentielle des donnĆ©es a bouleversĆ© lāindustrie en redĆ©finissant les mĆ©thodes de stockages, de traitement et dāacheminement des donnĆ©es. Maitriser ces mĆ©thodes faciliteā¦
By WORMS David
Nov 26, 2019
InsƩrer des lignes dans une table BigQuery avec des colonnes complexes
Categories: Cloud computing, Data Engineering | Tags: GCP, BigQuery, SchƩma, SQL
Le service BigQuery de Google Cloud est une solution data warehouse conƧue pour traiter dāĆ©normes volumes de donnĆ©es avec un certain nombre de fonctionnalitĆ©s disponibles. Parmi toutes celles-ci, nousā¦
Nov 22, 2019
Mise en production d'un modĆØle de Machine Learning
Categories: Big Data, Data Engineering, Data Science, DevOps & SRE | Tags: DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, SchƩma
āLe Machine Learning en entreprise nĆ©cessite une vision globale [ā¦] du point de vue de lāingĆ©nierie et de la plateforme de donnĆ©esā, a expliquĆ© Justin Norman lors de son intervention sur leā¦
Sep 30, 2019
Spark Streaming partie 4 : clustering avec Spark MLlib
Categories: Data Engineering, Data Science, Formation | Tags: Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming
Spark MLlib est une bibliothĆØque Spark dāApache offrant des implĆ©mentations performantes de divers algorithmes dāapprentissage automatique supervisĆ©s et non supervisĆ©s. Ainsi, le framework Spark peutā¦
Jun 27, 2019
Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark
Categories: Big Data, Data Engineering, DevOps & SRE | Tags: Apache Spark Streaming, DevOps, Enseignement et tutorial, Spark
LāindisponibilitĆ© des services entraĆ®ne des pertes financiĆØres pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une applicationā¦
May 31, 2019
Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop
Categories: Data Engineering, Formation | Tags: Apache Spark Streaming, Spark, Python, Streaming
Spark est conƧu pour traiter des donnĆ©es streaming de maniĆØre fluide sur un cluster Hadoop multi-nÅuds, utilisant HDFS pour le stockage et YARN pour lāorchestration de tĆ¢ches. Ainsi, Spark Structuredā¦
May 28, 2019
Spark Streaming partie 1Ā : construction de data pipelines avec Spark Structured Streaming
Categories: Data Engineering, Formation | Tags: Apache Spark Streaming, Kafka, Spark, Big Data, Streaming
Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modĆØle Spark DataFrame. Le moteur Structuredā¦
Apr 18, 2019
Publier Spark SQL Dataframe et RDD avec Spark Thrift Server
Categories: Data Engineering | Tags: Thrift, JDBC, Hadoop, Hive, Spark, SQL
La nature distribuĆ©e et en-mĆ©moire du moteur de traitement Spark en fait un excellant candidat pour exposer des donnĆ©es Ć des clients qui souhaitent des latences faibles. Les dashboards, les notebooksā¦
Mar 25, 2019
Apache FlinkĀ : passĆ©, prĆ©sent et futur
Categories: Data Engineering | Tags: Pipeline, Flink, Kubernetes, Machine Learning, SQL, Streaming
Apache Flink est une petite pĆ©pite mĆ©ritant beaucoup plus dāattention. Plongeons nous dans son passĆ©, son Ć©tat actuel et le futur vers lequel il se dirige avec les keytones et prĆ©sentations de laā¦
Nov 5, 2018
Ingestion de Data Lake, quelques bonnes pratiques
Categories: Big Data, Data Engineering | Tags: NiFi, Gouvernance des donnƩes, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, SchƩma
La crĆ©ation dāun Data Lake demande de la rigueur et de lāexpĆ©rience. Voici plusieurs bonnes pratiques autour de lāingestion des donnĆ©es en batch et en flux continu que nous recommandons et mettons enā¦
By WORMS David
Jun 18, 2018
Apache Beam : un modĆØle de programmation unifiĆ© pour les pipelines de traitement de donnĆ©es
Categories: Data Engineering, DataWorks Summit 2018 | Tags: Apex, Beam, Pipeline, Flink, Spark
Dans cet article, nous allons passer en revue les concepts, lāhistoire et le futur dāApache Beam, qui pourrait bien devenir le nouveau standard pour la dĆ©finition des pipelines de traitement deā¦
May 24, 2018
Quelles nouveautĆ©s pour Apache Spark 2.3Ā ?
Categories: Data Engineering, DataWorks Summit 2018 | Tags: Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Streaming
Plongeons nous dans les nouveautĆ©s proposĆ©es par la nouvelle distribution 2.3 dāApache Spark. Cette article est composĆ© de recherches et dāinformations issues des prĆ©sentations suivantes du DataWorksā¦
May 23, 2018
Executer du Python dans un workflow Oozie
Categories: Data Engineering | Tags: REST, Oozie, Elasticsearch, Python
Les workflows Oozie permettent dāutiliser plusieurs actions pour exĆ©cuter du code, cependant il peut ĆŖtre dĆ©licat dāexĆ©cuter du Python, nous allons voir comment faire. Jāai rĆ©cemment implĆ©mentĆ© unā¦
Mar 6, 2018
Synchronisation Oracle vers Hadoop avec un CDC
Categories: Data Engineering | Tags: CDC, GoldenGate, Oracle, Hive, Sqoop, EntrepƓt de donnƩes (Data Warehouse)
Cette note rĆ©sulte dāune discussion autour de la synchronisation de donnĆ©es Ć©crites dans une base de donnĆ©es Ć destination dāun entrepĆ“t stockĆ© dans Hadoop. Merci Ć Claude Daub de GFI qui la rĆ©digeaā¦
By WORMS David
Jul 13, 2017
EclairJS - Un peu de Spark dans les Web Apps
Categories: Data Engineering, Front End | Tags: Jupyter, Spark, JavaScript
PrĆ©sentation de David Fallside, IBM. Les images sont issues des slides de prĆ©sentation. Introduction Le dĆ©veloppement dāapplications Web est passĆ© dāun environnement Java vers des environnementsā¦
By WORMS David
Jul 17, 2016
Diviser des fichiers HDFS en plusieurs tables Hive
Categories: Data Engineering | Tags: Flume, Pig, HDFS, Hive, Oozie, SQL
Je vais montrer comment scinder fichier CSV stockĆ© dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter lesā¦
By WORMS David
Sep 15, 2013
Stockage HDFS et Hive - comparaison des formats de fichiers et compressions
Categories: Data Engineering | Tags: Business Intelligence, Hive, ORC, Parquet, Format de fichier
Il y a quelques jours, nous avons conduit un test dans le but de comparer diffĆ©rents format de fichiers et mĆ©thodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs Ć HDFSā¦
By WORMS David
Mar 13, 2012
Deux Hive UDAF pour convertir une aggregation vers une map
Categories: Data Engineering | Tags: Java, HBase, Hive, Format de fichier
Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes JavaĀ : āUDAFToMapā et āUDAFToOrderedMapā ou vousā¦
By WORMS David
Mar 6, 2012