Articles publiés en 2020

Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin

Catégories : Big Data, Infrastructure | Tags : Maven, Debug, GitHub, Java, Hadoop, HBase, Hive, Spark, CDP, Git, HDP, Versions et évolutions, TDP, Tests unitaires

L’écosystème Hadoop a donné naissance à de nombreux projets populaires tels que HBase, Spark et Hive. Bien que des technologies plus récentes commme Kubernetes et les stockages objets compatibles S…

Par SCHOUKROUN Leo

18 déc. 2020

Développement accéléré de modèles avec H2O AutoML et Flow

Catégories : Data Science, Formation | Tags : PySpark, Automation, JDBC, R, Avro, Hadoop, HDFS, Hive, ORC, Parquet, Cloud, CSV, H2O, Machine Learning, MLOps, On-premises, Open source, Python, Scala

La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…

Par KAFERLE DEVISSCHERE Petra

10 déc. 2020

Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Catégories : Big Data, Cloud computing, Data Engineering | Tags : NiFi, HDF, Hadoop, HDFS, MapReduce, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), Big Data, Cloud, Data Lake, HDP, OAuth2

Alors que les projets Data construits sur le cloud deviennent de plus en plus répandus, un cas d’utilisation courant consiste à interagir avec le stockage cloud à partir d’une plateforme Big Data on…

Par LEONARD Gauthier

5 nov. 2020

OAuth2 et OpenID Connect, une introduction douce et fonctionnelle (Part 1)

Catégories : Orchestration de conteneurs, Cybersécurité | Tags : CNCF, Go Lang, JAMstack, LDAP, Active Directory, sécurité, Kubernetes, OAuth2, OpenID Connect, Storage

La compréhension d’OAuth2, d’OpenID et d’OpenID Connect (OIDC), comment ils sont liés, comment les communications sont établies, comment s’architecture votre application et que faire des différents…

Par WORMS David

17 nov. 2020

Reconstruction de Hive dans HDP : patch, test et build

Catégories : Big Data, Infrastructure | Tags : Maven, Debug, GitHub, Java, Hadoop, Hive, CDP, Git, HDP, Versions et évolutions, TDP, Tests unitaires

La distribution HDP d’Hortonworks va bientôt être dépreciée a profit de la distribution CDP proposée par Cloudera. Un client nous a demandé d’intégrer d’une nouvelle feature de Apache Hive sur son…

Par SCHOUKROUN Leo

6 oct. 2020

OAuth2 et OpenID Connect pour les microservices et les applications publiques (Partie 2)

Catégories : Orchestration de conteneurs, Cybersécurité | Tags : CNCF, Go Lang, JAMstack, LDAP, Micro Services, sécurité, CoffeeScript, JavaScript Object Notation (JSON), Kubernetes, Node.js, OAuth2, OpenID Connect

En utilisant OAuth2 et OpenID Connect, il est important de comprendre comment se déroule le flux d’autorisation, qui appelle l’Authorization Server et comment stocker les tokens. De plus, les…

Par WORMS David

20 nov. 2020

Versionnage des données et ML reproductible avec DVC et MLflow

Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Exploitation, Spark, Databricks, Delta Lake, Git, Machine Learning, MLflow, Registre, Storage

Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…

Par KAFERLE DEVISSCHERE Petra

30 sept. 2020

Suivi d'expériences avec MLflow sur Databricks Community Edition

Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn

Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…

Par KAFERLE DEVISSCHERE Petra

10 sept. 2020

Gestion des versions de vos jeux de données avec Data Version Control (DVC) et Git

Catégories : Data Science, DevOps & SRE | Tags : DevOps, GitHub, Infrastructure, Exploitation, Data Hub, Databricks, Git, GitLab, GitOps, SCM

L’utilisation d’un système de contrôle de version tel que Git pour le code source est une bonne pratique et une norme de l’industrie. Étant donné que les projets se concentrent de plus en plus sur les…

Par JOUET Grégor

3 sept. 2020

Téléchargement de jeux de données dans HDFS et Hive

Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data Engineering, Data structures, Base de données, Hadoop, HDFS, Hive, Big Data, Analyse de données, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse)

Introduction De nos jours, l’analyse de larges quantités de données devient de plus en plus possible grâce aux technologies du Big data (Hadoop, Spark,…). Cela explique l’explosion du volume de…

Par NGOM Aida

31 juil. 2020

Architecture de plugins en JavaScript et Node.js avec Plug and Play

Catégories : Front End, Node.js | Tags : Asynchrone, DevOps, Packaging, Programmation, Agile, IaC, JavaScript, Open source, Versions et évolutions

Plug and Play aide les auteurs de bibliothèques et d’applications à introduire une architecture de plugins dans leur code. Il simplifie l’exécution de code complexe avec des points d’interception bien…

Par WORMS David

28 août 2020

Installation d'Hadoop depuis le code source : build, patch et exécution

Catégories : Big Data, Infrastructure | Tags : Maven, Debug, Java, LXD, Hadoop, HDFS, CDP, Docker, HDP, TDP, Tests unitaires

Les distributions commerciales d’Apache Hadoop ont beaucoup évolué ces dernières années. Les deux concurrents Cloudera et Hortonworks ont fusionné : HDP ne sera plus maintenu et CDH devient CDP. HP a…

Par SCHOUKROUN Leo

4 août 2020

Automatisation d'un workflow Spark sur GCP avec GitLab

Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : Data Engineering, DevOps, Enseignement et tutorial, Airflow, Spark, CI/CD, Cloud, Git, GitLab, GitOps, GCE, GCP, Terraform, IAM, Tests unitaires

Un workflow consiste à automiatiser une succéssion de tâche qui dont être menée indépendemment d’une intervention humaine. C’est un concept important et populaire, s’appliquant particulièrement à un…

Par DE BAECQUE Ferdinand

16 juin 2020

Importer ses données dans Databricks : tables externes et Delta Lake

Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Machine Learning, Python

Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…

Par KAFERLE DEVISSCHERE Petra

21 mai 2020

Premier pas avec Apache Airflow sur AWS

Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : PySpark, Data Engineering, DevOps, Enseignement et tutorial, Tools, Airflow, Hive, Oozie, Spark, AWS, Amazon S3, Docker, Docker Compose, Python

Apache Airflow offre une solution répondant au défi croissant d’un paysage de plus en plus complexe d’outils de gestion de données, de scripts et de traitements d’analyse à gérer et coordonner. C’est…

Par COINTEPAS Aargan

5 mai 2020

Exposer un cluster Ceph basé sur Rook à l'extérieur de Kubernetes

Catégories : Orchestration de conteneurs | Tags : Debug, Rook, SSH, Big Data, Ceph, Docker, Kubernetes

Nous avons récemment créé un cluster Hadoop basé sur des containers LXD et nous voulions être en mesure d’appliquer des quotas sur certains filesystems (par exemple : logs de service, repertoires…

Par SCHOUKROUN Leo

16 avr. 2020

Snowflake, le Data Warehouse conçu pour le cloud, introduction et premiers pas

Catégories : Business Intelligence, Cloud computing | Tags : AWS, Azure, Cloud, Data Lake, Data Science, Entrepôt de données (Data Warehouse), GCP, Snowflake

Snowflake est une plateforme d’entrepôt de données en mode SaaS qui centralise, dans le cloud, le stockage et le traitement de données structurées et semi-structurées. La génération croissante de…

Par HAMELIN-BOYER Jules

7 avr. 2020

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Catégories : Data Engineering, Data Science, Formation | Tags : Arch Linux, R, MXNet, Spark MLlib, AWS, Azure, Databricks, Deep Learning, Déploiement, H2O, Keras, Machine Learning, MLflow, MLOps, Python, PyTorch, Scikit-learn, TensorFlow, XGBoost

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…

Par KAFERLE DEVISSCHERE Petra

23 mars 2020

Optimisation d'applicationS Spark dans Hadoop YARN

Catégories : Data Engineering, Formation | Tags : Mesos, Performance, Hadoop, Spark, YARN, Big Data, Clustering, Kubernetes, Python

Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…

Par DE BAECQUE Ferdinand

30 mars 2020

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask

Catégories : Data Science, Tech Radar | Tags : CLI, Enseignement et tutorial, Serveur, API, Deep Learning, Format de fichier, Machine Learning, Machine Learning, Python

Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…

Par SOARES Robert Walid

2 mars 2020

Installer et débugger Kubernetes dans LXD

Catégories : Orchestration de conteneurs | Tags : Debug, Linux, LXD, Docker, Kubernetes, Noeud

Nous avons récemment déployé des clusters Kubernetes avec le besoin de collocalliser les clusters sur des noeuds physiques au sein de nos infrastructures. Nous aurions pu utiliser des machines…

Par SCHOUKROUN Leo

4 févr. 2020

Sécurisation des services avec Open Policy Agent

Catégories : Cybersécurité, Gouvernance des données | Tags : Ranger, Go Lang, REST, Tools, Kafka, Autorisation, Big Data, Cloud, Docker, Kubernetes, SSL/TLS

Open Policy Agent est un un moteur de règles multifonction. L’objectif principal du projet est de centraliser l’application de règles de sécurité à travers la stack cloud native. Le projet a été crée…

Par SCHOUKROUN Leo

22 janv. 2020

Comparaison de différents formats de fichier en Big Data

Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Base de données, Avro, Hadoop, HDFS, Hive, Kafka, MapReduce, ORC, Parquet, Spark, Traitement par lots, Big Data, CSV, Analyse de données, JavaScript Object Notation (JSON), Kubernetes, MongoDB, Protocol Buffers, XML

Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…

Par NGOM Aida

23 juil. 2020