Exploitation

Articles associés

Versionnage des données et ML reproductible avec DVC et MLflow

Versionnage des données et ML reproductible avec DVC et MLflow

Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Databricks, Delta Lake, Git, Machine Learning, MLflow, Storage

Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…

KAFERLE DEVISSCHERE Petra

Par KAFERLE DEVISSCHERE Petra

30 sept. 2020

Gestion des versions de vos jeux de données avec Data Version Control (DVC) et Git

Gestion des versions de vos jeux de données avec Data Version Control (DVC) et Git

Catégories : Data Science, DevOps & SRE | Tags : DevOps, Infrastructure, Exploitation, Git, GitOps, SCM

L’utilisation d’un système de contrôle de version tel que Git pour le code source est une bonne pratique et une norme de l’industrie. Étant donné que les projets se concentrent de plus en plus sur les…

JOUET Grégor

Par JOUET Grégor

3 sept. 2020

Mise en production d'un modèle de Machine Learning

Mise en production d'un modèle de Machine Learning

Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma

“Le Machine Learning en entreprise nécessite une vision globale […] du point de vue de l’ingénierie et de la plateforme de données”, a expliqué Justin Norman lors de son intervention sur le…

RYNKIEWICZ Oskar

Par RYNKIEWICZ Oskar

30 sept. 2019

Auto-scaling de Druid avec Kubernetes

Auto-scaling de Druid avec Kubernetes

Catégories : Big Data, Business Intelligence, Orchestration de conteneurs | Tags : EC2, Druid, Helm, Métriques, OLAP, Exploitation, Orchestration de conteneurs, Cloud, CNCF, Analyse de données, Kubernetes, Prometheus, Python

Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est…

SCHOUKROUN Leo

Par SCHOUKROUN Leo

16 juil. 2019

Migration de cluster et de traitements entre Hadoop 2 et 3

Migration de cluster et de traitements entre Hadoop 2 et 3

Catégories : Big Data, Infrastructure | Tags : Shiro, Erasure Coding, Rolling Upgrade, HDFS, Spark, YARN, Docker

La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…

BAKALIAN Lucas

Par BAKALIAN Lucas

25 juil. 2018

Ingestion de Data Lake, quelques bonnes pratiques

Ingestion de Data Lake, quelques bonnes pratiques

Catégories : Big Data, Data Engineering | Tags : NiFi, Gouvernance des données, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, Schéma

La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…

WORMS David

Par WORMS David

18 juin 2018

Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak

Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak

Catégories : Big Data, Cloud computing, DataWorks Summit 2018 | Tags : Cloudbreak, Exploitation, Hadoop, AWS, Azure, GCP, HDP, OpenStack

Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…

RUMMENS Joris

Par RUMMENS Joris

28 mai 2018

Ambari - Comment utiliser les blueprints

Ambari - Comment utiliser les blueprints

Catégories : Big Data, DevOps & SRE | Tags : Ambari, Ranger, Automation, DevOps, Exploitation, REST

En tant qu’ingénieurs d’infrastructure chez Adaltas, nous déployons des clusters. Beaucoup de clusters. Généralement, nos clients choisissent d’utiliser une distribution telle que Hortonworks HDP ou…

RUMMENS Joris

Par RUMMENS Joris

17 janv. 2018

Administration Hadoop multitenant avancée - protection de Zookeeper

Administration Hadoop multitenant avancée - protection de Zookeeper

Catégories : Big Data, Infrastructure | Tags : DoS, iptables, Exploitation, Passage à l'échelle, Zookeeper, Clustering, Consensus

Zookeeper est un composant critique au fonctionnement d’Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège…

SAUVAGE Pierre

Par SAUVAGE Pierre

5 juil. 2017

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain