Articles publiés en 2020
Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin
Catégories : Big Data, Infrastructure | Tags : Maven, Debug, GitHub, Java, Hadoop, HBase, Hive, Spark, CDP, Git, HDP, Versions et évolutions, TDP, Tests unitaires
L’écosystème Hadoop a donné naissance à de nombreux projets populaires tels que HBase, Spark et Hive. Bien que des technologies plus récentes commme Kubernetes et les stockages objets compatibles S…
Par SCHOUKROUN Leo
18 déc. 2020
Développement accéléré de modèles avec H2O AutoML et Flow
Catégories : Data Science, Formation | Tags : PySpark, Automation, JDBC, R, Avro, Hadoop, HDFS, Hive, ORC, Parquet, Cloud, CSV, H2O, Machine Learning, MLOps, On-premises, Open source, Python, Scala
La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…
10 déc. 2020
Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)
Catégories : Big Data, Cloud computing, Data Engineering | Tags : NiFi, HDF, Hadoop, HDFS, MapReduce, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), Big Data, Cloud, Data Lake, HDP, OAuth2
Alors que les projets Data construits sur le cloud deviennent de plus en plus répandus, un cas d’utilisation courant consiste à interagir avec le stockage cloud à partir d’une plateforme Big Data on…
Par LEONARD Gauthier
5 nov. 2020
OAuth2 et OpenID Connect, une introduction douce et fonctionnelle (Part 1)
Catégories : Orchestration de conteneurs, Cybersécurité | Tags : CNCF, Go Lang, JAMstack, LDAP, Active Directory, sécurité, Kubernetes, OAuth2, OpenID Connect, Storage
La compréhension d’OAuth2, d’OpenID et d’OpenID Connect (OIDC), comment ils sont liés, comment les communications sont établies, comment s’architecture votre application et que faire des différents…
Par WORMS David
17 nov. 2020
Reconstruction de Hive dans HDP : patch, test et build
Catégories : Big Data, Infrastructure | Tags : Maven, Debug, GitHub, Java, Hadoop, Hive, CDP, Git, HDP, Versions et évolutions, TDP, Tests unitaires
La distribution HDP d’Hortonworks va bientôt être dépreciée a profit de la distribution CDP proposée par Cloudera. Un client nous a demandé d’intégrer d’une nouvelle feature de Apache Hive sur son…
Par SCHOUKROUN Leo
6 oct. 2020
OAuth2 et OpenID Connect pour les microservices et les applications publiques (Partie 2)
Catégories : Orchestration de conteneurs, Cybersécurité | Tags : CNCF, Go Lang, JAMstack, LDAP, Micro Services, sécurité, CoffeeScript, JavaScript Object Notation (JSON), Kubernetes, Node.js, OAuth2, OpenID Connect
En utilisant OAuth2 et OpenID Connect, il est important de comprendre comment se déroule le flux d’autorisation, qui appelle l’Authorization Server et comment stocker les tokens. De plus, les…
Par WORMS David
20 nov. 2020
Versionnage des données et ML reproductible avec DVC et MLflow
Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Exploitation, Spark, Databricks, Delta Lake, Git, Machine Learning, MLflow, Registre, Storage
Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…
30 sept. 2020
Suivi d'expériences avec MLflow sur Databricks Community Edition
Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn
Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…
10 sept. 2020
Gestion des versions de vos jeux de données avec Data Version Control (DVC) et Git
Catégories : Data Science, DevOps & SRE | Tags : DevOps, GitHub, Infrastructure, Exploitation, Data Hub, Databricks, Git, GitLab, GitOps, SCM
L’utilisation d’un système de contrôle de version tel que Git pour le code source est une bonne pratique et une norme de l’industrie. Étant donné que les projets se concentrent de plus en plus sur les…
Par JOUET Grégor
3 sept. 2020
Téléchargement de jeux de données dans HDFS et Hive
Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data Engineering, Data structures, Base de données, Hadoop, HDFS, Hive, Big Data, Analyse de données, Data Lake, Lakehouse, Entrepôt de données (Data Warehouse)
Introduction De nos jours, l’analyse de larges quantités de données devient de plus en plus possible grâce aux technologies du Big data (Hadoop, Spark,…). Cela explique l’explosion du volume de…
Par NGOM Aida
31 juil. 2020