Adaltas Summit 2022 Morzine

Pour sa troisième édition, toute l’équipe d’Adaltas se retrouve à Morzine pour une semaine entière avec 2 jours dédiés à la technologie les 15 et 16 septembre 2022.

Les intervenants choisissent l’un des 3 formats disponibles :

Présentation : entre 20 minutes et 1 heure
Démonstration : entre 45mn et 2h
Formation : entre 1h et 2h

Programme

Une fois qu’une intervention a été réalisée, ses ressources supportées ainsi qu’un article couvrant l’intervention sont publiés sur le site Adaltas. Voici le calendrier et la liste des sujets abordés durant cette semaine.

Jeudi 15 septembre 2022

9:30 Kubernetes Networking Lab
10:45 Exploitation de clusters Kafka sur Kubernetes avec Strimzi
12:00 Exposez vos conteneurs et machines virtuelles avec une IP publique
14:30 DuckDB introduction
15:30 LXD et Terraform pour le déploiement d’environnements
16:30 Comparaison des frameworks de data quality
17:15 Un bref aperçu d’Apache Arrow

Vendredi 16 septembre 2022

9:30 Introduction à SingleStoreDB, la base de données transactionnelle et analytique
10:45 Introduction à Apache Iceberg, le format de table ouvert
12:00 Introduction à Apache Kyuubi
14:30 Bases de données vectorielles, présentation de Milvus
15:30 tdp-server, gestion du service de repos pour les clusters tdp
16:30 Ballista, un moteur de requête distribué basé sur Rust
17:15 La protection des données dans le monde

Abstracts

Kubernetes Networking Lab

Intervenant : Paul-Adrien CORDONNIER
Durée : 1h15
Format : Présentation + démo
Horaire : Thursday, September 15th, 2022 at 9:30

L’objectif de ce lab est de fournir à tous une introduction au monde des communications réseau Kubernetes. Les concepts élémentaires sont couverts et pratiqués dans un environnement sandbox.

À la fin de la session, nous devrions tous être en mesure de savoir à quoi sert chaque élément de la pile réseau, comment ils sont utilisés. Le lab doit également servir de rappel lorsque la confusion se produira inévitablement au cours de votre parcours Kubernetes.

Voici les concepts abordés :

Low level basic networking (CNI)
Kubernetes networking API (Services)
DNS
Exposition externe d’applications Kubernetes (LoadBalancer, Ingress, Gateways)
Service Mesh

Exploitation de clusters Kafka sur Kubernetes avec Strimzi

Intervenant : Leo SCHOUKROUN
Durée : 1h15
Format : Présentation + démo
Horaire : Jeudi 15 septembre 2022 à 10h45

Kubernetes n’est pas la première plate-forme qui vient à l’esprit pour exécuter des clusters Apache Kafka.

Nous passerons en revue les bases de Strimzi, un opérateur Kafka pour Kubernetes organisé par Red Hat. Un accent particulier sera mis sur le problème de stockage qui est souvent un point sensible sur les clusters Kubernetes en métal nu.

Nous comparerons également Strimzi avec d’autres opérateurs Kafka en fournissant leurs avantages et inconvénients.

La présentation se terminera par une démonstration présentant divers cas d’utilisation de Strimzi.

Exposez vos conteneurs et machines virtuelles avec une IP publique

Intervenant : David WORMS
Durée : 1h
Format : Présentation + démo
Horaire : Jeudi 15 septembre 2022 à 12h00

Les machines virtuelles et les conteneurs sont généralement exposés au Web avec la redirection de port. Dans ce cas, l’adresse IP publique est partagée avec la machine hôte. Bien que cela fonctionne dans de nombreux scénarios, il est parfois nécessaire d’associer la machine invitée à une adresse IP publique distincte, par exemple pour héberger votre propre serveur de messagerie, pour accéder à un réseau interne ou pour exposer les services Kubernetes.

L’idée générale est d’acheminer le trafic d’une adresse IP publique ou d’un sous-réseau CIDR vers une machine invitée s’exécutant à l’intérieur d’une machine hôte. Autrement dit, la connectivité expose les conteneurs et les machines virtuelles avec une adresse publique statique.

Le méchanisme fonctionne de manière transparente avec n’importe quel hyperviseur, y compris VMware ESXi, Citrix Xen Server, OpenStack et Proxmox, … La procédure couverte utilise LXD en mode cluster.

DuckDB

Intervenant : Stephan BAUM
Durée : 1h
Format : Présentation + démo
Horaire : Jeudi 15 septembre 2022 à 14h30

DuckDB est un SGBD OLAP vectorisé en colonne intégré utilisant des requêtes SQL.

Nous présenterons l’architecture et les spécificités du SGBD DuckDB, pourquoi il a été créé, comment il atteint ses performances en décrivant le processus d’indexation ART et nous expliquerons dans quels cas DuckDB doit être utilisé ou non. Finalement, une démo illustrera des fonctionnalités simples de DuckDB dans un notebook Python et comment il se rapporte à Pandas et Apache Arrow.

LXD et Terraform pour le déploiement d’environnements

Intervenant : Gauthier LEONARD
Durée : 1h
Format : Présentation + démo
Horaire : Jeudi 15 septembre 2021 à 15h30

LXD est une techonologie de conteneurs moderne, sécurisé et puissant ainsi qu’un gestionnaire de machines virtuelles. LXD présente des avantages significatifs par rapport aux autres outils de virtualisation standard (notamment Vagrant) :

Interface unifiée pour la gestion des conteneurs, des machines virtuelles et des réseaux
Approvisionnement ultra rapide grâce aux conteneurs systèmes
Redimensionnement en direct des conteneurs/VM
Fonctionnement à la fois local et sur plusieurs clusters d’hôtes (donc utilisable à la fois pour le développement et la production)

Pourtant, l’API LXD, la CLI LXC et le cloud-init sont assez difficiles à appréhender pour les nouveaux utilisateurs et ne permettent pas de versionner facilement les configurations d’environnement.

Le provider LXD Terraform est une solution élégante pour faire de l’infra-as-code au-dessus de LXD. Dans la démo, nous verrons comment migrer de Vagrant+VirtualBox vers Terraform+LXD pour les environnements de développement locaux.

Comparaison des frameworks de data quality

Intervenant : Petra KAFERLE DEVISSCHERE
Durée : 45min
Format : Présentation + démo
Horaire : Jeudi 15 septembre 2022 à 16h30

La qualité des données est un problème important que de nombreuses entreprises n’ont pas encore résolu efficacement.

Même lorsque les tests sont implémentés, ils sont exécutés manuellement sur un sous-ensemble de tables. Dernièrement, je participais à la mise en place d’un pipeline automatisé. En fonction de leurs besoins et de la pile technique, j’ai proposé plusieurs bibliothèques pouvant être utilisées à cet effet et un PoC avec celui sélectionné.

Je voudrais partager l’expérience sur le sujet, décrire les frameworks les plus populaires actuellement pour la validation des données et présenter leurs avantages et inconvénients. A savoir, ces frameworks sont :

Deequ
Great Expectations
Delta Live Tables (DLT)
Soda

Un bref aperçu d’Apache Arrow

Intervenant : Albert Konrad
Durée : 45min
Format : Présentation + démo
Horaire : Jeudi 15 septembre 2022 à 17h15

Est-ce une plate-forme de développement de logiciels ? Est-ce un format de stockage de données en mémoire ? Ou est-ce juste un format de fichier ? Non, c’est Apache Arrow.

Nous examinerons très brièvement ce qu’est Apache Arrow, quel(s) problème(s) il résout et comment l’aborder en tant qu’ingénieurs de données. Dans une démo rapide, nous testerons également si Apache Arrow tient sa promesse.

Introduction à SingleStoreDB, la base de données transactionnelle et analytique

Intervenant : Sergei Kudinov
Durée : 1h15
Format : Présentation
Horaire : Vendredi 16 septembre 2022 à 9h30

SingleStoreDB unifie les transactions et les analyses dans un seul moteur pour permettre un accès à faible latence à de grands ensembles de données. Avec son stockage universel breveté, SingleStore permet de traiter les charges de travail opérationnelles et analytiques à l’aide d’un seul type de table. Conçu pour les développeurs et les architectes, SingleStoreDB est basé sur une architecture SQL distribuée, offrant des performances de 10 à 100 millisecondes sur des requêtes complexes.

La présentation couvrira l’architecture et les techniques d’optimisation grâce auxquelles SingleStore gagne en performance.

Introduction à Apache Iceberg, le format de table ouvert

Intervenant : Yanis Bariteau
Durée : 1h15
Format : Présentation + démo
Horaire : Vendredi 16 septembre 2022 à 10h45

Iceberg est actuellement utilisé par des organisations telles que Netflix, Apple, Adobe, LinkedIn, Expedia, Stripe et d’autres en tant que norme ouverte pour les grandes tables analytiques dans le cloud.

Il s’agit d’un format de tableau pour les ensembles de données analytiques qui peuvent s’interfacer avec une large gamme de moteurs de calcul. Il dispose d’une tonne de fonctionnalités qui permettent aux professionnels des données de gérer avec succès des données volumineuses, même jusqu’à des dizaines de pétaoctets, en plus des recherches hautes performances sur les données au repos.

Introduction à Apache Kyuubi

Intervenant : Guillaume Holdorf
Durée : 45min
Format : Présentation
Horaire : Vendredi 16 septembre 2022 à 12h00

Apache Kyuubi démocratise l’accès à votre solution de stockage de données en autorisant les requêtes SQL depuis n’importe quel client ODBC/JDBC. Les serveurs Kyuubi vous permettent de servir un grand nombre de requêtes de manière distribuée et assurent HA, hautes performances et accès sécurisé à vos données.

Dans cette présentation nous verrons les différentes fonctionnalités d’Apache Kyuubi et ce qu’elles permettent de faire.

Bases de données vectorielles, présentation de Milvus

Intervenant : Tobias Chavarria
Durée : 45min
Format : Présentation + démo
Horaire : Vendredi 16 septembre 2022 à 14:3O

Milvus est une base de données vectorielles open source, conçue pour une recherche de similarité évolutive. Il fait partie de la LF AI & Data Foundation.

Milvus fournit des fonctionnalités telles que les opérations CRUD, le filtrage des métadonnées et la mise à l’échelle horizontale et offre :

Hautement disponible
Hautement évolutif
Cloud natif

tdp-server, gestion du service de repos pour les clusters tdp

Intervenant : Guillaume BOUTRY
Durée : 1h
Format : Présentation + démo
Horaire : Vendredi 16 septembre 2021 à 15:15

tdp-server est le service Web qui expose les API REST sur les fonctionnalités principales de tdp-lib tout en offrant des capacités multi-utilisateurs, la sécurité et des informations plus contextuelles aux déploiements.

Pour rappel, les fonctionnalités principales de tdp-lib sont la planification des tâches (via une définition de DAG) et la gestion des versions de variables (via les dépots git).

Avec tdp-server, vous pourrez gérer les services et les composants comme des ressources où vous pourrez utiliser les différents points de terminaison pour modifier la configuration (avec GET, PUT (remplace), PATCH (modifie le courant)). Vous ne pouvez pas ajouter de services/composants à l’aide de POST ni les supprimer à l’aide de DELETE. Savoir quel service/composant est disponible se fait via tdp-lib en utilisant ses fonctionnalités de découverte.

Ensuite, la fonctionnalité la plus importante est le déploiement (deploy), avec le déploiement, vous pourrez effectuer des actions sur le cluster. Il s’agit d’un point de terminaison simple, contenant trois paramètres : targets, sources, et filter.

Ballista, un moteur de requête distribué basé sur Rust

Intervenant : Gonzalo Etse
Durée : 45min
Format : Présentation
Horaire : Vendredi 16 septembre 2022 à 16h15

Ballista est un moteur de calcul distribué construit avec Rust et tirant parti d’Apache Arrow, Arrow Flight et DataFusion. Son architecture moderne permet à d’autres langages de programmation, tels que Python, C++ et Java, de fonctionner sans les limites de la sérialisation.

Apache Arrow permet une utilisation en mémoire, tandis que Arrow Flight offre un transfert de données efficace entre les processus. De plus, DataFusion aux côtés de technologies telles que Google Protocol Buffers permettra une utilisation rapide et efficace de la mémoire entre les applications.

Ballista est toujours en cours d’élaboration et est mis en œuvre au-dessus de DataFusion. Bien qu’encore à ses débuts, l’architecture offre une excellente efficacité de la mémoire et l’utilisation de la mémoire peut être 5 à 10 fois inférieure à celle d’Apache Spark dans certains cas, ce qui signifie que davantage de traitements peut tenir sur un seul nœud, ce qui réduit la surcharge du calcul distribué.

Data protection around the world

Intervenant : Paul Farault
Durée : 45min
Format : Présentation
Horaire : Vendredi 16 septembre 2022 à 17h00

La protection des données est un sujet fondamental pour les entreprises. Non seulement pour les données personnelles (des clients, des utilisateurs ou des employés), mais aussi pour les données de l’entreprise elle-même.

Ces deux éléments sont abordés, depuis l’affaire Alstom - confrontée au FCPA et au DOJ en 2014 - jusqu’aux règles fondamentales concernant la protection des données personnelles imposées par le RGPD.

Cette présentation marque la première étape d’une série sur la protection des données. Les prochains épisodes aborderont les réponses techniques à ces problèmes.

Partagez cet article