Articles publiés
Insérer des lignes dans une table BigQuery avec des colonnes complexes
Catégories : Cloud computing, Data Engineering | Tags : GCP, BigQuery, Schéma, SQL
Le service BigQuery de Google Cloud est une solution data warehouse conçue pour traiter d’énormes volumes de données avec un certain nombre de fonctionnalités disponibles. Parmi toutes celles-ci, nous…
Par BEREZOWSKI César
22 nov. 2019
Activer Aladdin eToken dans Firefox sur Archlinux
Catégories : Hack | Tags : Arch Linux, Cybersécurité, Firefox, sécurité, Carte à puce, 2FA
Si comme moi vous êtes sur Archlinux et que vous disposez d’un eToken Aladdin pour vous authentifier, voyons comment nous pouvons le monter dans Firefox pour l’authentification Web. Un eToken Aladdin…
Par BEREZOWSKI César
12 juil. 2019
Apache Flink : passé, présent et futur
Catégories : Data Engineering | Tags : Pipeline, Flink, Kubernetes, Machine Learning, SQL, Streaming
Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…
Par BEREZOWSKI César
5 nov. 2018
Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Streaming
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
Par BEREZOWSKI César
23 mai 2018
Executer du Python dans un workflow Oozie
Catégories : Data Engineering | Tags : REST, Oozie, Elasticsearch, Python
Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…
Par BEREZOWSKI César
6 mars 2018
De Dockerfile à Ansible Containers
Catégories : Orchestration de conteneurs, DevOps & SRE, Open Source Summit Europe 2017 | Tags : Shell, Ansible, Docker, Docker Compose, YAML
Cette présentation était une introduction au format Dockerfile et à l’outil Ansible Containers puis une comparaison des deux produits. Elle fut réalisée par Tomas Tomecek, membre de l’équipe…
Par BEREZOWSKI César
25 oct. 2017
Cloudera Sessions Paris 2017
Catégories : Big Data, Évènements | Tags : EC2, Altus, CDSW, SDX, Azure, Cloudera, CDH, Data Science, PaaS
Adaltas était présent le 5 octobre aux Cloudera Sessions, la journée de présentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. Note : les informations ont été…
Par BEREZOWSKI César
16 oct. 2017
Exposition de brokers Kafka sur deux interfaces réseaux
Catégories : Infrastructure | Tags : Cybersécurité, VLAN, Kafka, Cloudera, CDH, Réseau
Une installation Big Data nécessite généralement d’avoir plusieurs interfaces réseaux, nous allons voir comment paramétrer Kafka pour écouter sur plus d’une. La procédure décrite dans cette article a…
Par BEREZOWSKI César
22 juil. 2017
Changer la couleur de la topbar d'Ambari
Catégories : Big Data, Hack | Tags : Ambari, Front-end
J’étais récemment chez un client qui a plusieurs environnements (Prod, Integration, Recette, …) sur HDP avec chacun son instance Ambari. L’une des questions soulevée par le client est la suivante…
Par BEREZOWSKI César
9 juil. 2017
MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : MiNiFi, NiFi, C++, HDF, Cloudera, HDP, IOT
Aldrin nous a rapidement présenté Apache NiFi puis expliqué d’où est venu MiNiFi : un agent NiFi à déployer sur un embarqué afin d’amener la donnée à pipeline d’un cluster NiFi (ex : IoT). Ce poste…
Par BEREZOWSKI César
8 juil. 2017
Apache Apex : l'analytique Big Data nouvelle génération
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Storm, Tools, Flink, Hadoop, Kafka, Data Science, Machine Learning
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…
Par BEREZOWSKI César
17 juil. 2016
Maitrisez vos workflows avec Apache Airflow
Cat égories : Big Data, Tech Radar | Tags : DevOps, Airflow, Cloud, Python
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Airflow par Christian Trebing de chez BlueYonder. Introduction Use case : comment traiter des données arrivant…
Par BEREZOWSKI César
17 juil. 2016