Articles publiés

Insérer des lignes dans une table BigQuery avec des colonnes complexes
Catégories : Cloud computing, Data Engineering | Tags : GCP, BigQuery, Schéma, SQL
Le service BigQuery de Google Cloud est une solution data warehouse conçue pour traiter d’énormes volumes de données avec un certain nombre de fonctionnalités disponibles. Parmi toutes celles-ci, nous…
Par BEREZOWSKI César
22 nov. 2019

Activer Aladdin eToken dans Firefox sur Archlinux
Catégories : Hack | Tags : Arch Linux, Cybersécurité, Firefox, sécurité, Carte à puce, 2FA
Si comme moi vous êtes sur Archlinux et que vous disposez d’un eToken Aladdin pour vous authentifier, voyons comment nous pouvons le monter dans Firefox pour l’authentification Web. Un eToken Aladdin…
Par BEREZOWSKI César
12 juil. 2019

Apache Flink : passé, présent et futur
Catégories : Data Engineering | Tags : Pipeline, Flink, Kubernetes, Machine Learning, SQL, Streaming
Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…
Par BEREZOWSKI César
5 nov. 2018

Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Streaming
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
Par BEREZOWSKI César
23 mai 2018

Executer du Python dans un workflow Oozie
Catégories : Data Engineering | Tags : Oozie, Elasticsearch, Python, REST
Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…
Par BEREZOWSKI César
6 mars 2018

De Dockerfile à Ansible Containers
Catégories : Orchestration de conteneurs, DevOps & SRE, Open Source Summit Europe 2017 | Tags : Shell, Ansible, Docker, Docker Compose, YAML
Cette présentation était une introduction au format Dockerfile et à l’outil Ansible Containers puis une comparaison des deux produits. Elle fut réalisée par Tomas Tomecek, membre de l’équipe…
Par BEREZOWSKI César
25 oct. 2017

Cloudera Sessions Paris 2017
Catégories : Big Data, Évènements | Tags : EC2, Altus, CDSW, SDX, Azure, Cloudera, CDH, Data Science, PaaS
Adaltas était présent le 5 octobre aux Cloudera Sessions, la journée de présentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. Note : les informations ont été…
Par BEREZOWSKI César
16 oct. 2017

Exposition de brokers Kafka sur deux interfaces réseaux
Catégories : Infrastructure | Tags : Cybersécurité, VLAN, Kafka, Cloudera, CDH, Réseau
Une installation Big Data nécessite généralement d’avoir plusieurs interfaces réseaux, nous allons voir comment paramétrer Kafka pour écouter sur plus d’une. La procédure décrite dans cette article a…
Par BEREZOWSKI César
22 juil. 2017

Changer la couleur de la topbar d'Ambari
Catégories : Big Data, Hack | Tags : Ambari, Front-end
J’étais récemment chez un client qui a plusieurs environnements (Prod, Integration, Recette, …) sur HDP avec chacun son instance Ambari. L’une des questions soulevée par le client est la suivante…
Par BEREZOWSKI César
9 juil. 2017

MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : MiNiFi, NiFi, C++, HDF, Cloudera, HDP, IOT
Aldrin nous a rapidement présenté Apache NiFi puis expliqué d’où est venu MiNiFi : un agent NiFi à déployer sur un embarqué afin d’amener la donnée à pipeline d’un cluster NiFi (ex : IoT). Ce poste…
Par BEREZOWSKI César
8 juil. 2017

Maitrisez vos workflows avec Apache Airflow
Catégories : Big Data, Tech Radar | Tags : DevOps, Airflow, Cloud, Python
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Airflow par Christian Trebing de chez BlueYonder. Introduction Use case : comment traiter des données arrivant…
Par BEREZOWSKI César
17 juil. 2016

Apache Apex : l'analytique Big Data nouvelle génération
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Storm, Tools, Flink, Hadoop, Kafka, Data Science, Machine Learning
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…
Par BEREZOWSKI César
17 juil. 2016