Big Data
Les données et les connaissances qu’elles contiennent sont essentielles pour permettre aux entreprises d’innover et de se différencier. Arrivant de sources multiples, de l'intérieur du pare-feu jusqu'au edge, la croissance des données de par leur volume, leur variété et leur vitesse entraîne des approches novatrices. Aujourd’hui, les organisations peuvent accumuler d’énormes quantités d’informations dans un DataLake pour des analyses futures. Pour celles ne disposant pas de l’infrastructure nécessaire, ce DataLake peut facilement être mis en oeuvre sur le Cloud.
Avec le Big Data, la Business Intelligence entame une nouvelle ère. Hadoop et ses alternatives, les bases de données NoSQL et les fournisseurs de Cloud stockent et représentent les données structurées et non structurées ainsi que les séries temporelles tels que vos logs et capteurs. De la collecte jusqu’à la visualisation, l’ensemble de la chaîne de traitement peut se réaliser par batch et en temps réel.
Articles associés au Big Data
Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes
Catégories : Big Data, Orchestration de conteneurs | Tags : Kafka, Spark, DevOps, Kubernetes, LXD, NoSQL, Hadoop, Ceph
Contexte L’acquisition d’un cluster à forte capacité répond à la volonté d’Adaltas de construire une offre de type PAAS pour disposer et mettre à disposition des plateformes de Big Data et d…
By WORMS David
26 nov. 2019
Notes sur le nouveau modèle de licences Open Source de Cloudera
Catégories : Big Data | Tags : CDSW, Licence, Open source, Cloudera Manager
Suite à la publication de sa stratégie de licences Open Source le 10 juillet 2019 dans un article intitulé “notre engagement envers les logiciels Open Source”, Cloudera a diffusé un webinaire hier le…
By WORMS David
25 oct. 2019
Mise en production d'un modèle de Machine Learning
Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : IA, Cloud, DevOps, Machine Learning, On-premise, Exploitation, Schéma
“Le Machine Learning en entreprise nécessite une vision globale … du point de vue de l’ingénierie et de la plate-forme de données”, a expliqué Justin Norman lors de son intervention sur le déploiement…
30 sept. 2019
Apache Hive 3, nouvelles fonctionnalités et conseils et astuces
Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, JDBC, LLAP, Versions et évolutions, Hadoop
Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…
25 juil. 2019
Auto-scaling de Druid avec Kubernetes
Catégories : Big Data, Business Intelligence, Orchestration de conteneurs | Tags : EC2, Druid, Cloud, CNCF, Orchestration de conteneurs, Analyse de données, Helm, Kubernetes, Métriques, OLAP, Exploitation, Prometheus, Python
Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est…
16 juil. 2019
Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark
Catégories : Big Data, Data Engineering, DevOps & SRE | Tags : Spark, Apache Spark Streaming, DevOps, Enseignement et tutorial
L’indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…
19 juin 2019
Intégration de Druid et Hive
Catégories : Big Data, Business Intelligence, Tech Radar | Tags : Druid, Hive, Analyse de données, LLAP, OLAP, SQL
Nous allons dans cet article traiter de l’intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l’article Ultra-fast OLAP Analytics with Apache Hive and Druid.…
13 juin 2019
Apache Knox, c'est facile !
Catégories : Big Data, Cybersécurité, Adaltas Summit 2018 | Tags : Ambari, Hive, Knox, Ranger, Shiro, Solr, JDBC, Kerberos, LDAP, Active Directory, REST, SSL/TLS, Hadoop, SSO
Apache Knox est le point d’entrée sécurisé d’un cluster Hadoop, mais peut-il être également le point d’entrée de mes applications REST ? Vue d’ensemble d’Apache Knox Apache Knox est une passerelle…
4 févr. 2019
Prise de contrôle d'un cluster Hadoop avec Apache Ambari
Catégories : Big Data, DevOps & SRE, Adaltas Summit 2018 | Tags : Ambari, Automation, HDP, iptables, Kerberos, Nikita, Node.js, REST, Systemd
Nous avons récemment migré un large cluster Hadoop de production installé “manuellement” vers Apache Ambari. Nous avons nommé cette opération “Ambari Takeover”. C’est un processus à risque et nous…
20 nov. 2018
Déploiement d'un cluster Flink sécurisé sur Kubernetes
Catégories : Big Data | Tags : Flink, HDFS, Kafka, Elasticsearch, Chiffrement, Kerberos, SSL/TLS
Le déploiement sécurisée d’une application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser…
By WORMS David
8 oct. 2018
Migration de cluster et de traitements entre Hadoop 2 et 3
Catégories : Big Data, Infrastructure | Tags : HDFS, Shiro, Spark, YARN, Docker, Erasure Coding, Rolling Upgrade
La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…
25 juil. 2018
Remède à l'aveuglement de Kafka
Catégories : Big Data | Tags : Ambari, Kafka, Ranger, Hortonworks, HDP, HDF, JMX, UI
Il est difficile de visualiser pour les développeurs, opérateurs et manageurs, ce qui se cache à l’intérieur des entrailles de Kafka. Cet article parle d’une nouvelle interface graphique bientôt…
20 juin 2018
Ingestion de Data Lake, quelques bonnes pratiques
Catégories : Big Data, Data Engineering | Tags : Avro, Hive, NiFi, ORC, Spark, Format de fichier, Gouvernance des données, HDF, Exploitation, Protocol Buffers, Registre, Schéma, Lac de données
La création d’un Data Lake demande de la rigueur et de l’expérience. Voici plusieurs bonnes pratiques autour de l’ingestion des données en batch et en flux continu que nous recommandons et mettons en…
By WORMS David
18 juin 2018
Apache Hadoop YARN 3.0 - État de l'art
Catégories : Big Data, DataWorks Summit 2018 | Tags : HDFS, MapReduce, YARN, Cloudera, Docker, GPU, Hortonworks, Versions et évolutions, Hadoop
Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…
29 mai 2018
Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak
Catégories : Big Data, Cloud computing, DataWorks Summit 2018 | Tags : AWS, Cloudbreak, GCP, HDP, Azure, OpenStack, Exploitation, Hadoop
Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…
28 mai 2018
Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix
Catégories : Big Data, DataWorks Summit 2018 | Tags : ACID, Omid, Phoenix, Transaction, HBase, SQL
Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…
24 mai 2018
Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Catégories : Big Data, DataWorks Summit 2018 | Tags : Hive, Oozie, Sqoop, CDH, HDP, REST, Hadoop
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
23 mai 2018
Questions essentielles sur les base de données Time Series
Catégories : Big Data | Tags : Druid, Hive, ORC, Elasticsearch, Graphana, IOT, HBase
Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…
By WORMS David
19 mars 2018
Ambari - Comment utiliser les blueprints
Catégories : Big Data, DevOps & SRE | Tags : Ambari, Ranger, Automation, DevOps, Exploitation, REST
En tant qu’ingénieurs d’infrastructure chez Adaltas, nous déployons des clusters. Beaucoup de clusters. Généralement, nos clients choisissent d’utiliser une distribution telle que Hortonworks HDP ou…
17 janv. 2018
Cloudera Sessions Paris 2017
Catégories : Big Data, Évènements | Tags : Altus, EC2, Cloudera, CDH, CDSW, SDX, Azure, PaaS
Adaltas était présent le 5 octobre aux Cloudera Sessions, la journée de présentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. Note : les informations ont été…
16 oct. 2017
Changer la couleur de la topbar d'Ambari
Catégories : Big Data, Hack | Tags : Ambari, Front-end
J’étais récemment chez un client qui a plusieurs environnements (Prod, Integration, Recette, …) sur HDP avec chacun son instance Ambari. L’une des questions soulevée par le client est la suivante…
9 juil. 2017
MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : MiNiFi, NiFi, Cloudera, C++, HDP, HDF, IOT
Aldrin nous a rapidement présenté Apache NiFi puis expliqué d’où est venu MiNiFi : un agent NiFi à déployer sur un embarqué afin d’amener la donnée à pipeline d’un cluster NiFi (ex : IoT). Ce poste…
8 juil. 2017
Administration Hadoop multitenant avancée - protection de Zookeeper
Catégories : Big Data, Infrastructure | Tags : Zookeeper, Partitionnement, DoS, iptables, Exploitation, Passage à l'échelle
Zookeeper est un composant critique au fonctionnement d’Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège…
5 juil. 2017
Supervision de clusters HDP
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : Alert, Ambari, HDP, Métriques, Supervision, REST
Avec la croissance actuelle des technologies BigData, de plus en plus d’entreprises construisent leurs propres clusters dans l’espoir de valoriser leurs données. L’une des principales préoccupations…
5 juil. 2017
Hive Metastore HA avec DBTokenStore : Failed to initialize master key
Catégories : Big Data, DevOps & SRE | Tags : Hive, Bug, Infrastructure
Cette article décrit ma petite aventure autour d’une erreur au démarrage du Hive Metastore. Elle se reproduit dans un environnement précis qui est celui d’une installation sécurisée, entendre avec…
By WORMS David
21 juil. 2016
Maitrisez vos workflows avec Apache Airflow
Catégories : Big Data, Tech Radar | Tags : Airflow, Cloud, DevOps, Python
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Airflow par Christian Trebing de chez BlueYonder. Introduction Use case : comment traiter des données arrivant…
17 juil. 2016
Hive, Calcite et Druid
Catégories : Big Data | Tags : Analytique, Druid, Hive, Base de données, Hadoop
BI/OLAP est nécessaire à la visualisation interactive de flux de données : Évènements issus d’enchères en temps réel Flux d’activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de…
By WORMS David
14 juil. 2016
L'offre Red Hat Storage et son intégration avec Hadoop
Catégories : Big Data | Tags : HDFS, GlusterFS, Red Hat, Hadoop, Storage
J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins…
By WORMS David
3 juil. 2015
Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribué
Catégories : Big Data, Formation | Tags : Big Data, Hue, Déploiement, Infrastructure, Hadoop, HBase
Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels est téléchargé depuis Internet, décompressé et paramétré…
By WORMS David
1 déc. 2010
Stockage et traitement massif avec Hadoop
Catégories : Big Data | Tags : HDFS, Hadoop, Storage
Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés…
By WORMS David
26 nov. 2010
Stockage et traitement massif avec Hadoop
Catégories : Big Data, Node.js | Tags : Big Data, Node.js, REST, HBase
HBase est la base de données de type “column familly” de l’écosystème Hadoop construite sur le modèle de Google BigTable. HBase peut accueillir de très larges volumes de données (de l’ordre du tera ou…
By WORMS David
1 nov. 2010
Présentation de MapReduce
Catégories : Big Data | Tags : MapReduce, Big Data, Java, JavaScript
Les systèmes d’information ont de plus en plus de données à stocker et à traiter. Des entreprises comme Google, Facebook, Twitter mais encore bien d’autre stockent des quantités d’information…
By WORMS David
26 juin 2010