Elasticsearch

Elasticsearch est un moteur d'analyse, de stockage et de recherche open source développé par Elasticsearch B.V. et publié pour la première fois en 2010. Il s'agit d'un logiciel distribué écrit en Java et basé sur Apache Lucene. Ce dernier est utilisé pour l'indexation et la recherche de données se faisant via une API REST.

Il est souvent utilisé avec Kibana, une plateforme de visualisation de données, et Logstash, un pipeline de traitement de données, qui sont des outils développés et maintenus par la même entreprise. Ensemble, ils forment ce que l'on appelle la stack ELK.

Grafana, bien que ne faisant pas partie de la stack ELK, est un autre outil open source souvent utilisé avec Elasticsearch pour la visualisation des mesures commme la mémoire, l'utilisaton du processeur ou encore les E/S du système.

Elasticsearch offre des fonctionnalités de recherche complexes, comme l'autocomplétion, la gestion des synonymes ou même la correction des fautes de frappe. Mais, il peut aussi être utilisé comme plateforme d'analyse en interrogeant des données structurées pour par exemple :

analyser les journaux d'application et les mesures du système;
envoyer des événements à Elasticsearch;
prévoir les valeurs futures avec l'apprentissage automatique pour la détection des anomalies.

Elasticsearch étant distribué par nature, il s'adapte très bien à l'augmentation des volumes de données et au débit des requêtes.

En savoir plus: Site officiel
Tags associés: Grafana; Kibana; Logstash

Articles associés

Le moteur Vespa de Yahoo

Catégories : Tech Radar | Tags : Base de données, Tools, Elasticsearch, Search Engine

Vespa est le moteur de services et de traitements big data complètement autonome et autosuffisant de Yahoo. Il a pour but de servir les résultats de requêtes sur d’énorme quantité de données en temps…

Par BUSSER Arthur

16 oct. 2017

Executer du Python dans un workflow Oozie

Catégories : Data Engineering | Tags : Oozie, Elasticsearch, Python, REST

Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…

Par BEREZOWSKI César

6 mars 2018

Questions essentielles sur les base de données Time Series

Catégories : Big Data | Tags : Druid, HBase, Hive, ORC, Data Science, Elasticsearch, Grafana, IOT

Aujourd’hui, le gros des données Big Data est de nature temporelle. On le constate dans les médias comme chez nos clients : compteurs intelligents, transactions bancaires, usines intelligentes,…

Par WORMS David

18 mars 2018

Apache Metron dans le monde réel

Catégories : Cybersécurité, DataWorks Summit 2018 | Tags : Algorithme, NiFi, Solr, Storm, pcap, SGBDR, HDFS, Kafka, Metron, Spark, Data Science, Elasticsearch, SQL

Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…

Par HATOUM Michael

29 mai 2018

Déploiement d'un cluster Flink sécurisé sur Kubernetes

Catégories : Big Data | Tags : Chiffrement, Flink, HDFS, Kafka, Elasticsearch, Kerberos, SSL/TLS

Le déploiement sécurisée d’une application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sécurisé, vous pouvez compter sur la plateforme sous-jacente ou utiliser…

Par WORMS David

8 oct. 2018

Surveillance d'un cluster Hadoop de production avec Kubernetes

Catégories : DevOps & SRE | Tags : Thrift, Shinken, Hadoop, Knox, Cluster, Docker, Elasticsearch, Grafana, Kubernetes, Noeud, Node.js, Prometheus, Python

La surveillance d’un cluster Hadoop de production est un vrai challenge et se doit d’être en constante évolution. Aujourd’hui, la solution que nous utilisons se base sur Nagios. Efficace en ce qui…

Par CORDONNIER Paul-Adrien

21 déc. 2018

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Catégories : Data Engineering, Data Science | Tags : DevOps, Flink, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python

Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…

Par WORMS David

26 nov. 2019

Configuration à distance et auto-indexage des pipelines Logstash

Catégories : Data Engineering, Infrastructure | Tags : Docker, Elasticsearch, Kibana, Logstash, Log4j

Logstash est un puissant moteur de collecte de données qui s’intègre dans la suite Elastic (Elasticsearch - Logstash - Kibana). L’objectif de cet article est de montrer comment déployer un cluster…

Par CORDONNIER Paul-Adrien

13 déc. 2019

Stage de fin d'étude printemps 2022 en Data Engineering

Catégories : Front End, Formation | Tags : Métriques, Supervision, Hadoop, Hive, Kafka, Delta Lake, Elasticsearch, IaC, Internship, Kubernetes, MLflow, Prometheus, Streaming, TFX

Descriptif du stage La donnée est un actif précieux des entreprises. Le data engineer collecte, convertit et valorise la donnée brute en une information exploitable par les business analysts et les…

Par WORMS David

25 oct. 2021

Stage de fin d'étude printemps 2022 - construction d'un Data Lab

Catégories : Data Science, Formation | Tags : Spark, Argo CD, Elasticsearch, Internship, Keycloak, Kubernetes, MongoDB, OpenID Connect, PostgreSQL

Descriptif du stage Au cours des dernières années, nous avons développé la capacité d’utiliser les ordinateurs pour traiter une grande quantité de données. L’écosystème a évolué vers une offre étendue…

Par WORMS David

24 nov. 2021