DataWorks Summit 2018: A few days speaking Hadoop

Articles related to the summit

Apache Hadoop YARN 3.0 - État de l'art

Categories: Big Data, DataWorks Summit 2018 | Tags: GPU, Hortonworks, Hadoop, HDFS, MapReduce, YARN, Cloudera, Data Science, Docker, Versions et évolutions

Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…

By BAKALIAN Lucas

May 31, 2018

Accélérer vos requêtes avec les vues matérialisées dans Apache Hive

Categories: Business Intelligence, DataWorks Summit 2018 | Tags: Calcite, Druid, OLAP, Hive, Versions et évolutions, SQL

Jesus Camacho Rodriguez a organisé une présentation “Accelerating query processing with materialized views in Apache Hive” sur une nouvelle fonctionnalité à venir dans Apache Hive 3.0 : les vues…

By CORDONNIER Paul-Adrien

May 31, 2018

YARN et le calcul distribué sur GPU pour le machine learning

Categories: Data Science, DataWorks Summit 2018 | Tags: arXiv, GPU, Grafana, MXNet, YARN, Docker, Machine Learning, Réseau de neurones, Storage, TensorFlow

Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…

By JOUET Grégor

May 30, 2018

Apache Metron dans le monde réel

Categories: Cybersécurité, DataWorks Summit 2018 | Tags: Algorithme, NiFi, Solr, Storm, pcap, SGBDR, HDFS, Kafka, Metron, Spark, Data Science, Elasticsearch, SQL

Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…

By HATOUM Michael

May 29, 2018

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes

Categories: Data Science, DataWorks Summit 2018 | Tags: Mesos, C++, CPU, GPU, Performance, Spark, YARN, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow

L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…

By HATI Yliess

May 29, 2018

Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak

Categories: Big Data, Cloud computing, DataWorks Summit 2018 | Tags: Cloudbreak, Exploitation, Hadoop, AWS, Azure, GCP, HDP, OpenStack

Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…

By RUMMENS Joris

May 28, 2018

Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix

Categories: Big Data, DataWorks Summit 2018 | Tags: Omid, Phoenix, Transaction, ACID, HBase, SQL

Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…

By HERMAND Xavier

May 24, 2018

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données

Categories: Data Engineering, DataWorks Summit 2018 | Tags: Apex, Beam, Flink, Java, Pipeline, Spark, Traitement par lots, Python, Streaming, TCO

Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…

By LEONARD Gauthier

May 24, 2018

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x

Categories: Big Data, DataWorks Summit 2018 | Tags: REST, Hadoop, Hive, Oozie, Sqoop, CDH, HDP, Python

Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…

By SCHOUKROUN Leo

May 23, 2018

Quelles nouveautés pour Apache Spark 2.3 ?

Categories: Data Engineering, DataWorks Summit 2018 | Tags: Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Python, Streaming

Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…

By BEREZOWSKI César

May 23, 2018