DataWorks Summit 2018: A few days speaking Hadoop
The Adaltas crew went to the DataWorks Summit 2018 held in Berlin on the 18th and 19th of April 2018. On this occasion, we compiled a series of articles about the conferences that have marked us most.
Among the various topics covered through those 2 days, the new version 3 of Hadoop and its subprojects, HDFS and YARN, was probably the hotest. Also, the various talks related to the governance of the platform and the Data Lakes illustrate the maturity achieved by the ecosystem.
Articles related to the summit
Apache Hadoop YARN 3.0 - État de l'art
Categories: Big Data, DataWorks Summit 2018 | Tags: GPU, Hortonworks, Hadoop, HDFS, MapReduce, YARN, Cloudera, Data Science, Docker, Versions et évolutions
Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…
May 31, 2018
Accélérer vos requêtes avec les vues matérialisées dans Apache Hive
Categories: Business Intelligence, DataWorks Summit 2018 | Tags: Calcite, Druid, OLAP, Hive, Versions et évolutions, SQL
Jesus Camacho Rodriguez a organisé une présentation “Accelerating query processing with materialized views in Apache Hive” sur une nouvelle fonctionnalité à venir dans Apache Hive 3.0 : les vues…
May 31, 2018
YARN et le calcul distribué sur GPU pour le machine learning
Categories: Data Science, DataWorks Summit 2018 | Tags: arXiv, GPU, Grafana, MXNet, YARN, Docker, Machine Learning, Réseau de neurones, Storage, TensorFlow
Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…
By JOUET Grégor
May 30, 2018
TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes
Categories: Data Science, DataWorks Summit 2018 | Tags: Mesos, C++, CPU, GPU, Performance, Spark, YARN, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow
L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…
By HATI Yliess
May 29, 2018
Apache Metron dans le monde réel
Categories: Cybersécurité, DataWorks Summit 2018 | Tags: Algorithme, NiFi, Solr, Storm, pcap, SGBDR, HDFS, Kafka, Metron, Spark, Data Science, Elasticsearch, SQL
Apache Metron est une plateforme d’analyse et de stockage spécialisé dans la sécurité informatique. La conférence a été présentée par Dave Russell, ingénieur en chef des solutions - EMEA + APAC chez…
May 29, 2018
Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak
Categories: Big Data, Cloud computing, DataWorks Summit 2018 | Tags: Cloudbreak, Exploitation, Hadoop, AWS, Azure, GCP, HDP, OpenStack
Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…
May 28, 2018
Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix
Categories: Big Data, DataWorks Summit 2018 | Tags: Omid, Phoenix, Transaction, ACID, HBase, SQL
Apache Omid fournit une couche transactionnelle au-dessus des bases de données clés/valeurs NoSQL. Crédits à Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le résultat…
May 24, 2018
Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données
Categories: Data Engineering, DataWorks Summit 2018 | Tags: Apex, Beam, Java, Pipeline, Flink, Spark, Traitement par lots, Python, Streaming, TCO
Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…
May 24, 2018
Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Categories: Big Data, DataWorks Summit 2018 | Tags: REST, Hadoop, Hive, Oozie, Sqoop, CDH, HDP, Python
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
May 23, 2018
Quelles nouveautés pour Apache Spark 2.3 ?
Categories: Data Engineering, DataWorks Summit 2018 | Tags: Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Python, Streaming
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
May 23, 2018