Apache Oozie
Apache Oozie est une application Web open source écrite en Java et disponible sous la licence Apache 2.0. Il est défini comme un système de planification, conçu et déployé pour gérer et exécuter des tâches de la Stack Hadoop, dans un environnement de stockage distribué.
Un workflow Oozie est un ensemble d'actions organisées dans un Graphe orienté acyclique (DAG). La chronologie des tâches, ainsi que les règles de début et de fin du workflow, sont déterminées par les nœuds de contrôle, et l'exécution des tâches est déclenchée par les nœuds d'action. Il supporte une variété d'actions de l'écosystème Hadoop (notamment Apache MapReduce et Apache Pig), ainsi que des tâches spécifiques au système (telles que les scripts shell).
Le coordinateur Oozie vous permet d'exécuter régulièrement des workflows Oozie, à un moment donné, en fonction de la disponibilité des données ou lorsqu'un événement se produit. Une tâche du workflow est lancée lorsque les conditions sont réunies.
Oozie bundle est une combinaison de plusieurs coordinateurs et de workflows qui en gère le cycle en vie.
- En savoir plus
- Site officiel
Articles associés
Stage en infrastructure Big Data avec TDP
Catégories : Infrastructure, Formation | Tags : Cybersécurité, DevOps, Java, Ansible, Hadoop, Internship, TDP
Le Big Data et l’informatique distribuée sont au cœur d’Adaltas. Nous accompagnons nos partenaires dans le déploiement, la maintenance et l’optimisation de certains des plus grands clusters de France…
Par HARTY Daniel
25 oct. 2021
Premier pas avec Apache Airflow sur AWS
Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : PySpark, Enseignement et tutorial, Airflow, Oozie, Spark, AWS, Docker, Python
Apache Airflow offre une solution répondant au défi croissant d’un paysage de plus en plus complexe d’outils de gestion de données, de scripts et de traitements d’analyse à gérer et coordonner. C’est…
Par COINTEPAS Aargan
5 mai 2020
Migration de cluster et de traitements entre Hadoop 2 et 3
Catégories : Big Data, Infrastructure | Tags : Shiro, Erasure Coding, Rolling Upgrade, HDFS, Spark, YARN, Docker
La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…
Par BAKALIAN Lucas
25 juil. 2018
Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Catégories : Big Data, DataWorks Summit 2018 | Tags : REST, Hadoop, Hive, Oozie, Sqoop, CDH, HDP
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
Par SCHOUKROUN Leo
23 mai 2018
Executer du Python dans un workflow Oozie
Catégories : Data Engineering | Tags : REST, Oozie, Elasticsearch, Python
Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…
Par BEREZOWSKI César
6 mars 2018
Diviser des fichiers HDFS en plusieurs tables Hive
Catégories : Data Engineering | Tags : Flume, Pig, HDFS, Hive, Oozie, SQL
Je vais montrer comment scinder fichier CSV stocké dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter les…
Par WORMS David
15 sept. 2013