Synchronisation Oracle vers Hadoop avec un CDC

Cette note résulte d’une discussion autour de la synchronisation de données écrites dans une base de données à destination d’un entrepôt stocké dans Hadoop. Merci à Claude Daub de GFI qui la rédigea et qui nous autorise à la publier.

Oracle GoldenGate

Outil de réplication des données en temps réel basé sur les logs internes
Distribué et donc officiellement supporté par Oracle
Pas d’impact sur les performances de la base de données source
Large éventail de destinaires : HDFS, Kafka, HBase, Hive, Flumes, JDBC, …

Continuent Tungsten Replicator

Tungsten consiste à activer Oracle CDC (Change Data Capture) qui récupère les changements depuis les redo logs. Il produit d’autres tables avec les changements.

Cette solution permet un traitement différé, mais passe – comme pour les triggers – par des tables intermédiaires. Après la méthode de synchro avec Hadoop est adaptable (sqoop peut suffire) ou un export CSV / import via fichier.

Intègre un service de réplication des données :

Compatible avec plusieurs bases (Oracle, MySQL…)
On peut avoir des time series
Solution certifiée Hortonworks
Pas d’information sur l’impact en performance sur la source

DBVisit

Solution commerciale incluant :

Temps réel
Support de plusieurs SGBDR (Oracle, MySQL)
Réplication bidirectionnelle possible.

Se base sur les redo logs => Concerne Oracle
Les changements identifiés sont bufférisés dans une queue JMS puis stockés dans HDFS / Hbase.
Voir https://www.youtube.com/watch?v=JuWB5HfYjJY

Partagez cet article

Synchronisation Oracle vers Hadoop avec un CDC

Oracle GoldenGate

Continuent Tungsten Replicator

DBVisit

Share Plex de Quest Software