Big Data
Data, and the insight it offers, are essential for businesses to innovate and differentiate. Coming from a variety of sources, from inside the firewall out to the edge, the growth of data in terms of volume, variety, and speed leads to innovative approaches. Today, data lakes and data hub architectures allow organizations to accumulate huge reservoirs of information for future analysis. At the same time, the Cloud provides easy access to technologies to those who do not have the necessary infrastructure and Artificial Intelligence promises to proactively simplify management.
With Big Data technologies, Business Intelligence is entering a new era. Hadoop and the likes, NoSQL databases, and cloud-managed infrastructures store and represent structured and unstructured data and time series such as logs and sensors. From collect to visualization, the whole processing chain operates in batch and real-time.
Infrastructure
Cloud, on-premise, and hybrid environments:
- Integration with the information system
- Automated deployments
- End-to-end security
- Management in multi-tenant environments
- Clusters operations, disaster recovery
- Level 3 support
Data management
Governance and data provisioning:
- Big Data and Data Lake architecture
- Modeling and application architecture
- Low latency and high throughput use cases
- Batch and streaming data sourcing and ingestion pipelines
- Data cleaning and enrichment
- Data quality control and enforcement
Data intelligence
Collaboration with business units to serve projects needs:
- Restitution et visualisation de donnƩes
- Distributed traitement Optimisation des flux et des traitements distribuƩs
- Ad hoc queries and data mining
- Machine Learning models and custom algorithms elaboration
- DevOps, SRE et MLOps
Articles related to Big Data
Introduction Ć OpenLineage
Categories: Big Data, Gouvernance des donnƩes, Infrastructure | Tags: Data Engineering, Infrastructure, Atlas, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse), TraƧabilitƩ (data lineage)
OpenLineage est une spĆ©cification open source de lineage des donnĆ©es. La spĆ©cification est complĆ©tĆ©e par Marquez, son implĆ©mentation de rĆ©fĆ©rence. Depuis son lancement fin 2020, OpenLineage estā¦
Dec 19, 2023
Guide d'installation Ć TDP, la plateforme big data 100% open source
Categories: Big Data, Infrastructure | Tags: Infrastructure, VirtualBox, Hadoop, Vagrant, TDP
La Trunk Data Platforme (TDP) est une distribution big data 100% open source, basĆ©e sur Apache Hadoop et compatible avec HDP 3.1. InitiĆ©e en 2021 par EDF, la DGFiP et Adaltas, le projet est gouvernĆ©ā¦
By FARAULT Paul
Oct 18, 2023
Lancement du site Internet de TDP
Categories: Big Data | Tags: Programmation, Ansible, Hadoop, Python, TDP
Le nouveau site Internet de TDP (Trunk Data Platform) est en ligne. Nous vous invitons Ć le parcourir pour dĆ©couvrir la platorme, rester informĆ©s, et cultiver le contact avec la communautĆ© TDP. TDPā¦
By WORMS David
Oct 3, 2023
CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP
Categories: Big Data, Data Engineering, Formation | Tags: NiFi, Business Intelligence, Data Engineering, Iceberg, Spark, Big Data, Cloudera, CDP, Analyse de donnƩes, Data Lake, EntrepƓt de donnƩes (Data Warehouse)
Dans cet exercice pratique, nous montrons comment construire une solution big data complĆØte avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur lāinfrastructure qui a Ć©tĆ© dĆ©ployĆ©e toutā¦
Jul 24, 2023
CDP partie 5 : gestion des permissions utilisateurs sur CDP
Categories: Big Data, Cloud computing, Gouvernance des donnƩes | Tags: Ranger, Cloudera, CDP, EntrepƓt de donnƩes (Data Warehouse)
Lorsquāun utilisateur ou un groupe est crĆ©Ć© dans CDP, des permissions doivent leur ĆŖtre attribuĆ©es pour accĆ©der aux ressources et utiliser les Data Services. Cet article est le cinquiĆØme dāune sĆ©rieā¦
Jul 18, 2023
CDP partie 4 : gestion des utilisateurs sur CDP avec Keycloak
Categories: Big Data, Cloud computing, Gouvernance des donnƩes | Tags: EC2, Big Data, CDP, Docker Compose, Keycloak, SSO
Les articles prĆ©cĆ©dents de la sĆ©rie couvrent le dĆ©ploiement dāun environnement CDP Public Cloud. Tous les composants sont prĆŖts Ć ĆŖtre utilisĆ©s et il est temps de mettre lāenvironnement Ć laā¦
Jul 4, 2023
CDP partie 3 : activation des Data Services en environnment CDP Public Cloud
Categories: Big Data, Cloud computing, Infrastructure | Tags: Infrastructure, AWS, Big Data, Cloudera, CDP
Lāun des principaux arguments de vente de Cloudera Data Platform (CDP) est la maturitĆ© de son offre de services. Ceux-ci sont faciles Ć dĆ©ployer sur site, dans le cloud public ou dans le cadre dāuneā¦
Jun 27, 2023
CDP partie 2 : dƩploiement d'un environnement CDP Public Cloud sur AWS
Categories: Big Data, Cloud computing, Infrastructure | Tags: Infrastructure, AWS, Big Data, Cloud, Cloudera, CDP, Cloudera Manager
La Cloudera Data Platform (CDP) Public Cloud constitue la base sur laquelle des lacs de donnĆ©es (Data Lake) complets sont crĆ©Ć©s. Dans un article prĆ©cĆ©dent, nous avons prĆ©sentĆ© la plateforme CDP. Cetā¦
Jun 19, 2023
Exigences et attentes d'une plateforme Big Data
Categories: Big Data, Infrastructure | Tags: Data Engineering, Gouvernance des donnƩes, Analyse de donnƩes, Data Hub, Data Lake, Lakehouse, Data Science
Une plateforme Big Data est un systĆØme complexe et sophistiquĆ© qui permet aux organisations de stocker, traiter et analyser de gros volumes de donnĆ©es provenant de diverses sources. Elle se compose deā¦
By WORMS David
Mar 23, 2023
Gestion de Kafka dans Kubernetes avec Strimzi
Categories: Big Data, Orchestration de conteneurs, Infrastructure | Tags: Kafka, Big Data, Kubernetes, Open source, Streaming
Kubernetes nāest pas la premiĆØre plateforme Ć laquelle on pense pour faire tourner des clusters Apache Kafka. En effet, la forte adhĆ©rence de Kafka au stockage pourrait ĆŖtre difficile Ć gĆ©rer parā¦
Mar 7, 2023
PlongƩe dans tdp-lib, le SDK en charge de la gestion de clusters TDP
Categories: Big Data, Infrastructure | Tags: Programmation, Ansible, Hadoop, Python, TDP
Tous les dĆ©ploiements TDP sont automatisĆ©s. Ansible y joue un rĆ“le central. Avec la complexitĆ© grandissante de notre base logicielle, un nouveau systĆØme Ć©tait nĆ©cessaire afin de sāaffranchir desā¦
Jan 24, 2023
Adaltas Summit 2022 Morzine
Categories: Big Data, Adaltas Summit 2022 | Tags: Data Engineering, Infrastructure, Iceberg, Conteneur, Lakehouse, Docker, Kubernetes
Pour sa troisiĆØme Ć©dition, toute lāĆ©quipe dāAdaltas se retrouve Ć Morzine pour une semaine entiĆØre avec 2 jours dĆ©diĆ©s Ć la technologie les 15 et 16 septembre 2022. Les intervenants choisissent lāunā¦
By WORMS David
Jan 13, 2023
Stage infrastructure big data
Categories: Big Data, Data Engineering, DevOps & SRE, Infrastructure | Tags: Infrastructure, Hadoop, Big Data, Cluster, Internship, Kubernetes, TDP
PrĆ©sentation de lāoffre Le Big Data et lāinformatique distribuĆ©e sont au cÅur dāAdaltas. Nous accompagnons nos partenaires dans le dĆ©ploiement, la maintenance, lāoptimisation et nouvellement leā¦
By BAUM Stephan
Dec 2, 2022
Stockage objet Ceph dans un cluster Kubernetes avec Rook
Categories: Big Data, Gouvernance des donnƩes, Formation | Tags: Amazon S3, Big Data, Ceph, Cluster, Data Lake, Kubernetes, Storage
Ceph est un systĆØme tout-en-un de stockage distribuĆ©. Fiable et mature, sa premiĆØre version stable est parue en 2012 et a Ć©tĆ© depuis la rĆ©fĆ©rence pour le stockage open source. Lāavantage principal deā¦
By BIGOT Luka
Aug 4, 2022
Stockage objet avec MinIO dans un cluster Kubernetes
Categories: Big Data, Gouvernance des donnƩes, Formation | Tags: Amazon S3, Big Data, Cluster, Data Lake, Kubernetes, Storage
MinIO est une solution de stockage objet populaire. Souvent recommandĆ© pour sa simplicitĆ© dāutilisation et dāinstallation, MinIO nāest pas seulement quāun bon moyen pour dĆ©buter avec le stockage objetā¦
By BIGOT Luka
Jul 9, 2022
Architecture du stockage objet et attributs du standard S3
Categories: Big Data, Gouvernance des donnƩes | Tags: Base de donnƩes, API, Amazon S3, Big Data, Data Lake, Storage
Le stockage objet a gagnĆ© en popularitĆ© parmi les architectures de stockage de donnĆ©es. ComparĆ© aux systĆØmes de fichiers et au stockage bloc, le stockage objet ne rencontre pas de limitations lorsquā¦
By BIGOT Luka
Jun 20, 2022
Comparaison des architectures de base de donnƩes : data warehouse, data lake and data lakehouse
Categories: Big Data, Data Engineering | Tags: Gouvernance des donnƩes, Infrastructure, Iceberg, Parquet, Spark, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse), Format de fichier
Les architectures de base de donnĆ©es ont fait lāobjet dāune innovation constante, Ć©voluant avec lāapparition de nouveaux cas dāutilisation, de contraintes techniques et dāexigences. Parmi les troisā¦
May 17, 2022
DĆ©couvrez Trunk Data Platform : La Distribution Big Data Open-Source par TOSIT
Categories: Big Data, DevOps & SRE, Infrastructure | Tags: Ranger, DevOps, Hortonworks, Ansible, Hadoop, HBase, Knox, Spark, Cloudera, CDP, CDH, Open source, TDP
Depuis la fusion de Cloudera et Hortonworks, la sĆ©lection de distributions Hadoop commerciales on-prem se rĆ©duit Ć CDP Private Cloud. CDP est un mĆ©lange de CDH et de HDP conservant les meilleursā¦
Apr 14, 2022
Apache HBase : colocation de RegionServers
Categories: Big Data, Adaltas Summit 2021, Infrastructure | Tags: Ambari, Base de donnƩes, Infrastructure, Performance, Hadoop, HBase, Big Data, HDP, Storage
Les RegionServers sont les processus gĆ©rant le stockage et la rĆ©cupĆ©ration des donnĆ©es dans Apache HBase, la base de donnĆ©es non-relationnelle orientĆ©e colonne de Apache Hadoop. Cāest Ć travers leursā¦
Feb 22, 2022
Utilisation de Cloudera Deploy pour installer Cloudera Data Platform (CDP) Private Cloud
Categories: Big Data, Cloud computing | Tags: Ansible, Cloudera, CDP, Cluster, EntrepƓt de donnƩes (Data Warehouse), Vagrant, IaC
Suite Ć notre rĆ©cente prĆ©sentation de CDP, passons dĆ©sormais au dĆ©ploiement CDP private Cloud sur votre infrastructure locale. Le deploiement est entiĆØrement automatisĆ© avec les cookbooks Ansibleā¦
Jul 23, 2021
PrƩsentation de Cloudera Data Platform (CDP)
Categories: Big Data, Cloud computing, Data Engineering | Tags: SDX, Big Data, Cloud, Cloudera, CDP, CDH, Analyse de donnƩes, Data Hub, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse)
Cloudera Data Platform (CDP) est une plateforme de cloud computing pour les entreprises. CDP fournit des outils intĆ©grĆ©s et multifonctionnels en libre-service afin dāanalyser et de centraliser lesā¦
Jul 19, 2021
Apache Liminal, quand le MLOps rencontre le GitOps
Categories: Big Data, Orchestration de conteneurs, Data Engineering, Data Science, Tech Radar | Tags: Data Engineering, CI/CD, Data Science, Deep Learning, DĆ©ploiement, Docker, GitOps, Kubernetes, Machine Learning, MLOps, Open source, Python, TensorFlow
Apache Liminal propose une solution clĆ©s en main permettant de dĆ©ployer un pipeline de Machine Learning. Cāest un projet open-source, qui centralise lāensemble des Ć©tapes nĆ©cessaires Ć lāentrainementā¦
Mar 31, 2021
TensorFlow Extended (TFX) : les composants et leurs fonctionnalitƩs
Categories: Big Data, Data Engineering, Data Science, Formation | Tags: Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, DĆ©ploiement, Machine Learning, MLOps, Open source, Python, TensorFlow
La mise en production des modĆØles de Machine Learning (ML) et de Deep Learning (DL) est une tĆ¢che difficile. Il est reconnu quāelle est plus sujette Ć lāĆ©chec et plus longue que la modĆ©lisationā¦
Mar 5, 2021
Construire votre distribution Big Data open source avec Hadoop, Hive, HBase, Spark et Zeppelin
Categories: Big Data, Infrastructure | Tags: Maven, Hadoop, HBase, Hive, Spark, Git, Versions et Ć©volutions, TDP, Tests unitaires
LāĆ©cosystĆØme Hadoop a donnĆ© naissance Ć de nombreux projets populaires tels que HBase, Spark et Hive. Bien que des technologies plus rĆ©centes commme Kubernetes et les stockages objets compatibles Sā¦
Dec 18, 2020
Connexion Ć ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)
Categories: Big Data, Cloud computing, Data Engineering | Tags: NiFi, Hadoop, HDFS, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), OAuth2
Alors que les projets Data construits sur le cloud deviennent de plus en plus rĆ©pandus, un cas dāutilisation courant consiste Ć interagir avec le stockage cloud Ć partir dāune plateforme Big Data onā¦
Nov 5, 2020
Reconstruction de Hive dans HDP : patch, test et build
Categories: Big Data, Infrastructure | Tags: Maven, GitHub, Java, Hive, Git, Versions et Ć©volutions, TDP, Tests unitaires
La distribution HDP dāHortonworks va bientĆ“t ĆŖtre dĆ©preciĆ©e a profit de la distribution CDP proposĆ©e par Cloudera. Un client nous a demandĆ© dāintĆ©grer dāune nouvelle feature de Apache Hive sur sonā¦
Oct 6, 2020
Installation d'Hadoop depuis le code source : build, patch et exƩcution
Categories: Big Data, Infrastructure | Tags: Maven, Java, LXD, Hadoop, HDFS, Docker, TDP, Tests unitaires
Les distributions commerciales dāApache Hadoop ont beaucoup Ć©voluĆ© ces derniĆØres annĆ©es. Les deux concurrents Cloudera et Hortonworks ont fusionnĆ©Ā : HDP ne sera plus maintenu et CDH devient CDP. HP aā¦
Aug 4, 2020
TƩlƩchargement de jeux de donnƩes dans HDFS et Hive
Categories: Big Data, Data Engineering | Tags: Business Intelligence, Data Engineering, Data structures, Base de donnƩes, Hadoop, HDFS, Hive, Big Data, Analyse de donnƩes, Data Lake, Lakehouse, EntrepƓt de donnƩes (Data Warehouse)
Introduction De nos jours, lāanalyse de larges quantitĆ©s de donnĆ©es devient de plus en plus possible grĆ¢ce aux technologies du Big data (Hadoop, Spark,ā¦). Cela explique lāexplosion du volume deā¦
By NGOM Aida
Jul 31, 2020
Comparaison de diffƩrents formats de fichier en Big Data
Categories: Big Data, Data Engineering | Tags: Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers
Dans lāunivers du traitement des donnĆ©es, il existe diffĆ©rents types de formats de fichiers pour stocker vos jeu de donnĆ©es. Chaque format a ses propres avantages et inconvĆ©nients selon les cas dā¦
By NGOM Aida
Jul 23, 2020
Automatisation d'un workflow Spark sur GCP avec GitLab
Categories: Big Data, Cloud computing, Orchestration de conteneurs | Tags: Enseignement et tutorial, Airflow, Spark, CI/CD, GitLab, GitOps, GCP, Terraform
Un workflow consiste Ć automiatiser une succĆ©ssion de tĆ¢che qui dont ĆŖtre menĆ©e indĆ©pendemment dāune intervention humaine. Cāest un concept important et populaire, sāappliquant particuliĆØrement Ć unā¦
Jun 16, 2020
Premier pas avec Apache Airflow sur AWS
Categories: Big Data, Cloud computing, Orchestration de conteneurs | Tags: PySpark, Enseignement et tutorial, Airflow, Oozie, Spark, AWS, Docker, Python
Apache Airflow offre une solution rĆ©pondant au dĆ©fi croissant dāun paysage de plus en plus complexe dāoutils de gestion de donnĆ©es, de scripts et de traitements dāanalyse Ć gĆ©rer et coordonner. Cāestā¦
May 5, 2020
Cloudera CDP et migration Cloud de votre Data Warehouse
Categories: Big Data, Cloud computing | Tags: Azure, Cloudera, Data Hub, Data Lake, EntrepƓt de donnƩes (Data Warehouse)
Alors que lāun de nos clients anticipe un passage vers le Cloud et avec lāannonce rĆ©cente de la disponibilitĆ© de Cloudera CDP mi-septembre lors de la confĆ©rence Strata, il semble que le moment soitā¦
By WORMS David
Dec 16, 2019
Migration Big Data et Data Lake vers le Cloud
Categories: Big Data, Cloud computing | Tags: DevOps, AWS, Azure, Cloud, CDP, Databricks, GCP
Est-il impĆ©ratif de suivre tendance et de migrer ses donnĆ©es, workflow et infrastructure vers lāun des Cloud providers tels que GCP, AWS ou AzureĀ ? Lors de la Strata Data Conference Ć New-York, unā¦
Dec 9, 2019
Stage InfraOps & DevOps - construction d'une offre PaaS Big Data & Kubernetes
Categories: Big Data, Orchestration de conteneurs | Tags: DevOps, LXD, Hadoop, Kafka, Spark, Ceph, Internship, Kubernetes, NoSQL
Contexte Lāacquisition dāun cluster Ć forte capacitĆ© rĆ©pond Ć la volontĆ© dāAdaltas de construire une offre de type PAAS pour disposer et mettre Ć disposition des plateformes de Big Data et dā¦
By WORMS David
Nov 26, 2019
Notes sur le nouveau modĆØle de licences Open Source de Cloudera
Categories: Big Data | Tags: CDSW, Licence, Cloudera Manager, Open source
Suite Ć la publication de sa stratĆ©gie de licences Open Source le 10 juillet 2019 dans un article intitulĆ© ānotre engagement envers les logiciels Open Sourceā, Cloudera a diffusĆ© un webinaire hier leā¦
By WORMS David
Oct 25, 2019
Mise en production d'un modĆØle de Machine Learning
Categories: Big Data, Data Engineering, Data Science, DevOps & SRE | Tags: DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, SchƩma
āLe Machine Learning en entreprise nĆ©cessite une vision globale [ā¦] du point de vue de lāingĆ©nierie et de la plateforme de donnĆ©esā, a expliquĆ© Justin Norman lors de son intervention sur leā¦
Sep 30, 2019
Apache Hive 3, nouvelles fonctionnalitƩs et conseils et astuces
Categories: Big Data, Business Intelligence, DataWorks Summit 2019 | Tags: Druid, JDBC, LLAP, Hadoop, Hive, Kafka, Versions et Ć©volutions
Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalitĆ©s intĆ©ressantes Ć lāentrepĆ“t de donnĆ©es. Malheureusement, comme beaucoup deā¦
Jul 25, 2019
Auto-scaling de Druid avec Kubernetes
Categories: Big Data, Business Intelligence, Orchestration de conteneurs | Tags: EC2, Druid, Helm, MƩtriques, OLAP, Exploitation, Orchestration de conteneurs, Cloud, CNCF, Analyse de donnƩes, Kubernetes, Prometheus, Python
Apache Druid est un systĆØme de stockage de donnĆ©es open-source destinĆ© Ć lāanalytics qui peut profiter des capacitĆ©s dāauto-scaling de Kubernetes de par son architecture distribuĆ©e. Cet article estā¦
Jul 16, 2019
IntƩgration de Druid et Hive
Categories: Big Data, Business Intelligence, Tech Radar | Tags: Druid, LLAP, OLAP, Hive, Analyse de donnƩes, SQL
Nous allons dans cet article traiter de lāintĆ©gration entre Hive Interactive (LLAP) et Druid. Cet article est un complĆ©ment Ć lāarticle Ultra-fast OLAP Analytics with Apache Hive and Druid.ā¦
Jun 17, 2019
Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark
Categories: Big Data, Data Engineering, DevOps & SRE | Tags: Apache Spark Streaming, DevOps, Enseignement et tutorial, Spark
LāindisponibilitĆ© des services entraĆ®ne des pertes financiĆØres pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une applicationā¦
May 31, 2019
Apache Knox, c'est facileĀ !
Categories: Big Data, CybersƩcuritƩ, Adaltas Summit 2018 | Tags: Ranger, LDAP, Active Directory, REST, Knox, Kerberos
Apache Knox est le point dāentrĆ©e sĆ©curisĆ© dāun cluster Hadoop, mais peut-il ĆŖtre Ć©galement le point dāentrĆ©e de mes applications RESTĀ ? Vue dāensemble dāApache Knox Apache Knox est une passerelleā¦
Feb 4, 2019
Prise de contrƓle d'un cluster Hadoop avec Apache Ambari
Categories: Big Data, DevOps & SRE, Adaltas Summit 2018 | Tags: Ambari, Automation, iptables, Nikita, REST, Systemd, Cluster, HDP, Kerberos, Noeud, Node.js
Nous avons rĆ©cemment migrĆ© un large cluster Hadoop de production installĆ© āmanuellementā vers Apache Ambari. Nous avons nommĆ© cette opĆ©ration āAmbari Takeoverā. Cāest un processus Ć risque et nousā¦
Nov 15, 2018
DƩploiement d'un cluster Flink sƩcurisƩ sur Kubernetes
Categories: Big Data | Tags: Chiffrement, Flink, HDFS, Kafka, Elasticsearch, Kerberos, SSL/TLS
Le dĆ©ploiement sĆ©curisĆ©e dāune application Flink dans Kubernetes, entraine deux options. En supposant que votre Kubernetes est sĆ©curisĆ©, vous pouvez compter sur la plateforme sous-jacente ou utiliserā¦
By WORMS David
Oct 8, 2018
Migration de cluster et de traitements entre Hadoop 2 et 3
Categories: Big Data, Infrastructure | Tags: Shiro, Erasure Coding, Rolling Upgrade, HDFS, Spark, YARN, Docker
La migration de Hadoop 2 vers Hadoop 3 est un sujet brĆ»lant. Comment mettre Ć niveau vos clusters, quelles fonctionnalitĆ©s prĆ©sentes dans la nouvelle version peuvent rĆ©soudre les problĆØmes actuels etā¦
Jul 25, 2018
RemĆØde Ć l'aveuglement de Kafka
Categories: Big Data | Tags: Ambari, Ranger, Hortonworks, HDF, JMX, UI, Kafka, HDP
Il est difficile de visualiser pour les dĆ©veloppeurs, opĆ©rateurs et manageurs, ce qui se cache Ć lāintĆ©rieur des entrailles de Kafka. Cet article parle dāune nouvelle interface graphique bientĆ“tā¦
Jun 20, 2018
Ingestion de Data Lake, quelques bonnes pratiques
Categories: Big Data, Data Engineering | Tags: NiFi, Gouvernance des donnƩes, HDF, Exploitation, Avro, Hive, ORC, Spark, Data Lake, Format de fichier, Protocol Buffers, Registre, SchƩma
La crĆ©ation dāun Data Lake demande de la rigueur et de lāexpĆ©rience. Voici plusieurs bonnes pratiques autour de lāingestion des donnĆ©es en batch et en flux continu que nous recommandons et mettons enā¦
By WORMS David
Jun 18, 2018
Apache Hadoop YARN 3.0 - Ćtat de l'art
Categories: Big Data, DataWorks Summit 2018 | Tags: GPU, Hortonworks, Hadoop, HDFS, MapReduce, YARN, Cloudera, Data Science, Docker, Versions et Ć©volutions
Cet article couvre la prĆ©sentation āApache Hadoop YARN: state of the unionā (YARN Ć©tat de lāart) par Wangda Tan dāHortonworks lors de la confĆ©rence DataWorks Summit 2018 Berlin (anciennement Hadoopā¦
May 31, 2018
ExƩcuter des workloads d'entreprise dans le Cloud avec Cloudbreak
Categories: Big Data, Cloud computing, DataWorks Summit 2018 | Tags: Cloudbreak, Exploitation, Hadoop, AWS, Azure, GCP, HDP, OpenStack
Cet article se base sur la confĆ©rence de Peter Darvasi et Richard Doktorics āRunning Enterprise Workloads in the Cloudā au DataWorks Summit 2018 Ć Berlin. Il prĆ©sentera lāoutil de dĆ©ploiementā¦
May 28, 2018
Omid : Traitement de transactions scalables et hautement disponibles pour Apache Phoenix
Categories: Big Data, DataWorks Summit 2018 | Tags: Omid, Phoenix, Transaction, ACID, HBase, SQL
Apache Omid fournit une couche transactionnelle au-dessus des bases de donnĆ©es clĆ©s/valeurs NoSQL. CrĆ©dits Ć Ohad Shacham pour son discours et son travail pour Apache Omid. Cet article est le rĆ©sultatā¦
May 24, 2018
Le futur de l'orchestration de workflows dans HadoopĀ : Oozie 5.x
Categories: Big Data, DataWorks Summit 2018 | Tags: REST, Hadoop, Hive, Oozie, Sqoop, CDH, HDP
Au DataWorks Summit Europe 2018 de Berlin, jāai eu lāoccasion dāassister Ć une session sur Apache Oozie. La prĆ©sentation se concentre sur les caractĆ©ristiques du prochain Oozie 5.0 et celles Ć venirā¦
May 23, 2018
Questions essentielles sur les base de donnƩes Time Series
Categories: Big Data | Tags: Druid, Grafana, HBase, Hive, ORC, Data Science, Elasticsearch, IOT
Aujourdāhui, le gros des donnĆ©es Big Data est de nature temporelle. On le constate dans les mĆ©dias comme chez nos clientsĀ : compteurs intelligents, transactions bancaires, usines intelligentes,ā¦
By WORMS David
Mar 18, 2018
Ambari - Comment utiliser les blueprints
Categories: Big Data, DevOps & SRE | Tags: Ambari, Ranger, Automation, DevOps, Exploitation, REST
En tant quāingĆ©nieurs dāinfrastructure chez Adaltas, nous dĆ©ployons des clusters. Beaucoup de clusters. GĆ©nĆ©ralement, nos clients choisissent dāutiliser une distribution telle que Hortonworks HDP ouā¦
Jan 17, 2018
Cloudera Sessions Paris 2017
Categories: Big Data, ĆvĆØnements | Tags: EC2, Altus, CDSW, SDX, Azure, Cloudera, CDH, Data Science, PaaS
Adaltas Ć©tait prĆ©sent le 5 octobre aux Cloudera Sessions, la journĆ©e de prĆ©sentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. NoteĀ : les informations ont Ć©tĆ©ā¦
Oct 16, 2017
Changer la couleur de la topbar d'Ambari
Categories: Big Data, Hack | Tags: Ambari, Front-end
JāĆ©tais rĆ©cemment chez un client qui a plusieurs environnements (Prod, Integration, Recette, ā¦) sur HDP avec chacun son instance Ambari. Lāune des questions soulevĆ©e par le client est la suivanteā¦
Jul 9, 2017
MiNiFiĀ : ScalabilitĆ© de la donnĆ©e & de l'intĆ©rĆŖt de commencer petit
Categories: Big Data, DevOps & SRE, Infrastructure | Tags: MiNiFi, NiFi, C++, HDF, Cloudera, HDP, IOT
Aldrin nous a rapidement prĆ©sentĆ© Apache NiFi puis expliquĆ© dāoĆ¹ est venu MiNiFiĀ : un agent NiFi Ć dĆ©ployer sur un embarquĆ© afin dāamener la donnĆ©e Ć pipeline dāun cluster NiFi (exĀ : IoT). Ce posteā¦
Jul 8, 2017
Administration Hadoop multitenant avancƩe - protection de Zookeeper
Categories: Big Data, Infrastructure | Tags: DoS, iptables, Exploitation, Passage Ć l'Ć©chelle, Zookeeper, Clustering, Consensus
Zookeeper est un composant critique au fonctionnement dāHadoop en haute disponibilitĆ©. Ce dernier se protĆØge en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protĆØgeā¦
Jul 5, 2017
Supervision de clusters HDP
Categories: Big Data, DevOps & SRE, Infrastructure | Tags: Alert, Ambari, MĆ©triques, Supervision, REST, HDP
Avec la croissance actuelle des technologies BigData, de plus en plus dāentreprises construisent leurs propres clusters dans lāespoir de valoriser leurs donnĆ©es. Lāune des principales prĆ©occupationsā¦
Jul 5, 2017
Hive Metastore HA avec DBTokenStoreĀ : Failed to initialize master key
Categories: Big Data, DevOps & SRE | Tags: Infrastructure, Hive, Bug
Cet article dĆ©crit ma petite aventure autour dāune erreur au dĆ©marrage du Hive Metastore. Elle se reproduit dans un environnement prĆ©cis qui est celui dāune installation sĆ©curisĆ©e, entendre avecā¦
By WORMS David
Jul 21, 2016
Maitrisez vos workflows avec Apache Airflow
Categories: Big Data, Tech Radar | Tags: DevOps, Airflow, Cloud, Python
Ci-dessous une compilation de mes notes prises lors de la prĆ©sentation dāApache Airflow par Christian Trebing de chez BlueYonder. Introduction Use caseĀ : comment traiter des donnĆ©es arrivantā¦
Jul 17, 2016
Hive, Calcite et Druid
Categories: Big Data | Tags: Druid, Business Intelligence, Base de donnƩes, Hadoop, Hive
BI/OLAP est nĆ©cessaire Ć la visualisation interactive de flux de donnĆ©esĀ : ĆvĆØnements issus dāenchĆØres en temps rĆ©el Flux dāactivitĆ© utilisateur Log de tĆ©lĆ©phonie Suivi du trafic rĆ©seau ĆvĆØnements deā¦
By WORMS David
Jul 14, 2016
L'offre Red Hat Storage et son intƩgration avec Hadoop
Categories: Big Data | Tags: GlusterFS, Red Hat, Hadoop, HDFS, Storage
Jāai eu lāoccasion dāĆŖtre introduit Ć Red Hat Storage et Gluster lors dāune prĆ©sentation menĆ©e conjointement par Red Hat France et la sociĆ©tĆ© StartX. Jāai ici recompilĆ© mes notes, du moinsā¦
By WORMS David
Jul 3, 2015
Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribuƩ
Categories: Big Data, Formation | Tags: Hue, Infrastructure, Hadoop, HBase, Big Data, DĆ©ploiement
Le systĆØme dāexploitation choisi est OSX mais la procĆ©dure nāest pas si diffĆ©rente pour tout environnement Unix car lāessentiel des logiciels est tĆ©lĆ©chargĆ© depuis Internet, dĆ©compressĆ© et paramĆ©trĆ©ā¦
By WORMS David
Dec 1, 2010
Stockage et traitement massif avec Hadoop
Categories: Big Data | Tags: Hadoop, HDFS, Storage
Apache Hadoop est un systĆØme pour construire des infrastructures de stockage partagĆ© et dāanalyses adaptĆ©es Ć des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisĆ©sā¦
By WORMS David
Nov 26, 2010
Stockage et traitement massif avec Hadoop
Categories: Big Data, Node.js | Tags: REST, HBase, Big Data, Node.js
HBase est la base de donnĆ©es de type ācolumn famillyā de lāĆ©cosystĆØme Hadoop construite sur le modĆØle de Google BigTable. HBase peut accueillir de trĆØs larges volumes de donnĆ©es (de lāordre du tera ouā¦
By WORMS David
Nov 1, 2010
PrƩsentation de MapReduce
Categories: Big Data | Tags: Java, MapReduce, Big Data, JavaScript
Les systĆØmes dāinformation ont de plus en plus de donnĆ©es Ć stocker et Ć traiter. Des entreprises comme Google, Facebook, Twitter mais encore bien dāautre stockent des quantitĆ©s dāinformationā¦
By WORMS David
Jun 26, 2010