Amazon Web Services (AWS)
Amazon Web Services est une filière d'Amazon qui propose une plateforme de cloud computing à la demande avec plus de 175 services affiliés. Parmis les plus utilisés, on retrouve le système de stockage AWS S3 et AWS EC2 qui permet de louer des machines virtuelles pour exécuter ses propres applications.
Articles associés
CDP partie 3 : activation des Data Services en environnment CDP Public Cloud
Catégories : Big Data, Cloud computing, Infrastructure | Tags : Infrastructure, AWS, Big Data, Cloudera, CDP
L’un des principaux arguments de vente de Cloudera Data Platform (CDP) est la maturité de son offre de services. Ceux-ci sont faciles à déployer sur site, dans le cloud public ou dans le cadre d’une…
Par KONRAD Albert
27 juin 2023
CDP partie 2 : déploiement d'un environnement CDP Public Cloud sur AWS
Catégories : Big Data, Cloud computing, Infrastructure | Tags : Infrastructure, AWS, Big Data, Cloud, Cloudera, CDP, Cloudera Manager
La Cloudera Data Platform (CDP) Public Cloud constitue la base sur laquelle des lacs de données (Data Lake) complets sont créés. Dans un article précédent, nous avons présenté la plateforme CDP. Cet…
Par KONRAD Albert
19 juin 2023
CDP partie 1 : introduction à l'architecture Data Lakehouse avec CDP
Catégories : Cloud computing, Data Engineering, Infrastructure | Tags : Data Engineering, Iceberg, AWS, Azure, Big Data, Cloud, Cloudera, CDP, Cloudera Manager, Entrepôt de données (Data Warehouse)
Cloudera Data Platform (CDP) est une data platform hybride pour l’intégration de donnée, le machine learning et l’analyse de la data. Dans cette série d’articles nous allons décrire comment installer…
Par BAUM Stephan
8 juin 2023
Exigences et attentes d'une plateforme Big Data
Catégories : Big Data, Infrastructure | Tags : Data Engineering, Gouvernance des données, Analyse de données, Data Hub, Data Lake, Lakehouse, Data Science
Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources. Elle se compose de…
Par WORMS David
23 mars 2023
Déploiement de Keycloak sur EC2
Catégories : Cloud computing, Data Engineering, Infrastructure | Tags : EC2, sécurité, Authentification, AWS, Docker, Keycloak, SSL/TLS, SSO
Pourquoi utiliser Keycloak Keycloak est un fournisseur d’identité open source (IdP) utilisant l’authentification unique SSO. Un IdP est un outil permettant de créer, de maintenir et de gérer les…
Par BAUM Stephan
14 mars 2023
Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks
Catégories : Data Engineering, Formation | Tags : Cloud, Data Lake, Databricks, Delta Lake, MLflow
Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre à votre rythme et selon vos besoins. Il vous en coûtera 2000 $ US pour un accès illimité…
Par KNYAZEVA Anna
26 mai 2021
Les certifications Microsoft Azure associées aux données
Catégories : Cloud computing, Data Engineering | Tags : Gouvernance des données, Azure, Data Science
Microsoft Azure a des parcours de certification pour de nombreux postes techniques tels que développeur, Data Engineers, Data Scientists et architect solution, entre autres. Chacune de ces…
Par NGOM Barthelemy
14 avr. 2021
Importer ses données dans Databricks : tables externes et Delta Lake
Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python
Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…
21 mai 2020
Premier pas avec Apache Airflow sur AWS
Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : PySpark, Enseignement et tutorial, Airflow, Oozie, Spark, AWS, Docker, Python
Apache Airflow offre une solution répondant au défi croissant d’un paysage de plus en plus complexe d’outils de gestion de données, de scripts et de traitements d’analyse à gérer et coordonner. C’est…
Par COINTEPAS Aargan
5 mai 2020
Snowflake, le Data Warehouse conçu pour le cloud, introduction et premiers pas
Catégories : Business Intelligence, Cloud computing | Tags : Cloud, Data Lake, Data Science, Entrepôt de données (Data Warehouse), Snowflake
Snowflake est une plateforme d’entrepôt de données en mode SaaS qui centralise, dans le cloud, le stockage et le traitement de données structurées et semi-structurées. La génération croissante de…
7 avr. 2020
MLflow tutorial : une plateforme de Machine Learning (ML) Open Source
Catégories : Data Engineering, Data Science, Formation | Tags : AWS, Azure, Databricks, Deep Learning, Déploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn
Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…
23 mars 2020
Cloudera CDP et migration Cloud de votre Data Warehouse
Catégories : Big Data, Cloud computing | Tags : Azure, Cloudera, Data Hub, Data Lake, Entrepôt de données (Data Warehouse)
Alors que l’un de nos clients anticipe un passage vers le Cloud et avec l’annonce récente de la disponibilité de Cloudera CDP mi-septembre lors de la conférence Strata, il semble que le moment soit…
Par WORMS David
16 déc. 2019
Migration Big Data et Data Lake vers le Cloud
Catégories : Big Data, Cloud computing | Tags : DevOps, AWS, Azure, Cloud, CDP, Databricks, GCP
Est-il impératif de suivre tendance et de migrer ses données, workflow et infrastructure vers l’un des Cloud providers tels que GCP, AWS ou Azure ? Lors de la Strata Data Conference à New-York, un…
Par RUMMENS Joris
9 déc. 2019
Notes du Google Cloud Summit à Paris
Catégories : Évènements | Tags : AWS, Azure, Cloud, GCP, Kubernetes, On-premises
Le 18 Juin avait lieu l’édition 2019 du salon annuel de Google à Paris. L’édition Parisienne de cette année a été la plus grande jusqu’à maintenant, ce qui reflète l’engagement de Google à se…
Par SAHNOUNI Tariq
26 juin 2019
Exécuter des workloads d'entreprise dans le Cloud avec Cloudbreak
Catégories : Big Data, Cloud computing, DataWorks Summit 2018 | Tags : Cloudbreak, Exploitation, Hadoop, AWS, Azure, GCP, HDP, OpenStack
Cet article se base sur la conférence de Peter Darvasi et Richard Doktorics “Running Enterprise Workloads in the Cloud” au DataWorks Summit 2018 à Berlin. Il présentera l’outil de déploiement…
Par RUMMENS Joris
28 mai 2018