Storage

Le stockage est la capacité de conserver des informations numériques sur un composant informatique. En pratique, le stockage est organisé en hiérarchie, en plaçant les données chaudes nécessitant un accès rapide mais coûteux au plus proche de la CPU, et les données froides plus loin sur des périphériques plus lents mais persistants parfois accessible via le réseau. Un stockage rapide mais volatile s'appelle le plus souvent "mémoire".

Les principales caractéristiques du stockage sont notamment la volatilité, la mutabilité, l’accessibilité, l’adressabilité, la capacité, les performances, la consommation d’énergie et la sécurité.

En savoir plus: Wikipédia - mémoire

Articles associés

Stockage et traitement massif avec Hadoop

Catégories : Big Data | Tags : Hadoop, HDFS, Storage

Apache Hadoop est un système pour construire des infrastructures de stockage partagé et d’analyses adaptées à des volumes larges (plusieurs terabytes ou petabytes). Les clusters Hadoop sont utilisés…

Par WORMS David

26 nov. 2010

Deux Hive UDAF pour convertir une aggregation vers une map

Catégories : Data Engineering | Tags : Java, HBase, Hive, Format de fichier

Je publie deux nouvelles fonctions UDAF pour Hive pour aider avec les map dans Apache Hive. Le code source est disponible sur GitHub dans deux classes Java : “UDAFToMap” et “UDAFToOrderedMap” ou vous…

Par WORMS David

6 mars 2012

Stockage HDFS et Hive - comparaison des formats de fichiers et compressions

Catégories : Data Engineering | Tags : Business Intelligence, Hive, ORC, Parquet, Format de fichier

Il y a quelques jours, nous avons conduit un test dans le but de comparer différents format de fichiers et méthodes de compression disponibles dans Hive. Parmi ces formats, certains sont natifs à HDFS…

Par WORMS David

13 mars 2012

L'offre Red Hat Storage et son intégration avec Hadoop

Catégories : Big Data | Tags : GlusterFS, Red Hat, Hadoop, HDFS, Storage

J’ai eu l’occasion d’être introduit à Red Hat Storage et Gluster lors d’une présentation menée conjointement par Red Hat France et la société StartX. J’ai ici recompilé mes notes, du moins…

Par WORMS David

3 juil. 2015

Hive, Calcite et Druid

Catégories : Big Data | Tags : Druid, Business Intelligence, Base de données, Hadoop, Hive

BI/OLAP est nécessaire à la visualisation interactive de flux de données : Évènements issus d’enchères en temps réel Flux d’activité utilisateur Log de téléphonie Suivi du trafic réseau Évènements de…

Par WORMS David

14 juil. 2016

Kubernetes 1.8

Catégories : Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : containerd, CRD, RBAC, Kubernetes, Réseau, OCI, Versions et évolutions

L’arrivée de Kubernetes 1.8 apporte son lot de nouveautés. Grâce à plus de 2500 pull requests, 2000 commits, avec environ 400 commiters, Kubernetes a su rajouter 39 fonctionnalités en plus à la…

Par YASSINE Younes

24 oct. 2017

Méthodes de stockage persistées dans Kubernetes

Catégories : Cloud computing, Orchestration de conteneurs, Open Source Summit Europe 2017 | Tags : Container Storage Interface (CSI), PVC, Azure, Docker, GCE, Kubernetes, Storage

Cet article est basé sur la présentation “Introduction to Kubernetes Storage Primitives for Stateful Workloads” par the {Code} team à la conférence OSS 2017 à Prague. Commençons par qu’est-ce que…

Par SAUVAGE Pierre

28 oct. 2017

Notes sur Katacoda relatives à l'orchestrateur de conteneur Kubernetes

Catégories : Orchestration de conteneurs, Formation | Tags : Helm, Ingress, Kubeadm, CNI, Micro Services, Minikube, Kubernetes

Il y a quelques semaines, j’ai consacré deux jours pour suivre les cours relatifs à la solution d’orchestration de *container Kubernetes mis à disposition sur la plateforme Katacoda. Je partage ces…

Par WORMS David

14 déc. 2017

YARN et le calcul distribué sur GPU pour le machine learning

Catégories : Data Science, DataWorks Summit 2018 | Tags : GPU, YARN, Machine Learning, Réseau de neurones, Storage

Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…

Par JOUET Grégor

30 mai 2018

Apache Flink : passé, présent et futur

Catégories : Data Engineering | Tags : Pipeline, Flink, Kubernetes, Machine Learning, SQL, Streaming

Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…

Par BEREZOWSKI César

5 nov. 2018

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, JDBC, LLAP, Hadoop, Hive, Kafka, Versions et évolutions

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…

Par LEONARD Gauthier

25 juil. 2019

Rook via Ceph n'approvisionne pas mes Persistent Volume Claims !

Catégories : DevOps & SRE | Tags : PVC, Linux, Rook, Ubuntu, Ceph, Cluster, Internship, Kubernetes

L’installation de Ceph dans un cluster Kubernetes peut être automatisé par l’utilisation de Rook. Actuellement en stage chez Adaltas, j’étais en charge de participer à la configuration d’un cluster…

Par CHOJNOWSKI Eyal

9 sept. 2019

Versionnage des données et ML reproductible avec DVC et MLflow

Catégories : Data Science, DevOps & SRE, Évènements | Tags : Data Engineering, Databricks, Delta Lake, Git, Machine Learning, MLflow, Storage

Notre présentation sur la gestion de versions sur des données et le développement reproductible d’algorithmes de Machine Learning proposé au Data + AI Summit (anciennement Spark + AI) est accepté. La…

Par KAFERLE DEVISSCHERE Petra

30 sept. 2020

OAuth2 et OpenID Connect, une introduction douce et fonctionnelle (Part 1)

Catégories : Orchestration de conteneurs, Cybersécurité | Tags : Go Lang, JAMstack, LDAP, CNCF, Kubernetes, OAuth2, OpenID Connect

La compréhension d’OAuth2, d’OpenID et d’OpenID Connect (OIDC), comment ils sont liés, comment les communications sont établies, comment s’architecture votre application et que faire des différents…

Par WORMS David

17 nov. 2020

Apache HBase : colocation de RegionServers

Catégories : Big Data, Adaltas Summit 2021, Infrastructure | Tags : Ambari, Base de données, Infrastructure, Performance, Hadoop, HBase, Big Data, HDP, Storage

Les RegionServers sont les processus gérant le stockage et la récupération des données dans Apache HBase, la base de données non-relationnelle orientée colonne de Apache Hadoop. C’est à travers leurs…

Par BERLAND Pierre

22 févr. 2022

Architecture du stockage objet et attributs du standard S3

Catégories : Big Data, Gouvernance des données | Tags : Base de données, API, Amazon S3, Big Data, Data Lake, Storage

Le stockage objet a gagné en popularité parmi les architectures de stockage de données. Comparé aux systèmes de fichiers et au stockage bloc, le stockage objet ne rencontre pas de limitations lorsqu…

Par BIGOT Luka

20 juin 2022

Stockage objet avec MinIO dans un cluster Kubernetes

Catégories : Big Data, Gouvernance des données, Formation | Tags : Amazon S3, Big Data, Cluster, Data Lake, Kubernetes, Storage

MinIO est une solution de stockage objet populaire. Souvent recommandé pour sa simplicité d’utilisation et d’installation, MinIO n’est pas seulement qu’un bon moyen pour débuter avec le stockage objet…

Par BIGOT Luka

9 juil. 2022

Stockage objet Ceph dans un cluster Kubernetes avec Rook

Catégories : Big Data, Gouvernance des données, Formation | Tags : Amazon S3, Big Data, Ceph, Cluster, Data Lake, Kubernetes, Storage

Ceph est un système tout-en-un de stockage distribué. Fiable et mature, sa première version stable est parue en 2012 et a été depuis la référence pour le stockage open source. L’avantage principal de…

Par BIGOT Luka

4 août 2022