Exigences et attentes d'une plateforme Big Data

Exigences et attentes d'une plateforme Big Data

Vous appréciez notre travail......nous recrutons !

Ne ratez pas nos articles sur l'open source, le big data et les systèmes distribués, fréquence faible d’un email tous les deux mois.

Une plateforme Big Data est un système complexe et sophistiqué qui permet aux organisations de stocker, traiter et analyser de gros volumes de données provenant de diverses sources.

Elle se compose de plusieurs composants qui fonctionnent ensemble comme une plateforme sécurisée et gouvernée. En tant que telle, une plateforme Big Data répond à une variété d’exigences pour s’assurer qu’elle peut gérer les besoins variés et évolutifs de ses utilisateurs.

Note, en raison de l’ampleur du domaine, il n’est pas possible de fournir une liste exhaustive et complète des exigences. Nous vous invitons à nous contacter pour enrichir ce document.

Ingestion des données

Ce domaine comprend l’ingestion des données provenant de diverses sources, leurs traitements et leur stockage dans un format approprié.

  • Source des données

    Capacité à lire des données depuis un large choix de solutions telles que des bases de données, des systèmes de fichiers, des APIs, et des données en streaming.

  • Modes d’ingestion

    Capacité à traiter des données en batch et en streaming.

  • Format des données

    Support en lecture et en écriture de formats de fichiers et de formats de tables tels que JSON, CSV, XML, Avro, Parquet, Delta Lake et Iceberg.

  • Qualité des données

    Addresser les exigences de qualité pour les données, telles que l’exhaustivité des données, l’exactitude des données et la cohérence des données, et s’assurer que les pipelines d’ingestion valident et nettoient les données selon les besoins.

  • Transformation des données

    Application de transformations et d’enrichissement avant le stockage et l’analyse.

  • Disponibilité des données

    Garantir la gestion des pannes des sources de données ou du pipeline d’ingestion lui-même, récupération et reprise de l’ingestion sans perte de données.

  • Volumétrie

    Fournir des solutions en capacité d’adresser la volumétrie attendue et les variations de débit.

Gestion et stockage des données

Ce domaine comprend le stockage, la gestion et l’accès à de gros volumes de données.

  • Disponibilité

    Accès aux données de manière fiable et sans interruption, garantissant une haute disponibilité des données.

  • Durabilité

    Capacité à garantir que les données ne sont pas perdues en raison de pannes matérielles ou d’autres erreurs, avec des stratégies de réplication et de sauvegarde des données en place.

  • Performance

    Capacité de stocker et de récupérer des données rapidement et efficacement, avec une faible latence et un débit élevé.

  • Élasticité

    Stockage et gestion des volumes croissants de données, avec la possibilité d’augmenter et de diminuer la taille selon les besoins par l’acquisition et la libération de ressources additionnelles.

  • Cycle de vie des données

    Gestion du cycle de vie des données par l’application de modifications et d’ajout de données manquantes et la possibilité de revenir à une version antérieur.

Traitement des données dans le data lake

Ce domaine comprend les processus de préparation et d’exposition des données pour de futures analyses.

  • Flexibilité

    Capacité à prendre en charge plusieurs types et formats de données et capacité à s’intégrer à divers outils de traitement et d’analyse des données distribués.

  • Nettoyage des données

    Elimination ou correction des erreurs, des incohérences et des valeurs manquantes.

  • Intégration des données

    Intégration de plusieurs sources de données dans un seul ensemble de données, en résolvant les différences de schéma ou de format.

  • Transformation et préparation des données

    Transformation des données pour les préparer au traitement ou à l’analyse en aval, comme l’agrégation, le filtrage, le tri ou le pivotement.

  • Enrichissement des données

    Amélioration des données avec des informations supplémentaires pour fournir plus de contexte et d’informations.

  • Réduction des données

    Réduction du volume de données en les résumant ou en les échantillonnant, tout en préservant les caractéristiques et les informations essentielles.

  • Normalisation et dénormalisation des données

    Normalisation des données pour supprimer les redondances et les incohérences, en vous assurant que les données sont stockées dans un format cohérent et dénormalisation des données dans un objectif de performance.

Observabilité des données

Ce domaine est la pratique de la surveillance et de la gestion de la qualité, de l’intégrité et des performances des données lorsqu’elles transitent par la plate-forme.

  • La validation des données

    Assurance que les données sont valides, exactes et cohérentes, et respectent le format et le schéma attendus.

  • Lignage des données

    Suivi du le cheminement des données à mesure qu’elles circulent dans le système pour identifier tout problème ou anomalie.

  • Suivi de la qualité des données

    Surveillance continue de la qualité des données et déclenchement des alertes lorsque des anomalies ou des erreurs sont détectées.

  • Suivi de la performance

    Surveillance des performances du système, y compris la latence, le débit et l’utilisation des ressources, pour s’assurer que le système fonctionne de manière optimale.

  • Gestion des métadonnées

    Gestion des métadonnées associées aux données, y compris le schéma de données, les dictionnaires de données et le catalogue de données, pour s’assurer qu’elles sont exactes et à jour.

Utilisation des données

Ce domaine comprend les exigences d’accès, de transfert, d’analyse et de visualisation des données pour extraire des informations exploitables et de la valeur.

  • Interfaces utilisateurs

    Mise à disposition aux utilisateurs d’environnements CLI et d’interfaces graphiques pour le traitement et la visualisation des données.

  • Interfaces de communication

    Mise à disposition d’accès aux données via les protocoles de communication REST, RPC et JDBC/ODBC.

  • Exploration des données

    Effectuer une analyse exploratoire des données pour comprendre les caractéristiques et la qualité des données, extraire des modèles, des relations ou des informations à partir des données, à l’aide d’algorithmes statistiques ou d’apprentissage automatique.

  • Sécurité des données

    Assurez-vous que les données sont sécurisées et protégées contre les accès non autorisés ou les violations, en mettant en œuvre des contrôles et des protocoles de sécurité appropriés.

  • Visualisation des données

    Visualisez les données pour communiquer des informations et des résultats aux parties prenantes, à l’aide de tableaux, de graphiques ou d’autres visualisations.

Sécurité et exploitation de la plateforme

Ce domaine couvre la sécurité et l’exploitation de plateformes big data.

  • Réglementation et conformité des données

    Capacité à garantir la conformité aux politiques et réglementations en matière de gouvernance des données, telles que les lois sur la confidentialité des données, les droits d’utilisation des données, les politiques de conservation des données et les contrôles d’accès aux données.

  • Gestion fines des accès

    Capacité de contrôler les accès et le partage des données sur l’ensemble des services offerts avec des politiques de gestion prenant en compte les charactéristiques et les spécificités de chacun.

  • Filtrage et masquage des données

    Filtrage des données par ligne et par colonne, application de masques sur les données sensibles.

  • Chiffrement des données

    Chiffrement au repos et en transfert avec SSL/TLS.

  • Intégration au système d’information

    Intégration des utilisateurs et des groupes d’utilisateurs avec l’annuaire d’entreprise.

  • Périmètre de sécurité

    Isolation de la plateforme dans le réseau et ouverture des accès centralisée par un unique point d’entrée.

  • Interface d’administration

    Mise à disposition d’une interface graphique pour la gestion et la surveillance des services, les gestions des contrôles d’accès aux données et de la gouvernance de la plaforme.

  • Surveillance et alertes

    Exposition des métriques et des alertes qui doivent être surveillées pour garantir l’intégrité et les performances des services et des applications hébergées.

Matériel et exploitation

Ce domaine couvre l’acquisition de resources ainsi que les exigences d’exploitation.

  • Infrastructure d’exécution

    Sélection entre une infrastructure cloud ou une infrastructure on-premise, en tenant compte du fait que le cloud offre un stockage et un traitement flexibles et évolutifs avec des économies de coûts, tandis que le déploiement sur site offre un contrôle, une sécurité et une conformité accrus sur les données, mais nécessite un investissement initial important et des frais de maintenance.

  • Architecture asymétrique

    Dissociation entre les ressources dédiées au stockage et aux traitements ou, dans certaines circonstances, colocalisation des traitements et des données.

  • Stockage

    Mise à disposition d’une infrastructure de stockage en adéquation avec les volumétries exprimées.

  • Calcul

    Mise à disposition d’une infrastructure de calcul en capacité d’évoluer avec les usages futurs apportés par les projets et les utilisateurs dans les domaines du data engineering, de la data analyse et de la data science.

  • Rentabilité

    Capacité de stocker et de gérer les données de manière rentable, en tenant compte du coût du stockage et du coût de gestion et d’exploitation de la solution de stockage.

  • Gestion des coûts et coût total de possession (TCO)

    Control et calcul du coût total de la solution en prenant en compte tous les facteurs et les spécificités de la plateforme tels que l’infrastructure, le personnel, l’acquisition de licenses, les délais, l’utilisation, le turnover des équipes, la dette technique, …

  • Accompagnement

    Accompagnement des utilisateurs de la plateforme dans l’objectif d’assurer la montée en compétence des équipes, la validation des choix d’architecture, la mise à disposition des correctifs et des évolutions, et le bon usage des resources disponibles.

Conclusion

Une plateforme Big Data doit être capable de gérer les besoins divers et évolutifs de l’organisation, tout en garantissant que la solution est hautement flexible, résiliente et performante, que les données sont sécurisées, conformes et de haute qualité, que les informations et les résultats sont communiqués efficacement entre les différentes parties prenantes et que son fonctionnement est rentable dans le temps.

Partagez cet article

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain