
Qu’est-ce qu’un Data Catalog ?
Un logiciel de catalogage des données, ou Data Catalog, est un outil qui permet de faire un inventaire des données au sein d’une organisation. Il utilise les métadonnées pour créer un répertoire informatif et recherchable de toutes les ressources de données dans une entreprise, administration (voir l’exemple du catalogue des données de data.gouv.fr) ou association.
Ses principales fonctionnalités sont :
– Centralisation des métadonnées : Un Data Catalog centralise les métadonnées, aidant les utilisateurs à découvrir, accéder et gérer les données à travers l’organisation.
– Facilitation de la découverte des données : Il aide les professionnels des données à trouver les données les plus pertinentes pour tout usage analytique ou commercial.
– Gouvernance des données : Un Data Catalog est un composant central de la gouvernance des données et sert de base de connaissances pour les utilisateurs à travers une entreprise.
– Inventaire des actifs de données : Il crée et maintient un inventaire des actifs de données d’une organisation à travers son paysage numérique entier, facilitant la découverte, la compréhension, la confiance et la gestion des données.
– Connectivité et contextualisation : Un Data Catalog connecte les personnes aux données contextualisées et fiables dont elles ont besoin en centralisant les métadonnées.
– Réduction de la redondance des données : Il encourage la cohérence dans la dénomination, les définitions et les métriques, assurant que différentes équipes au sein d’une organisation sont alignées dans leur compréhension et leur utilisation des données.
– Amélioration de l’efficacité : Les fonctionnalités de recherche des Data Catalogs vont au-delà des recherches par mots-clés de base pour fournir des suggestions et incorporer des filtres afin que les utilisateurs puissent trouver les données en fonction de divers critères.
Voici une présentation des solutions les plus connues sur le marché : Blueway, DataGalaxy, Alation, Collibra, et Castor.
Blueway
MyDataCatalogue est un catalogue de données moderne, proposé par Blueway, qui organise et centralise les métadonnées liées aux actifs de données d’une entreprise. Le catalogage de données permis par la plateforme Phoenix de Blueway sert à la découverte, la documentation, la gouvernance et le traçage (lineage) des données grâce à une interface collaborative enrichie par l’IA.
Blueway est une société française (siège à Lyon, avec des bureaux à Paris, à Vannes et à Amsterdam) créée en 2003, qui compte plus de 110 salariés et qui revendique plus de 260 clients dans le secteur public (notamment plusieurs départements, CCI et communautés) et dans le secteur privé (Cegid Group, Aiguillon Construction, Galderma …)
MyDataCatalogue est une solution de catalogage de données pour les entreprises privées et pour les établissements publics permettant notamment de scanner et d’extraire des données, d’analyser des métadonnées, de les enrichir (manuellement ou par intelligence artificielle), de faire des recherches (par mots clés, par classification …), et d’avoir une vision à 360° du patrimoine de données. Il s’adresse notamment aux DPO/RSSI, aux archivistes, au service SIG, aux DSI et data managers …

Intégré à la plateforme Phoenix (qui comprend également d’autres modules d’automatisation des processus métiers, d’intégration de données, de gestion du cycle de vie des API …), MyDataCatalogue offre de nombreux avantages :
– Un logiciel 100% français avec un support technique en français
– Plus de 20 ans d’expérience au service des entreprises et administrations françaises
– Support d’une très large gamme de format de données
– Intégration native avec la plateforme Phoenix
– Collection automatique des informations
– Enrichissement automatique des données
– UX et design favorisant la prise en main
…

Alation
Alation est une entreprise américaine qui a développé un logiciel du même nom : Alation est une plateforme de gouvernance des données qui aide les organisations à gérer et à exploiter leurs actifs de données.

Collibra
Collibra c’est aussi un DMP (Data Management Platform) : une plateforme de gestion des données américaine qui s’adresse avant tout aux ETI ainsi qu’aux grandes entreprises, et qui centralise donc les données d’une organisation, facilite leur gouvernance, améliore la qualité des données …

Castor
Castor, qu’on appelle aussi CastorDoc et qui a récemment été rachetée par le groupe Coalesce, est une autre solution de data management pour cartographier et gérer les données : découverte de données, catalogage, traçabilité, gouvernance …

DataGalaxy
DataGalaxy permet d’identifier, de centraliser et d’enrichir les actifs datas des entreprises, notamment via de l’intelligence artificielle.
