Mais c’est quoi un data catalogue ?

Dans cet épisode, nous allons nous demander ce qu’est un data catalogue et surtout à quoi ça sert ?

Un data catalogue ? Bah c’est un catalogue de données. Donc ça sert à cataloguer les données. End of story.

Là, je crois que c’est toi qui vas être catalogué ! L’enfonceur de portes ouvertes ! Et tu vas ajouter qu’un référentiel de données ça sert à les référencer ? Merci de ta brillante contribution…

Bah oui. Un référentiel ça sert de référence. Et un catalogue aussi d’ailleurs. Juste histoire de s’embrouiller un peu… Et comme les données c’est clé, on va te donner la clé des données : le catalogue de données. Bon allez, c’est quoi l’histoire ?

Le monde digital a une fâcheuse tendance à inventer des mots nouveaux pour désigner des concepts qui ne le sont pas. Parfois, le concept principal est néanmoins effectivement similaire, mais ses caractéristiques ne sont pas toujours rigoureusement les mêmes.

C’et sûr que qu’entre une base de données, un silo de données, un datawarehouse, un datamart et un datalake, franchement tu peux te demander si ce n’est pas un peu la même chose. On voit bien d’ailleurs les ressorts marketing qui sont derrières.

Genre datamart, « mart » comme « wallmart » pour donner l’idée du supermarché de données, c’est plus gros et large que la base de données non ? Ou datalake, l’image de l’eau et du lac, c’est quand même plus fluide… On dirait la vieille époque quand le progiciel faisait plus pro que le logiciel.

Ce n’est pas faux. Et pourtant ce n’est pas toujours exactement le même truc dont il s’agit, même si le concept sous-jacent n’est pas franchement différent. Tu peux dire base de données ou datalake c’est pareil.

Ou justement te dire que la base de données c’est clairement identifié. Tu as un réceptacle, et c’est là-dedans. Alors que le datalake, tes données elles s’étalent un peu partout dans l’entreprise. Ce n’est donc pas exactement la même chose même si tu peux te dire globalement que c’est là où sont les données.

Le catalogue, donc ? C’est la même chose, qu’un référentiel ? Ou qu’une base de données de référentiels ? Ou c’est autre chose ? Certes ça se ressemble de loin mais ce n’est pas rigoureusement la même chose.

Un catalogue, à la base, c’est un support qui présente les catégories de produits ou de biens que tu as. Tu reçois ton catalogue de jouets à Noël et tu as des catégories, les jeux de société, les jeux vidéos etc.

Le data catalogue au fond c’est un peu pareil. C’est un catalogue, bon évidemment pas sous la forme d’un livre ou d’un document papier, mais qui fait l’inventaire de tes données, de tes sources de données.

On pourrait presque dire une base de données qui répertorie tes bases de données par catégorie. Mais cela peut répertorier des données comme des sources de données. Cela te permet de gérer de façon optimale les métadonnées…

Ah non tu ne me refais pas le coup micro-méso-macro avec ton méta c’est un truc de maso. En gros tu parles de ce qui caractérise les données – de données qui décrivent les données – leur structure et tout ça.

En gros c’est ça. Le catalogue c’est un peu comme une base de données des données qui décrivent tes données. Dedans tu n’as pas les données mais ce qui les caractérisent, où elles sont etc.

Et comme c’est unique et centralisé, alors cela devient une référence pour toutes celles et ceux qui veulent utiliser ces données au sein de l’entreprise. Dit simplement, le datalake c’est là où sont les données, le catalogue c’est une référence partagée qui t’aide à aller à leur pêche !

Une sorte de livre de pêche en gros. En résumé quoi : le livre de pêche te dit les types de poissons qu’il y a dans ton lac, si ce sont des poissons à manger ou pas, où se trouvent les truites, etc.

C’est donc un concept informatique qui n’est pas très éloigné d’une notion de référentiel dont l’utilité est grande : une source unique et partagée de compréhension du patrimoine de données de l’entreprise et de la manière de l’exploiter utilement.

C’est non seulement un outil qui favorise une bonne gouvernance des données mais qui facilite leur utilisation coordonnée, homogène et harmonieuse par un ensemble d’acteurs différents.

Or, on sait que les données d’une entreprise c’est un véritable patrimoine, c’est donc essentiel de cartographier ce patrimoine, savoir où il est et ce qui le caractérise.

En fait ce qu’on dit, c’est que le catalogue de données c’est essentiel… Bon, c’est juste un catalogue non ?

Oui si tu veux. Mais c’est là où l’informatique a des charmes que le papier n’a pas. Tu peux automatiser plein de choses : connecter des sources de données, les indexer automatiquement, suivre d’où elles viennent et par où elles passent etc. Bref faciliter leur gestion et leur utilisation partagée.

Comme ça on peut se consacrer à la valeur qu’elles apportent.

En résumé, un catalogue de données est une sorte de bibliothèque qui répertorie de manière centralisée toutes les données disponibles dans l’entreprise et ce qui les caractérise pour en permettre la meilleure utilisation possible par des acteurs d’origines diverses.

J’ai bon chef ?

Oui tu as bon mais on ne va pas en faire toute une histoire