Les 3 enjeux clés de la gouvernance de la donnée

Longtemps cantonnée à des enjeux réglementaires, notamment dans le secteur bancaire ou pharmaceutique, la donnée revêt désormais un enjeu stratégique car elle devient source de différenciation pour les entreprises. Le marketing l’utilise pour améliorer sa connaissance client, le commercial pour scorer ses prospects, la direction générale quant à elle cherche des indicateurs clairs pour piloter l’entreprise… Cette multiplicité d’acteurs de l’entreprise utilisant la donnée, couplée à l’abondance de données peut vite conduire à une certaine forme d’anarchie. Voilà pourquoi le thème de la gouvernance de la donnée revient avec insistance depuis plusieurs mois sur le devant de la scène. La gouvernance de la donnée va permettre de s’assurer que la donnée dans l’entreprise est bien documentée, de qualité et accessible à tous. Elle va permettre de mettre en place des processus pour en assurer la pérennité.

L’enjeu de la documentation

gouvernance_de_la_donnee_documentation_poc_data_artefact.jpeg

Le premier enjeu de la gouvernance est celui de la documentation. Prenons un exemple tout simple. Un annonceur souhaite lancer un POC pour mieux anticiper l’attrition de ses clients. Les data scientists en charge du POC vont commencer par repérer les données les plus pertinentes dans l’ un dictionnaire de la donnée pour qu’ils puissent facilement avoir accès à l’exhaustivité des données disponibles dans l’entreprise ? Où vont-ils devoir aller rencontrer toutes les personnes du décisionnel pour qu’on leur présente l’ensemble des bases de données et la signification de chacune des colonnes des tables ? Comment savoir que la colonne « VSC_1100 » correspond à la consultation de la page résiliation ? Les méta données jouent un rôle clé. Ce sont des données sur les données qui en détaillent les caractéristiques (integer, varchar...), la signification, la gestion opérationnelle (qui accède à quoi), le lignage (étape de transformation), etc. Cette documentation est capitale pour s’assurer que le savoir de l’entreprise ne repose pas sur une seule personne mais qu’il est accessible facilement à tous (juridique, métier, BI, etc.). Il existe de nombreux outils permettant de mettre en place ces dictionnaires de la donnée (Collibra, Informatica…).


L’enjeu de la qualité

Le deuxième enjeu est celui la qualité de la donnée. Reprenons l’exemple sur l’attrition. Après avoir identifié que la consultation d’une page de résiliation était une donnée clé, on constate que cette donnée est disponible dans deux bases différentes. Sur quelle base s’appuyer ? Quelle différence entre ces deux données ? On voit que la qualité de la donnée est clé : est-elle bien stockée ? Les données sont-elles dédoublonnées, centralisées dans une base de donnée unique ? Très souvent, la même donnée est stockée à plusieurs endroits, entraînant des divergences dans les reportings, des envois d’email en double… Un outil clé sera le MDM (Master Data Management) qui identifie l’enregistrement « maître » et les enregistrements « esclaves ». Autres questions par rapport à la qualité : la donnée est-elle stockée avec une granularité suffisamment fine pour de futures analyses ? Souvent pour des raisons de coût de stockage la donnée est agrégée avant d’être stockée. Le big data permet de s’affranchir de ces contraintes. Lorsque la donnée brute est transformée à des fins d’analyse ou d’utilisation spécifique, garde-t-on une trace de ces transformations ? Cette question est particulièrement critique pour le juridique par exemple.


L’enjeu de l’accessibilité

gouvernance_de_la_donnee_accessibilite_data_artefact.jpeg

Le troisième enjeu est celui de l’accessibilité aux données. Retour sur notre exemple de l’attrition. Les données clés expliquant l’attrition et les enregistrements maîtres ont été identifiées. Maintenant, il faut pouvoir y accéder facilement pour effectuer analyses et calculs de score, score qui doit être disponible aux opérationnels. Si l’entreprise a des APIs, tout cela est beaucoup plus simple. De même, si l’entreprise a mis en place un datalake, il est possible d’accéder plus facilement à la donnée brute plutôt que de repartir du décisionnel classique où la structure de la donnée est très figée et où la moindre modification peut prendre beaucoup de temps à mettre en place.


Qui assure la gouvernance de la donnée ?

Enfin, le dernier enjeu transverse aux trois précédents est de mettre en place une entité qui va prendre en charge la gouvernance de la donnée. Son rôle est de définir les processus et les règles au sein de l’entreprise qui permettront de garantir les trois premiers principes.

gouvernance_de_la_donnee_artefact_CDO.jpeg

On peut dresser un parallèle avec la comptabilité qui fixe des règles (à la différence que celles-ci sont communes à toutes les entreprises) pour s’assurer que les comptes des entreprises sont tous préparés de la même manière et ont tous la même signification. Des auditeurs, qui sont différents des comptables, s’assurent du respect de ces règles. Dans le cas de la gouvernance de la donnée, le rôle des auditeurs peut-être assuré par des Data Stewards qui vont s’assurer au sein de chaque BU que les règles de gouvernance de la donnée sont bien respectées et qui peuvent remontent les éventuels problèmes. Les architectes de la donnée joueront plutôt le rôle des comptables en construisant les bases de données de l’entreprise. Le CDO (Chief Data Officer) peut quant à lui être à la tête de l’entité qui s’occupe de la gouvernance et fixe les grands principes stratégiques et les règles.

Concrètement, les architectes SI, souvent appelés architectes big data, s’occupent de concevoir les solutions techniques à l’exploitation de la donnée. Ils ont pour habitude de travailler d’une façon agile pour développer leur construction au fur et à mesure des besoins de la structure. Leur responsabilité repose principalement sur l’organisation et donc la documentation de la donnée. Le CDO, quant à lui, développe la vision stratégique et définit les enjeux liés à l’acquisition et à l’exploitation de la donnée de son entreprise. Le rôle des Data Stewards consiste à s’assurer de la qualité et l’accessibilité des données. Pour cela ils peuvent utiliser différents outils, notamment des outils de data profiling. Ils sont également vus comme la liaison entre les architectes SI et le CDO et jouent le tampon entre l’implémentation technique et la coordination tactique.


Les postes définis ci-dessus sont à la base d’une gouvernance de la donnée réussie, ils ont pour avantage d’intégrer et de répondre aux enjeux de documentation, de qualité et d’accessibilité de la donnée. Bien sûr, ils peuvent également s’entourer d’autres profils selon la maturité de l’organisation en place : data owners, data protection officers etc.

 gouvernance_de_la_donnee_artefact_cdo_data_marketing.png

Sujet: Data Organisation Process
Êtes-vous un padawan ou un jedi de la data ?
Sujets