La data literacy, c’est quoi ?
Dans cet épisode nous allons tenter d’expliquer ce qu’est la « data literacy » ou la littéracie des données.
Dans cet épisode nous allons tenter d’expliquer ce qu’est la « data literacy » ou la littéracie des données.
Les charmes d’un « business data driven » nourrit de ces données qu’on laisse derrière nous comme d’inextinguibles traces que d’autres sauront exploiter sans vergogne pour faire du business.
Des données que nous donnons et dont on mesure toute la valeur dès lors que des petits malins en tirent toute la quintessence. Des données dont on pourrait même croire qu’on les enrichit en les appelant « data ».
Pourtant combien sont ceux qui distinguent la moyenne de la médiane ? Qui s’intéresse au contexte dans lequel elles sont fabriquées ? Qui veille tout simplement aux biais d’analyse auxquels elles nous invitent malicieusement à chaque instant ?
« Les chiffres sont des êtres fragiles qui, à force d’être torturés, finissent par avouer tout ce qu’on veut leur faire dire » écrivait Alfred Sauvy. Alors ne torturons pas les données, mais pour cela encore faut-il en développer la culture. Alors, la data literacy c’est quoi l’histoire ?
Peut-être pouvons-nous prendre le risque inconsidéré de rompre avec ces codes absurdes et pédants de la vie d’entreprise et d’utiliser un terme en français non ? Tiens, on pourrait traduire literacy par littéracie, par exemple.
Et data par données. Yeah what the fuck oh my god it’s awesome you are so great !
Hum… Bon « littéracie » en français vient précisément de l’anglais « literacy » qui signifie alphabétisation. En gros, une éducation aux fondamentaux d’un domaine. Donc en l’occurrence, acquérir ce qu’on pourrait appeler une « culture des données » et surtout de leur utilisation intelligente dans la vie professionnelle.
C’est une compétence, et même une compétence utile quel que soit ton job et ton activité. De nombreux analystes la considère comme indispensable. On peut en effet entendre qu’à mesure que nous produisons des données, les collecter et les interpréter soit de plus en plus important.
En substance, il s’agit de savoir utiliser les données avec rigueur et discernement pour en tirer des enseignements sources de valeur pour l’entreprise. Si on fait preuve d’un peu de logique, on peut décomposer le processus en 7 étapes. 7 étapes ça fait bien on dirait qu’on a inventé une méthode… Donc 7 :
- Avoir les données
- En apprécier la qualité
- Les rendre exploitables
- Les traiter sans en trahir la quintessence
- Les analyser
- Tirer des enseignements de ces analyses
- Et les communiquer à d’autres
Prenons des exemples du domaine RH pour mieux cerner ce à quoi chaque étape peut correspondre.
- Avoir les données c’est les recueillir, par un processus de collecte mais aussi par d’autres biais. Cela suppose de savoir où elles sont, auprès de qui les récupérer, comprendre comment elles se fabriquent, etc.
Prends l’exemple d’un bilan social monde. Si tu veux simplement calculer le salaire moyen des cadres, il te faut collecter des données dans tous les pays du monde. Chacun, peut-être, avec son système de paie ou de data warehouse, et avec des définitions, par exemple du salaire de base, qui ne sont pas les mêmes.
Est-ce que tu vas mettre en place un outil qui pique les données dans chaque base locale ou tu demandes à chaque RH local de te communiquer le salaire moyen et le nombre de cadres en imposant des normes quant aux définitions. Cette seule question a un impact qui va jusqu’à la culture d’entreprise !
- En apprécier la qualité c’est porter un avis sur leur fiabilité ou tout simplement leur vraisemblance ou leur conformité pour savoir si la matière dont tu disposes est propre et exploitable, ou pas et dans quelle mesure.
Cela te demande par exemple de savoir un peu ce dont on parle ne serait-ce que pour avoir des ordres de grandeur en tête. Dans le cas du bilan social, tu vois passer un salaire avec beaucoup trop de zéro … tu peux te demander si tu as embauché Ronaldo ou si c’est une erreur de saisie.
- Les rendre exploitables c’est tout simplement corriger les erreurs, retirer ce qui n’a pas de sens, peut-être aussi les normaliser pour s’assurer qu’on n’additionne pas des choux et des carottes.
Dans notre exemple, tu voulais calculer le salaire moyen des femmes et des hommes et on t’a envoyé des fichiers avec Homme égale 1, Femme égale 2 et d’autres où c’est F ou H. Il va bien falloir traduire tout cela dans une seule et même codification sinon cela va être difficile de faire des stats derrière.
- Traiter les données sans les trahir c’est faire des calculs d’agrégats, les mettre en forme sans les modifier, les décrire à l’aide de visualisation ou de statistiques descriptives élémentaires comme des moyennes, des quartiles ou des répartitions.
Je te montre une pyramide des âges dans notre exemple pour te rappeler que tu es plutôt en haut mon vieux ? Et attention, mettre dans des catégories uniformes du type tranche d’âge OK on ne trahit pas trop le sens, mais dès que tu définis des catégories, comme par exemple jeunes ou vieux, tu es déjà dans l’interprétation en orientant les résultats.
- On les analyse ensuite. On essaye donc de comprendre ce que ces données, ainsi décrites dans l’étape d’avant veulent dire. On peut notamment utiliser ici des techniques statistiques plus avancées comme des régressions simples ou multiples ou des analyses factorielles. Encore faut-il être conscient des biais d’analyse.
Dans le cas de la rémunération par exemple tu peux t’amuser à chercher à identifier les facteurs explicatifs des salaires de base en faisant un diagnostic de rémunération implicite.
- Tu tires des enseignements de ces analyses. Dit concrètement tu arrives à des conclusions. Toutes les corrélations (qui relèvent de l’analyse, l’étape d’avant) ne sont pas nécessairement des relations de cause à effet (en l’occurrence un enseignement que l’on pourrait tirer).
Tu vas par exemple conclure de ton diagnostic de rémunération que le poids de l’ancienneté est marginalement plus important dans la détermination du salaire des femmes que pour les hommes. Bon allez je te la fais courte un congé maternité et c’est une ou deux étapes d’augmentation qui te filent devant le nez.
- Enfin tu communiques, tu transmets. Des données transformées, comme leur visualisation par exemple, ou un rapport ou tes conclusions. Cela te demande de trouver le juste degré de synthèse et de pédagogie selon la finalité et les interlocuteurs en perdant le moins d’information que ces données contenaient.
Et là, pas d’exemples à citer tant il y en a… on en revient à la citation de départ quand on sait qu’il suffit simplement de choisir une échelle linéaire ou logarithmique pour induire une représentation différente d’un même phénomène.
Ou tout simplement de te laisser bercer par le charme parfois très paradoxal des statistiques, tiens comme le paradoxe de Simpson par exemple. A méditer comme exemple.
En résumé, la data literacy c’est la capacité à recueillir, exploiter et interpréter les données avec rigueur et discernement pour favoriser une prise de décision fondée sur les faits et utile à l’activité qu’on conduit et cela demande d’être vigilant à toutes les étapes, du recueil à la transmission des enseignements qu’on en tire.
J’ai bon chef ?
Oui tu as bon mais on ne va pas en faire toute une histoire.