Les 3 principaux domaines d’application statistique

Dans cet épisode nous allons vous parler de chiffres et en l’occurrence des 3 principaux domaines d’application des statistiques et ce à quoi ils servent.

Dans cet épisode, nous allons vous parler de chiffres et en l’occurrence des 3 principaux domaines d’application des statistiques et ce à quoi ils servent.

La combinaison des masses gigantesques de données dont nous disposons aujourd’hui, de la puissance de calcul – donc d’analyse – de l’informatique, et l’importance qu’on accorde aux données en elles-mêmes, conduisent à ce que la science de la statistique soit particulièrement sous le feu des projecteurs.

Alphonse Allais disait avec humour que « la statistique a démontré que la mortalité dans l’armée augmente sensiblement en temps de guerre ». Ne faisons pas tout dire, et surtout n’importe quoi, aux statistiques. Le chiffre ne rend pas intelligent.

Oui mais si les données ne rendent pas intelligent, leur analyse peut naturellement contribuer à prendre des décisions intelligentes. Mais de quelles analyses s’agit-il ? Quels sont les différents domaines d’application de la statistique ? C’est quoi l’histoire ?

Revenons à ce qu’est la statistique en tant que telle. C’est, je cite Joaquim Torrens-Ibern dans le journal de la société statistique de Paris en 1956 « l’ensemble des méthodes qui ont pour objet la collecte, le traitement et l’interprétation de données d’observation relatives à un groupe d’individus ou d’unités »[1].

Le champ de la statistique est vaste mais on va ici s’intéresser à ce qui fait l’essentiel de ce à quoi un professionnel en entreprise peut être confronté en la matière :

  1. la statistique descriptive;
  2. la statistique explicative;
  3. et les modèles prédictifs.

Commençons par le début, la statistique descriptive. Sa finalité est simple, son nom l’indique : décrire ce que l’on observe. On va le faire à l’aide de représentations des données qu’on observe et aussi à l’aide de résumés chiffrés, des agrégats statistiques.

Dans les RH par exemple, c’est le cas d’une pyramide des âges qui est une représentation graphique de la répartition des personnes par tranche d’âge ou d’un salaire moyen, qui est un agrégat statistique.

Ce premier niveau d’analyse peut sembler simple… et pourtant. Tout l’exercice consiste justement à simplifier la complexité de ce que l’on observe en étant le moins faux possible. L’enjeu réside un peu dans l’arbitrage auquel Paul Valéry invite quand il disait que « le simple est toujours faux. Ce qui ne l’est pas est inutilisable. »

L’exercice est par nature délicat, ne serait-ce que parce que les biais sont nombreux. Et aussi parce que les représentations qu’on choisit, comme la manière dont on les met en forme, avec des graphiques, des tableaux de données, etc. influent sur les interprétations.

En effet, une simple nomenclature a des conséquences. Classer c’est déjà faire un choix, plus ou moins contestable par définition, ce n’est donc pas neutre.

Le deuxième champ c’est la statistique explicative. Là, la finalité poursuivie c’est d’utiliser les statistiques pour trouver une explication à ce que l’on observe.

Et pour l’essentiel, cela vise à mettre en relation plusieurs séries de données et tenter d’y distinguer une logique, une forme, des correspondances, un modèle puis de s’interroger sur ce qu’elles signifient… ou pas.

Certaines méthodes qui le permettent sont bien connues : les analyses factorielles qui visent à réduire plusieurs dimensions d’un sujet à un nombre plus réduit, exploitable en perdant le moins d’informations possibles.

Et puis il y a les régressions, qui consistent à mettre en relation une variable à expliquer, ton salaire par exemple, et des variables explicatives, par exemple le degré de responsabilité de ton poste, ton ancienneté etc.  avec une corrélation entre les deux.

Et cette corrélation n’est pas nécessairement une preuve de relation de cause à effet mais une probabilité, qu’il faut ensuite analyser pour savoir si elle a du sens ou pas, notamment en testant les variables utilisées.

En d’autres termes, la statistique explicative propose un modèle d’interprétation possible qu’il faut ensuite examiner avec un regard critique avant de prétendre pouvoir conclure à une quelconque relation de cause à effet.

Enfin le 3ème domaine c’est celui du prédictif. Et là, la finalité visée est bien comme le nom l’indique c’est d’essayer de prévoir ! En d’autres termes, peut-on formuler une prévision à partir des informations dont on dispose ?

En fait, cela consiste pour l’essentiel à s’appuyer sur un modèle explicatif, observé sur des données réelles, mais qu’on extrapole au-delà : à une autre population, à l’avenir, etc.

En la matière, soit on utilise les modèles explicatifs qu’on a évoqué précédemment, ou en gros on traduit le modèle en une équation, ou alors on utilise des modèles issus de l’intelligence artificielle avec des réseaux de neurones ou des arbres de décisions qui s’enrichissent des données dont on les nourrit.

Et même si ces modèles apprennent, donc s’améliorent, dans tous les cas, quelle que soit leur puissance, ils se heurtent à l’incertitude qui n’est par nature pas prévisible.

En résumé, il y a 3 grands domaines dans les statistiques : les statistiques descriptives qui visent à décrire au mieux ce que l’on observe, les statistiques explicatives qui aident à trouver un modèle d’explication à un phénomène observé et les modèles prédictifs qui extrapolent les modèles explicatifs pour tenter de prédire un phénomène.

J’ai bon chef ?

Oui tu as bon mais on ne va pas en faire toute une histoire.

[1] Torrens-Ibern J. (1956), « Variété. Qu’est-ce que la statistique? », journal de la société statistique de Paris, vol. 97,‎ 1956, p. 289-296