Non, le paradoxe de Simpson ne tire pas son nom de Homer, mais de Edward Simpson, le statisticien qui l’a décrit pour la première fois en 1951. Il s’agit d’un de ces paradoxes mathématiques qui peut nous faire des noeuds à la tête, mais qui malheureusement est bien plus qu’une simple curiosité : bien comprendre ce paradoxe peut s’avérer essentiel pour prendre les bonnes décisions !

Alors si vous ne connaissez pas ce phénomène statistique très contre-intuitif, lisez la suite, et les bras devraient vous en tomber !

Calculs rénaux : quel traitement choisir ?

Pas de chance, on vient de vous découvrir des calculs au rein. Heureusement des traitements existent, et à l’hopital le médecin vous en présente deux. Le premier (appelons le « Traitement A ») consiste en une chirurgie ouverte, alors que le second (« Traitement B ») est une chirurgie qui se fait par de petits trous percés à travers la peau. Le médecin vous demande quel traitement vous préférez. Comme vous souhaitez avant tout guérir, vous demandez au praticien les statistiques de succès de ces deux traitements.

« Oh c’est très simple, vous répond le médecin, les deux traitements ont été testés chacun 350 patients, et voici les chiffres : le traitement A a fonctionné dans 273 cas et le traitement B dans 289 ».

L’affaire semble entendue, le traitement B a marché avec 83% de réussite, contre 79% seulement pour le traitement A. Vous choisissez donc le traitement B.

Mais en repartant de l’hôpital, vous croisez un autre médecin à qui vous demandez son avis sur les traitements. « Oh c’est très simple, vous répond-il : les deux traitements ont été testés 350 fois chacun sur des patients, ces derniers pouvant être atteints soit de ‘petits’ calculs, soit de ‘gros’ calculs, et voici les chiffres » :

Comme vous pouvez le constatez, si vous avez des gros calculs, le traitement A fonctionne mieux, et si vous avez des petits calculs, le traitement A est aussi le plus efficace. Voilà qui est en totale contradiction avec ce que vous a dit le premier médecin. Et pourtant, vous avez beau compter et recompter, sur la ligne « Total », il s’agit bien des mêmes chiffres que ceux présentés par le premier médecin…

Comment est-il possible que le traitement B soit meilleur au global, mais qu’il soit inférieur au traitement A aussi bien sur les petits que sur les gros calculs ? Et ça n’est pas une blague, ces chiffres sont issus d’une vraie étude [1] ! Il n’y a aucune entourloupe statistique ou aucune manipulation, ce que vous lisez là, c’est bien la réalité des chiffres. Vous avez là un bel exemple du paradoxe de Simpson.

Fumer, c’est bon pour la santé

Pour vous aider à appréhender le paradoxe, je vais vous en présenter un autre exemple, lui aussi issu d’une étude réelle [2], et qui devrait vous paraître un peu plus clair. Dans cette étude, 1314 femmes ont été suivies pendant 20 ans, et l’objectif était de comparer le taux de mortalité des fumeuses et des non-fumeuses.

Après 20 ans, le taux de mortalité chez les fumeuses était de 24%, alors que celui des non-fumeuses était 31%. Alors, est-ce que non-fumer tue ?

Examinons les chiffres de plus près. Dans l’étude, il y avait 582 fumeuses et 139 sont mortes (cela fait bien 24%), ainsi que 732 non-fumeuses dont 230 sont mortes (31%, pas de problème). Là où le paysage change, c’est quand on représente ces chiffres en séparant par classe d’âge. C’est ce que montre le graphique ci-dessous (que j’ai réalisé en R avec les données smoking du package SMPractical)

Comme vous le voyez, si on raisonne par classe d’âge, dans chaque tranche la mortalité chez les fumeuses a été supérieure à celle des non-fumeuses. On est rassurés, mais comment les chiffres peuvent-ils s’inverser quand on groupe tout le monde ?

Peut-être avez vous senti ce qui cloche : dans la population initiale, il y avait plus de femmes âgées chez les non-fumeuses que chez les fumeuses. Et même si dans chaque tranche d’âge les non-fumeuses meurent moins, cet effet est compensé par le fait que la tranche d’âge « élevée » est sur-représentée chez les non-fumeuses…qui donc en moyenne meurent plus !

Une analyse du paradoxe

Si vous avez bien suivi le cas des fumeuses, vous devriez maintenant être prêts à percer le mystère du paradoxe de Simpson. Tout d’abord comment s’énonce ce paradoxe : il s’agit du fait qu’une corrélation peut disparaître ou même s’inverser suivant que l’on considère les données dans leur ensemble, ou bien segmentées par groupes.

Pour que le paradoxe se produise, il faut 2 ingrédients :

Premièrement il faut une variable qui influe sur le résultat final (le « groupe »), et qui n’est pas forcément explicitée au départ. On appelle cela un facteur de confusion . Il s’agit de la taille des calculs dans le premier exemple, car celle-ci influe sur la probabilité de succès du traitement, et de l’âge des personnes dans le second exemple, lequel évidemment joue sur la mortalité.

. Il s’agit de la taille des calculs dans le premier exemple, car celle-ci influe sur la probabilité de succès du traitement, et de l’âge des personnes dans le second exemple, lequel évidemment joue sur la mortalité. Deuxièmement, il faut que l’échantillon qu’on étudie ne soit pas distribué de manière homogène : dans le cas du tabac, il y a plus de vieilles femmes dans l’échantillon des non-fumeuses que chez les fumeuses; dans le cas des reins, le traitement « A » est plus souvent donné sur les gros calculs, et le « B » sur les petits (vous pouvez retourner voir les chiffres).

Quand ces deux conditions sont réunies, le paradoxe de Simpson peut se produire ! C’est-à-dire qu’à cause de la distribution hétérogène de l’échantillon, regrouper les données pointe une tendance qui peut être fausse, et qui disparaît si on analyse les données en séparant selon le facteur de confusion.

Des exemples à la pelle

Il existe de nombreux exemples réels du paradoxe de Simpson, en voici quelques uns parmi les plus connus.

En 1973, une étude statistique a mis en évidence le fait que le taux d’admission à l’Université de Berkley était de 44% chez les garçons, contre 35% chez les filles [3]. Une discrimination inacceptable, dont on dit qu’elle donna lieu à un procès (mais je ne suis pas sûr que ce soit vrai).

Toutefois, le tableau change complètement si on s’amuse à regarder ces données en les distribuant par département d’enseignement : alors dans tous les départements, les filles ont un taux d’admission légèrement supérieur à celui des garçons ! Là aussi le caractère inhomogène de l’échantillon est en cause : les filles ont tendance à postuler dans les départements les plus compétitifs, et leur taux d’admission moyen est donc plus faible.

Un autre exemple célèbre est donné par les statistiques de réussite au baseball. En 1995, le taux de succès du batteur David Justice a été meilleur que celui de son adversaire Derek Jeter (25.3% contre 25.0%). L’année suivante, en 1996, même résultat : Justice surpasse Jeter par 32.1% contre 31.4%. Et pourtant, si on combine l’ensemble des deux années 1995 et 1996, Derek Jeter a été le meilleur avec 31% contre 27% ! Troublant, non ?

Un dernier pour la route, histoire de vous montrer l’importance de bien comprendre ce paradoxe pour être un bon citoyen : en 1964 les États-Unis ont voté une loi historique, le Civil Right Act, qui fut un pas déterminant vers l’abolition de la ségrégation raciale.

Sur l’ensemble du pays, 80% des républicains ont voté en sa faveur, contre seulement 61% des démocrates. Étonnant, non, quand on connait les positions de ces deux partis ?

Et pourtant si on distribue ces résultats entre les états du Nord et du Sud du pays, aussi bien au Nord qu’au Sud les démocrates ont plus voté que les républicains en faveur de la loi !

Comment se prémunir du paradoxe de Simpson

J’imagine que vous voyez aisément le potentiel de manipulation qui se cache derrière ce paradoxe : on peut vous faire croire à quelque chose (le chômage a baissé, tel traitement marche mieux, tel individu est meilleur, etc.) alors qu’en regardant les chiffres dans le détail, les effets peuvent disparaître ou s’inverser ! Alors que faire ?

Tout d’abord, il faut se rappeler : cet effet se produit quand il existe une variable cachée influente, et que l’échantillon sur lequel on se base n’est pas homogène. En sciences, c’est pour cela que l’on préfère en général des expériences « randomisées », qui permettent d’assurer une distribution homogène : par exemple si vous avez des calculs rénaux et que vous participez à une expérience pour comparer les traitements, on vous assigne au hasard le traitement A ou B, sans que la taille des calculs influe sur la décision. On gomme ainsi l’inhomogénéité de distribution, et le paradoxe disparaît : le traitement A sera bien vu comme étant le meilleur.

Quand on vous présente des chiffres, il faut donc avoir l’oeil critique, et être particulièrement méfiants quand ces chiffres sont issues de données analysées a posteriori, plutôt que sur un échantillon expérimental qu’on a soi-même construit a priori (en randomisant). (Réfléchissez au point suivant : conclure que « Le lit est l’endroit le plus dangereux du monde, c’est là que la plupart des gens meurent » c’est se tromper car on utilise des données non-randomisées)

Enfin rappelez-vous, ce paradoxe se produit quand il existe une variable cachée fortement influente. Cela signifie que les chiffres bruts ont peu de sens, et doivent être critiqués par un expert du domaine, susceptible de pointer l’existence d’un tel facteur. A l’heure où fleurit la mode du « fact-checking », on a un peu tendance à nous faire croire que les chiffres seraient la vérité « nue ». Non, la vérité nue n’existe pas, et on aura toujours besoin de gens au courant pour interpréter correctement des chiffres, qu’ils soient scientifiques, économiques ou médicaux.

Pour aller plus loin : les facteurs de confusion dans la démarche scientifique

Je suis vraiment loin d’être un expert en stats, mais je voudrais vous présenter un petit exemple fabriqué pour montrer une autre version de ce paradoxe, et comment un traitement statistique adéquat permet de le lever, même quand on a pas travaillé avec des données randomisées. Et puis je vais illustrer ça en R, histoire de ne pas perdre la main.

Imaginons que vous décidiez d’oeuvrer pour le bien de l’humanité, et que vous vouliez étudier l’effet aphrodisiaque de la bière. Pour faire une bonne expérience randomisée, il faudrait prendre des personnes, leur assigner au hasard un certain niveau de consommation de bière, et mesurer l’impact sur leur libido. Malheureusement, c’est évidemment difficile, alors on choisit de travailler sur des données historiques collectées. Vous réunissez donc un échantillon de personnes, et vous leur soumettez un questionnaire permettant d’évaluer leur consommation mensuelle de bière, ainsi que leur libido (sur une échelle de 1 à 10). Vous collectez les données, tracez les résultats.

> plot(Beer,Libido) > fit <- lm(Libido~Beer) > abline(fit$coef) > summary(fit) Call: lm(formula = Libido ~ Beer) Residuals: Min 1Q Median 3Q Max -2.820898 -1.043803 -0.007313 1.018204 4.314868 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.5820 0.4479 5.764 9.53e-08 *** Beer 0.8879 0.1042 8.519 1.96e-13 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.549 on 98 degrees of freedom Multiple R-squared: 0.4255, Adjusted R-squared: 0.4196 F-statistic: 72.57 on 1 and 98 DF, p-value: 1.956e-13 > pval <- summary(fit)$coefficients[2,4] > title(main=paste("p-value =",format(pval,dig=3)))

Et là : bingo ! Vous obtenez la courbe ci-dessous, qui montre une belle corrélation positive avec un « petit p » tout à fait significatif pour le modèle linéaire.

La bière influe fortement sur la libido, voici l’aphrodisiaque du futur ! Vous vous préparez donc à soumettre votre manuscrit avec la bénédiction de Kronenbourg.

Et là un petit malin vous fait remarquer « Et si tu sépares les hommes et les femmes ? » Vous refaites donc votre graphique en colorant différemment les deux sexes, et là…consternation ! Au sein de chacun des groupes, plus du tout de corrélation ! Et le fit linéaire par groupe est insignifiant.

Un moyen de controler cela, c’est de faire une analyse en controllant d’abord par le sexe. Techniquement, on fait quelque chose comme une ANCOVA, et on prend bien soin de l’ordre des facteurs. En R, tout se fait avec la commande « lm », et on ordonne d’abord le sexe, puis la consommation de bière.

> plot(Beer,Libido,col=c("red","blue")[as.numeric(Group)]) > fit2 <- lm(Libido~Group+Beer) > summary(fit2) Call: lm(formula = Libido ~ Group + Beer) Residuals: Min 1Q Median 3Q Max -1.83333 -0.47439 0.03775 0.47490 2.91397 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.27995 0.29119 14.698 <2e-16 *** GroupM 3.57795 0.26193 13.660 <2e-16 *** Beer 0.02321 0.08810 0.263 0.793 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.9108 on 97 degrees of freedom Multiple R-squared: 0.8035, Adjusted R-squared: 0.7994 F-statistic: 198.3 on 2 and 97 DF, p-value: < 2.2e-16 > pval2 <- summary(fit2)$coefficients[3,4] > title(main=paste("p-value =",format(pval2,dig=3))) > fitF <- lm(Libido~Beer,data=d[Group=="F",]) > fitM <- lm(Libido~Beer,data=d[Group=="M",]) > abline(fitF$coef,col="red") > abline(fitM$coef,col="blue")

Et là on voit que le « petit p » pour l’influence de la bière après contrôle par le sexe n’est pas du tout significatif !

Le code qui a fabriqué les données :

> set.seed(42) > d <- data.frame(Group = c(rep(c("F","M"),each=50)), Beer = c(rnorm(50,mean=3,sd=1),rnorm(50,mean=5,sd=1)), Libido = rnorm(100,mean=4.5,sd=1) + rep(c(0,3.5),each=50))

Dernier point pour les plus furieux, qui est en quelque sorte un paradoxe dans le paradoxe : on peut s’imaginer que quand on voit des données agrégées, on peut toujours trouver un facteur à la con (genre signe du zodiaque, nombre de lettres du prénom, etc.) qui va nous donner les corrélations dans le sens qu’on veut une fois que c’est segmenté. Comment être sûr qu’un facteur de ce genre est vraiment « influent » ? Ces questions touchent le coeur du problème de « corrélation n’est pas causation » (dont découle le paradoxe de Simpson). Une solution possible est l’utilisation du formalisme des réseaux bayésiens causaux développé par Judea Pearl. Je n’ai pas eu le courage d’attaquer son livre « Causality« , mais un sympathique compte-rendu se trouve ici.

P our finir, pour vous rappeler au quotidien de l’existence du paradoxe, vous pouvez vous procurer la tasse à café ci-contre. Je la veux bien pour mon anniversaire …

Billets connexes :

Les probabilités conditionnelles : un autre exemple de statistiques médicales contre-intuitives

Quand l’économie rencontre la génétique : une étude où l’influence d’éventuels facteurs de confusion a été intensément débattue

Chez mes collègues blogueurs :

Ce billet de Tom Roud sur un paradoxe de Simpson évolutif

Ce billet de Dr. Goulu sur l’espérance de vie

Ce billet de Freakonometrics qui illustre le paradoxe avec de la géométrie élémentaire sur les parallèlogrammes.

Références :

[1] Charig, C. R., et al. « Comparison of treatment of renal calculi by open surgery… » British medical journal (Clinical research ed.) 292.6524 (1986): 879.

[2] Appleton, David R., Joyce M. French, and Mark PJ Vanderpump. « Ignoring a covariate: An example of Simpson’s paradox. » The American Statistician 50.4 (1996): 340-341.

[3] Bickel, Peter J., Eugene A. Hammel, and J. William O’Connell. « Sex bias in graduate admissions: Data from Berkeley. » Science 187.4175 (1975): 398-404.