Dans cette nouvelle vidéo, je m’attaque à ces fameuses « études américaines » auxquelles ont fait dire tout et son contraire…

Détail amusant : quand j’ai écrit le script, j’ai imaginé au hasard un sujet d' »étude américaine » : le heavy metal et la dépression. Or après j’ai vérifié, il existe bien des publications ayant étudié cette association ! D’ailleurs les résultats ont l’air subtils car en non-randomisé, il semblerait que l’écoute du metal soit plutôt corrélée avec les symptômes dépressifs, mais qu’en traitement randomisé il ait un effet bénéfique. Paradoxal, non ? Mais bon j’avoue que je n’ai pas creusé.

Quelques petits compléments d’usage, pour ceux qui voudraient aller plus loin…

Processus de publication et a-priori bayésien

Je n’ai pas passé trop de temps sur le processus de relecture par les pairs. J’ai notamment passé sous silence les habituels allers/retours qui se font entre les auteurs et les relecteurs, ces derniers pouvant demander des précisions ou corrections dans le texte. Je n’ai pas non plus évoqué tous les problèmes que posent le processus actuel de l’édition scientifique, ça n’était pas le propos de la vidéo, mais l’ami DirtyBiology a fait une vidéo sur le sujet !

Parlons vite-fait des impacts factors. Je l’ai présenté comme un élément intéressant à verser au dossier quand on analyse une étude. Je suis sûr que ça va en faire hurler quelques uns. Il est vrai que cette métrique a plein de problèmes, et qu’en plus les journaux à très haut facteur d’impact peuvent poser le problème additionnel de la fraude scientifique pure et simple. On sait qu’une publication dans une revue très prestigieuse peut être un élément très important pour la carrière d’un chercheur, il y a donc une pression a essayer de publier ses papiers dans ces revues, ce qui peut pousser certains à carrément falsifier leurs résultats pour décrocher la timbale. Donc oui, sur un gros résultat spectaculaire dans une revue « star », il faut aussi accueillir les choses avec prudence. D’autant plus que ça n’est pas un relecteur non-spécialisé qui pourra détecter ces fraudes.

A contrario une étude publiée dans un « petit » journal n’est pas forcément mauvaise. Disons que mon algorithme est plutôt « Si le résultat annoncé est spectaculaire, et que ça vient d’une petite revue, redoublons de prudence. » Car en principe avec un résultat canon, on essaye de soumettre aux grosses revues. Ce genre de vérification préliminaire sert juste à savoir quels sont nos a prioris sur la plausibilité de l’article, avant de le lire, dans une logique toute bayésienne que ne renierai pas l’ami Science4All !

Un mot sur les expériences et leurs analyses

Parlons pour commencer de ce qu’on appelle les « modèles animaux ». Quand j’ai évoqué les expériences sur les animaux, certains ont peut être tiqué en m’entendant parler de la dépression chez les souris. Eh bien figurez vous que pour un grand nombre de maladies humaines, il existe des équivalents chez différents animaux, c’est ce qu’on appelle des « modèles animaux ». Et il en existe notamment un certain nombre pour la dépression. Donc oui, étudier la dépression chez la souris, ça a du sens.

Sur ce qu’on observe et ce qu’on fait varier, j’ai schématisé en ne présentant qu’un cas simple (mais fréquent) : celui où on a deux groupes et on étudie l’impact sur une variable continue (par exemple un score sur une échelle de dépression.) Mais il existe plein d’autres situations : parfois on a plus de deux groupes, parfois on fait varier plusieurs facteurs. On peut également regarder l’impact d’une variable continue (disons le nombre de chanson de métal écoutées chaque mois) sur une autre (le score de dépression). Dans ce cas, on se trouve face à un cas de tentative « corrélation » entre deux variables continues.

Dans tous ces cas on peut réaliser des tests statistiques auxquels on attribue des « valeurs p ». Mais il y a parfois des subtilités difficiles à démêler sans quelques connaissances en statistiques. Tout test statistique repose sur des hypothèses données, et un modèle sous-jacent dont il faut en principe s’assurer qu’il est raisonnablement valide. Et il n’est pas rare que des publications scientifiques présentent juste le bon test statistique qui permet de passer sous la barre fatidique des p=0,05. C’est parfois ce qu’on appelle du « hacking » de valeur p. (Pour ceux qui veulent en savoir plus sur cette notion, je vous renvoie à un vieux billet sur le sujet : Comment être sûrs qu’un résultat scientifique est vrai ?)

Petite précision aussi : pour les besoins de la simplicité de l’exposé, je n’ai pas insisté sur la notion de « barre d’erreur » ou de façon plus générale de variabilité. Elle joue bien entendu un rôle dans les estimations statistiques. Une bonne manière de « mesurer » une taille d’effet, c’est de la compter en « barres d’erreur ». Est-ce que l’effet est égal à 2 fois la barre d’erreur ? Plus ? Moins ? C’est en quelque sorte ce ratio, et le nombre de sujets dans les groupes, qui va gouverner la valeur p.

Concernant les facteurs de confusion, il faut bien réaliser qu’il existe des méthodes statistiques permettant de les maitriser. Mais ces méthodes reposent sur des hypothèses qui ne sont pas toujours vérifiées, il ne s’agit donc pas d’un coup de baguette magique qui résout tous les problèmes. Et surtout cela ne marche que si le facteur a été préalablement identifié, et que les données correspondantes ont été collectées. On ne peut pas contrôler pour un facteur pour lequel on n’a pas de données. Donc en théorie on n’est jamais certains d’avoir tout bien contrôlé. Cela montre d’ailleurs que pour ce genre d’analyse, les statistiques ne suffisent pas : il faut un expert du sujet, quelqu’un qui sait bien de quoi on parle, et qui est à même d’identifier les bons facteurs de confusion.

Enfin j’ai sous-entendu qu’une étude était soit non-randomisée (et donc sujette à facteur de confusion), soit randomisée auquel cas les tailles de groupes étaient souvent faible. Il y a bien sûr un cas où on essaye d’avoir des études randomisées sur de grands groupes, ce sont bien sûr les « essais cliniques » des médicaments, notamment dans les phases II et III où l’on va avoir typiquement de plusieurs centaines à plusieurs milliers de patients. Autant que possible les études sont en « double aveugle », c’est-à-dire que ni le patient, ni son médecin traitant, ne savent à quel groupe le patient est attribué. Dans ce cas là les groupes de contrôle sont soit des groupes placebos, soit des groupes recevant un traitement usuel.