De manière générale, oui, les sondages sont fiables. La revue savante Nature – Human Behaviour a publié récemment une étude basée sur quelque 30 000 sondages électoraux dans 45 pays entre 1942 et 2017. Elle a trouvé une erreur moyenne de 2 points de pourcentage pour les sondages réalisés à une semaine ou moins du scrutin, et conclu que «de temps à autre les sondeurs se trompent, ce qui les place sous les projecteurs [...mais en bout de ligne] nous n’avons trouvé aucun signe supportant l’idée d’une crise de fiabilité des sondages».

Cela dit, il en va de ces coups de sonde comme du reste des réalisations humaines : ils sont imparfaits. Un sondage, d’abord, consiste à interviewer un groupe relativement peu nombreux de gens (généralement autour de 1000) afin d’estimer l’opinion de toute une société (des millions, voire des dizaines ou des centaines de millions). En soi, c’est toujours un brin périlleux, puisque les chances pour que ces quelque 1000 personnes représentent de manière parfaitement exacte la société entière sont minces. Mais d’un autre côté, on sait aussi qu’il y a peu de chances pour qu’elles s’en écartent beaucoup. D’où l’idée de la «marge d’erreur», rendue par la célèbre formule «précis à plus ou moins 3 % 19 fois sur 20». Cela signifie que si le parti X obtient 38 % des intentions de vote dans l’échantillon, alors il y a 19 chances sur 20 pour que ses «vrais» appuis dans la population tombent dans une fourchette de ± 3 %, soit quelque part entre 35 et 41 %.

Cela implique, évidemment, qu’il reste toujours 1 chance sur 20 pour que le sondage s’écarte de la «vérité» par plus de 3 %. Ce peut être 4 %, ou 6 %, ou même en principe plus de 10 %, même si c’est extrêmement improbable. Mais cela nous donne déjà un premier indice de fiabilité : est-ce que les résultats sont en ligne avec ce que d’autres sondages récents ont montré ? Si oui, c’est bon signe. Mais si les chiffres sont très différents, cela peut vouloir dire de deux choses l’une. Ou bien l’opinion publique vient de subir un changement rapide (c’est rare, mais ça arrive). Ou bien on a affaire à «la 20e fois sur 20», pour ainsi dire. Il vaut mieux alors attendre que d’autres sondages viennent confirmer (ou infirmer) la nouvelle tendance.

Ce qui nous mène un autre indice de fiabilité : les dates d’échantillonnage. Un sondage, c’est comme une photo, ça montre ce qui était là à un moment donné, puis ça ne bouge plus. Alors plus l’échantillonnage remonte à loin dans le passé, plus fort est le risque que l’opinion publique ait changé et que ses résultats ne soient plus valides.

Il y a par ailleurs moyen de réduire la marge d’erreur, remarquez : par la taille de l’échantillon (qui est un troisième indice de fiabilité). Plus il est grand, et plus la marge d’erreur diminue — mais cela finit par coûter cher. Autour de 1000 personnes, elle est d’environ 3 % ; pour l’abaisser à 2 %, il faut interviewer près de 2500 personnes; et pour atteindre 1 %, l’échantillon doit dépasser les 9500. Inversement, à 500 personnes, elle est d’environ 4,4% et de 7% à 200. C’est pourquoi il faut toujours se méfier des «sous-échantillons» — comme les intentions de vote au Québec dans un sondage pan-canadien.

Maintenant, plusieurs firmes ont commencé à faire leurs sondages au moyens de «panels web». Elles se constituent des groupes de quelques dizaines (voire centaines) de milliers de gens afin d’avoir un bassin de répondants plus faciles et économiques à joindre et interviewer que les sondages «classiques». Ces sondeurs s’arrangent pour que leurs panels ressemblent autant que possible à la population en général (même distribution des sexes, des groupes d’âge, des revenus, etc.), mais il reste que procéder de cette manière ne donne pas un échantillon aléatoire (ou «probabiliste») au sens strict parce que les répondants ne sont pas «pigés» parmi la population en général comme dans un sondage téléphonique. Ils viennent d’un sous-groupe relativement restreint.

Or les équations qui servent à calculer les marges d’erreur présument que l’échantillon est probabiliste — elles ne s’appliquent pas autrement. C’est la raison pour laquelle certains sondages sont publiés sans marge d’erreur. D’un point de vue purement mathématique, c’est la bonne chose à faire, mais je crois que cela prive le public d’un élément d’information important : il y a forcément une marge dans les résultats des panels web. Si un de ces panels accorde, disons, 37 % des intentions de vote au parti X, cela ne signifie pas que celui-ci a exactement 37 % d’appuis dans la population en général, mais bien autour de 37 %.

À cet égard, j’aime bien la formule employée par Léger Marketing, qui calcule une marge malgré tout : «un échantillon de cette taille aurait eu une marge d’erreur de x si l'échantillon avait été probabiliste». Des statisticiens à qui j’en ai parlé dans le passé voient ça comme un pis aller, puisque l’idéal serait de travailler avec des échantillons véritablement aléatoires, mais bon, ça reste quand même «moins pire», plus informatif que de ne rien dire.

Maintenant, tant qu’à être dedans, disons un mot sur les méthodes d’échantillonnage. Hormis les panels web et le bon vieux téléphone, les sondeurs procèdent aussi souvent par appels automatisés (l’entrevue se fait au téléphone mais le questionnaire est administré par un robot). Il n’est pas clair que l’une ou l’autre de ces méthodes est vraiment meilleure que les autres — après tout, il y a bien des façons de faire un mauvais sondage, comme des questions biaisées, une mauvaise pondération, une répartition erronée des indécis, etc. À cet égard, il est assez parlant de voir que le célèbre site d’agrégation de sondage et de prédictions électorales FiveThirtyEight, du statisticien américain Nate Silver, a donné la même note de F et cessés d’utiliser les sondages des maisons TCJ Research, qui ne fait que des appels robotisés, et Strategic Vision LLC, qui ne procède que par appels avec téléphonistes.

Mais quand même, comme il n’y a rien de parfait, toute méthode peut introduire des biais. Lors de la présidentielle de 2016, les appels automatisés ont un peu mieux fait que les autres méthodes, se trompant en moyenne par 2,8 points contre 3,2 à 3,9 pour les autres, a montré un «post-mortem» rédigé par des experts (p. 15 / 39). Cependant, FiveThirtyEight a trouvé qu’à plus long terme, les appels «en personne» semblent faire légèrement mieux que les autres, dans la mesure où ils incluent des numéros de cellulaires. Mais la différence est mince et dans ses modèles, M. Silver ne leur accorde qu’un «bonus modeste».