Qu’est-ce qui fait le succès d’une chaîne de vulgarisation scientifique ? Par exemple le fait qu’elle aura, ou pas, beaucoup d’abonnés ? Sa qualité, bien sûr, le talent de l’écriture et de la pédagogie, le sens de la mise en scène, l’humour…

…en fait, non; pas tant que ça.

Il n’aura échappé à personne que les plus grosses chaînes sont presque toutes des chaînes créées il y a assez longtemps, et ayant accumulé pas mal de vidéos. D’une part ces chaînes ont eu le temps de croître, d’autre part elles ont pu émerger à une époque où la concurrence était moins rude. Du coup pour les nouveaux et nouvelles qui se lancent, la tâche peut paraître difficile.

Tout cela est évident, mais récemment je me suis demandé : Peut-on quantifier cet effet ? Mettre des chiffres dessus ? Eh bien on peut essayer, il suffit de faire un peu de statistiques.

Collecte des données

Pour cela j’ai travaillé avec une liste 115 chaînes de vulgarisation scientifique francophones. Pour constituer l’échantillon, j’ai utilisé la liste de Vidéosciences, complétée par ma propre liste d’abonnements et par une petite recherche de chaînes avec le mot clé « vulgarisation » dans Youtube. Clairement, je n’ai pas tout (en particulier les plus petites chaînes), mais je pense que l’échantillon est assez raisonnable. J’ai juste exclu quelques chaînes qui soit n’avaient pas publié depuis très longtemps (>2 ans), soit n’étaient pas vraiment des « chaînes » mais plus un stock de vidéos d’une institution.

Ensuite j’ai utilisé des données « publiquement disponibles » à la date du 27/08, et j’ai donc collecté pour toutes les chaînes : le nombre d’abonnés, le nombre de vues total, le nombre de vidéos, l’âge de la chaîne et la fréquence mensuelle de publication (qui se déduit des chiffres précédents).

Petite précision, pour calculer l’âge de la chaîne, je me suis basé en général sur la date de création. Mais il arrive que celle-ci soit assez antérieure à la date de mise en ligne de la première « vraie » vidéo. Dans ce cas, c’est cette première vidéo j’ai pris comme « date de création » (C’est mon cas par exemple, la création officielle de ma chaîne est janvier 2011, mais je n’ai mis que des vidéos anecdotiques pendant 4 ans, et je n’ai vraiment démarré ma chaîne qu’en janvier 2015).

J’ai également collecté deux paramètres supplémentaires dont je soupçonnais une influence : le fait que la chaîne soit incarnée par une femme, et le fait que les vidéos soient en face caméra ou en « voix off ».

(ici les données brutes, pour ceux qui veulent jouer avec !)

Distribution de la taille des chaînes

Première observation évidente, la taille des chaînes varie beaucoup ! Si on parle en nombre d’abonnés, on va de presque 2 millions pour l’ami Dr Nozman, jusqu’à quelques chaînes de ma sélection ayant moins d’une centaine d’abonnés.

Une manière classique de bien appréhender des données de ce genre (distribuées sur des grandes plages de valeurs), c’est de prendre le logarithme. Si on prend le log décimal, on se retrouve avec un log10 du nombre d’abonnés qui se balade entre 1.4 et 6.2. Le graphique suivant représente ce chiffre pour chacune des chaînes, en fonction de son « classement » au sein de l’échantillon. De manière attendue, la majorité des chaînes se trouve dans la fourchette 3 à 5, c’est à dire entre 1000 et 100 000 abonnés. Ça se confirme en faisant simplement l’histogramme. Je n’irai pas jusqu’à affirmer que c’est gaussien, mais ça n’est pas trop déconnant. Pour les fans de maths, j’ai également tracé ci-dessous le log du nombre d’abonnés en fonction du log du classement. C’est pour vérifier si la distribution de la taille des chaînes suit une loi de Zipf (donnée par la droite de pente -1 tracée ci-dessus). On voit que ça n’est pas hyper probant, à part pour disons les 30 premières chaînes, ce qui est un peu court pour une loi de Zipf. Il y a plein de raisons qui peuvent justifier que Zipf ne marche pas, je réserve ça pour un futur post !

L’influence de chaque paramètre

Commençons pas des visualisations simples qui permettent de mettre en évidence l’influence des différents paramètres sur le « logarithme du nombre d’abonnés », qui sera donc notre cible.

Commençons par l’âge de la chaîne (en mois) : On voit qu’il y a évidemment un lien, même si on est loin de tout expliquer par ce seul paramètre. Pour les fans de chiffre, le coefficient de corrélation est 0.38.

Même chose pour le nombre de vidéos : On voit qu’il y a une corrélation, mais ça n’est pas non plus spectaculaire. Coefficient de corrélation 0.55

Enfin examinons le lien entre le log du nombre d’abonnés et la fréquence de publication : (Coefficient de corrélation 0.35.)

On voit que chacun de ces paramètres a une influence. Un point important à noter toutefois, ces 3 paramètres ne sont pas indépendants ! La fréquence est évidemment le ratio des deux autres, mais l’âge de la chaîne et le nombre de vidéos sont eux-mêmes reliés, ce qui est plutôt cohérent ! Même si on trouve des chaînes anciennes avec peu de vidéos et réciproquement, on ne peut pas considérer ces deux paramètres comme totalement indépendants. En revanche la fréquence de publication et l’âge de la chaîne sont décorrélés, donc on peut les considérer comme des paramètres indépendants. Grâce aux données, il est également possible de tester statistiquement l’influence sur le nombre d’abonnés du fait que la chaîne soit incarnée par une femme. Pour comparer les distributions de nombre d’abonnés dans les deux cas, on peut utiliser la représentation classique en « boxplot » (ou diagramme « boite et moustache »). Les moustaches représentent les extrêmes, la barre centrale est la médiane, les extrémités de la boite sont le premier et le dernier quartile. Ici on constate que les deux distributions ne semblent pas différentes, ce qui est confirmé quantitativement par un t-test (la valeur « petit-p » est 0.67). D’après les données, le fait que la chaîne soit incarnée par une femme n’a donc pas d’influence significative sur le nombre d’abonnés.

Une petite mise en garde à ce stade : en statistiques plus qu’ailleurs, l’absence de preuve n’est pas la preuve de l’absence. Ce que dit ce résultat, c’est qu’il n’y a pas de différence statistiquement significative détectable dans les données collectées. Ça n’exclut pas qu’il y ait une influence, mais si effet il y a, il n’est pas assez important pour être détecté sur un échantillon de cette taille.

Autre paramètre dont l’absence de rôle m’a surpris : le fait que la chaîne soit en « face caméra » plutôt qu’en « voix off ». En comparant les distributions, on ne trouve pas de différence statistiquement significative (p=0.52). Et pourtant je suis le premier à dire souvent que l’incarnation en « face caméra » est importante, qu’elle est meilleure pour la connexion avec le public, que ceux qui veulent se lancer devraient le faire en format « face cam », etc. Eh bien les données me donnent tort, il va falloir que je change mon discours !

Prédire le nombre d’abonnés ?

Nous avons donc vu qu’il existe au moins 3 paramètres ayant une influence sur le « succès » d’une chaîne : le nombre de vidéos, l’âge de la chaîne, et la fréquence de publication. On peut donc essayer de construire un modèle, c’est-à-dire une formule qui estime au mieux le nombre d’abonnés à partir de ces paramètres.

Quand on ne sait pas trop par où commencer, on peut essayer une régression linéaire. Si on fait cela en utilisant en entrée l’âge de la chaîne et le nombre de vidéos, on obtient une régression ayant la forme suivante :

Log10Abos = 3.105 + 0.0118*(Nb Vidéos) + 0.0095 * (Age en mois)

Comme cette formule vous donne le log décimal du nombre d’abonnés, il faut ensuite prendre « 10 puissance ce résultat » pour avoir une prédiction du nombre d’abonnés.

Pour voir si cette formule marche bien, on peut regarder la corrélation entre la valeur prédite, et la valeur réelle. C’est ce que montre ce graphique

La ligne rouge correspond à l’exactitude de prédiction. On voit qu’il y a une tendance, mais qu’on est très loin de prédire correctement. On observe notamment qu’on surestime le nombre d’abonnés des petites chaînes et qu’on sous-estime celui des grosses chaînes. Signe d’un modèle auquel il manque des choses ! (mais ceux qui font de la recherche dans des domaines où on utilise les stats savent qu’on a publié des papiers pour moins que ça !)

L’illustration la plus flagrante de l’inaptitude du modèle réside dans la formule elle-même : sans vidéos et avec un âge de 0, la formule « prédit » un nombre d’abonnés supérieur à 1000 ! Ce modèle est très mauvais pour les petites chaînes.

Ici il y a plusieurs choses qui font que le modèle ne marche pas bien. Déjà on a utilisé en entrée deux variables qui sont reliées (Âge et nombre de vidéos), ce qui n’est pas très correct. Ensuite on peut accuser le modèle linéaire, mais il faut surtout reconnaître qu’il doit manquer des paramètres dans nos données : non, le succès d’une chaîne ne dépend pas que de son ancienneté et du nombre de ses vidéos ! Bien sûr que le talent joue, et difficile de le quantifier ! La chance joue également. Et puis il y aussi des événements extérieurs qui doivent parfois à l’un et à l’autre, comme les partages de DocSeven aujourd’hui ou ceux d’Antoine Daniel en son temps.

Pour finir sur une note optimiste…

Dans cette analyse, j’ai bien fait attention de ne pas mentionner de noms de chaînes, car nous sommes ici sur une analyse statistique qui n’a donc pas vocation à discuter des cas particuliers. En effet, on sait à quel point notre cerveau humain est enclin à remettre en question des faits génériques à partir d’exemples anecdotiques (« ah oui mais ton truc est faux parce que moi je connais une chaîne pour laquelle ça marche pas… »). Mais pour finir sur une note positive et encourageante pour ceux qui souhaiteraient se lancer, je vais quand même citer quelques chaînes.

J’ai en effet regardé quelles étaient les chaînes les plus jeunes (moins de 2 ans) qui faisaient le plus « mentir les statistiques », celles dont le nombre d’abonnés réel est au moins 10 fois supérieur à l’estimation par la formule ci-dessus.

Il y en a 4, les voici :

Puissent ces 4 beaux exemples inspirer les générations futures !