Mathijs Tratsaert over hoe journalisten vaak de bal misslaan als het over wetenschappelijke studies gaat: 'Door cruciale nuances overboord te gooien wordt een noodzakelijk gesprek onmogelijk.'

Een Vlaamse krant publiceerde onlangs een artikel waarin wordt gesteld dat wetenschappers een algoritme hebben ontwikkeld dat met hoge zekerheid iemands seksuele geaardheid kan afleiden uit een foto. De krant citeert The Guardian als bron en The Guardian verwijst naar The Economist. Bij elke stap verder weg van de originele paper van Yilun Wang en Michal Kosinksi zie je in deze artikels meer verwarring en onnauwkeurigheden opduiken.

Door cruciale nuances overboord te gooien in de berichtgeving over wetenschappelijk onderzoek maakt het artikel het onmogelijk om het noodzakelijke gesprek te voeren over deze technologische ontwikkelingen en hun potentieel levensbedreigende consequenties.

Wanneer leren onze kranten correct te berichten over wetenschappelijke bevindingen?

In het artikel staat dat een algoritme 'bij 81 procent van mannenfoto's correct kon aangeven of ze homo waren of niet. Bij vrouwen had de computer het in 74 procent van de gevallen bij het juiste eind. (...) De slaagkans van het computeralgoritme steeg bovendien van 81 naar 91 procent bij mannen, als de computer vijf beelden ter analyse kreeg. Bij vrouwenfoto's steeg het van 74 naar 83 procent.'

In de eigenlijke onderzoeksresultaten is er nergens sprake van dit soort op zichzelf staande percentages. De cijfers waarover het artikel het heeft worden er uitgedrukt in een eenheid uit de literatuur rond patroonherkenning: AUC. De journalisten van de verschillende publicaties hebben het onderzoek niet volledig gelezen, want Wang en Kosinski waarschuwen in hun paper voor exact deze verwarring:

'The AUC = .91 does not imply that 91% of gay men in a given population can be identified, or that the classification results are correct 91% of the time. The performance of the classifier depends on the desired trade-off between precision (e.g., the fraction of gay people among those classified as gay) and recall (e.g., the fraction of gay people in the population correctly identified as gay). Aiming for high precision reduces recall, and vice versa.'

AUC wordt gebruikt om de waarschijnlijkheid van een correcte identificatie uit te drukken in datasets met zowel 'true' als 'false positives'. Dat gaat bijvoorbeeld over de link tussen homoseksualiteit en het hebben van dunne wenkbrauwen. Stel dat de AUC voor een dataset van mannelijke wenkbrauwen .65 is, dan is de kans dat een willekeurig paar dunne homoseksuele wenkbrauwen (een true positive) in het rangschikken op voorspelde homoseksualiteit hoger zal staan dan een willekeurig paar dunne heteroseksuele wenkbrauwen (een false positive) .65 op 1.

Cruciaal hierbij is dat de AUC een relatie tussen willekeurige punten in de set uitdrukt, en de werkelijke voorspellingsgraad (zoals het artikel die in procent uitdrukt) dus ook afhankelijk is van het soort dataset waarover het gaat. Hoe meer false positives, hoe lager dat percentage.

Als de krant schrijft dat de onderzoekers een algoritme ontwikkelden 'dat bij 81 procent van mannenfoto's correct kon aangeven of ze homo waren of niet', dan is dat dus verkeerd, want je kan de nauwkeurigheid van het algoritme niet los zien van de dataset.

Toen Wang en Kosinski hun algoritme op een verzameling foto's van duizend willekeurige mannen loslieten (met 6 à 7 procent homoseksuele mensen in plaats van de 50 procent uit de eerdere dataset), dan bleek het niet zoveel beter in het herkennen van seksuele geaardheid dan een menselijke beoordelaar. Van de 100 die het algoritme het meest waarschijnlijk homoseksueel achtte, waren er namelijk maar 47 daadwerkelijk homoseksueel.

Elders in hun paper schrijven Wang en Kosinksi dat 'press reports suggest that governments and corporations are developing and deploying face-based prediction tools aimed at intimate psychodemographic traits, such as the likelihood of committing a crime, or being a terrorist or pedophile. The laws in many countries criminalize same-gender sexual behavior, and in eight countries--including Iran, Mauritania, Saudi Arabia, and Yemen--it is punishable by death (UN Human Rights Council, 2015). It is thus critical to inform policymakers, technology companies and, most importantly, the gay community, of how accurate face-based predictions might be.'

Als media artikels van andere media klakkeloos overnemen zonder een onderzoek zelf kritisch te lezen haken lezers af.

'Problematische nonchalance'

Dit is de reden waarom de nonchalance van de verschillende kranten zo problematisch is. Door artikels van andere media klakkeloos over te nemen (hoe gereputeerd ze ook zijn) zonder het onderzoek zelf kritisch te lezen en door te kiezen voor een incorrecte clickbaittitel als 'Deze technologie kan op basis van 1 foto uw geaardheid raden. En dat moet u zorgen baren', ontstaat er bij de lezers een terechte reactie van ongeloof.

Kijk er de facebookreacties onder het artikel maar op na: 'gezever', 'data van een datingsite (...) redelijk waardeloos', 'en als je dit niet gelooft'... Deze mensen hebben in hun kritische houding geen ongelijk, want de kranten stellen de zaken inderdaad anders voor dan ze in de paper van Wang en Kosinski worden beschreven.

Toch zijn er goede redenen om aan te nemen dat algoritmes in bepaalde omstandigheden vele malen beter zijn dan mensen in het op zicht herkennen van geaardheid, en naar alle waarschijnlijkheid worden ze daar in de toekomst nog veel beter in.

Het is dus letterlijk van levensbelang dat we een volwassen gesprek leren voeren over dit soort technologische ontwikkelingen en hun consequenties. Dat zal niet lukken als onze kranten niet eens in staat blijken op een genuanceerde en kritische manier verslag uit te brengen van wetenschappelijke bevindingen.

Mathijs Tratsaert is dichter en kunstwetenschapper. Hij schreef zijn masterthesis over methodologische vernieuwing in het onderzoek naar onze visuele cognitie op de grens van kunstwetenschap en neurowetenschap.

Een Vlaamse krant publiceerde onlangs een artikel waarin wordt gesteld dat wetenschappers een algoritme hebben ontwikkeld dat met hoge zekerheid iemands seksuele geaardheid kan afleiden uit een foto. De krant citeert The Guardian als bron en The Guardian verwijst naar The Economist. Bij elke stap verder weg van de originele paper van Yilun Wang en Michal Kosinksi zie je in deze artikels meer verwarring en onnauwkeurigheden opduiken. Door cruciale nuances overboord te gooien in de berichtgeving over wetenschappelijk onderzoek maakt het artikel het onmogelijk om het noodzakelijke gesprek te voeren over deze technologische ontwikkelingen en hun potentieel levensbedreigende consequenties.In het artikel staat dat een algoritme 'bij 81 procent van mannenfoto's correct kon aangeven of ze homo waren of niet. Bij vrouwen had de computer het in 74 procent van de gevallen bij het juiste eind. (...) De slaagkans van het computeralgoritme steeg bovendien van 81 naar 91 procent bij mannen, als de computer vijf beelden ter analyse kreeg. Bij vrouwenfoto's steeg het van 74 naar 83 procent.'In de eigenlijke onderzoeksresultaten is er nergens sprake van dit soort op zichzelf staande percentages. De cijfers waarover het artikel het heeft worden er uitgedrukt in een eenheid uit de literatuur rond patroonherkenning: AUC. De journalisten van de verschillende publicaties hebben het onderzoek niet volledig gelezen, want Wang en Kosinski waarschuwen in hun paper voor exact deze verwarring:'The AUC = .91 does not imply that 91% of gay men in a given population can be identified, or that the classification results are correct 91% of the time. The performance of the classifier depends on the desired trade-off between precision (e.g., the fraction of gay people among those classified as gay) and recall (e.g., the fraction of gay people in the population correctly identified as gay). Aiming for high precision reduces recall, and vice versa.' AUC wordt gebruikt om de waarschijnlijkheid van een correcte identificatie uit te drukken in datasets met zowel 'true' als 'false positives'. Dat gaat bijvoorbeeld over de link tussen homoseksualiteit en het hebben van dunne wenkbrauwen. Stel dat de AUC voor een dataset van mannelijke wenkbrauwen .65 is, dan is de kans dat een willekeurig paar dunne homoseksuele wenkbrauwen (een true positive) in het rangschikken op voorspelde homoseksualiteit hoger zal staan dan een willekeurig paar dunne heteroseksuele wenkbrauwen (een false positive) .65 op 1. Cruciaal hierbij is dat de AUC een relatie tussen willekeurige punten in de set uitdrukt, en de werkelijke voorspellingsgraad (zoals het artikel die in procent uitdrukt) dus ook afhankelijk is van het soort dataset waarover het gaat. Hoe meer false positives, hoe lager dat percentage.Als de krant schrijft dat de onderzoekers een algoritme ontwikkelden 'dat bij 81 procent van mannenfoto's correct kon aangeven of ze homo waren of niet', dan is dat dus verkeerd, want je kan de nauwkeurigheid van het algoritme niet los zien van de dataset. Toen Wang en Kosinski hun algoritme op een verzameling foto's van duizend willekeurige mannen loslieten (met 6 à 7 procent homoseksuele mensen in plaats van de 50 procent uit de eerdere dataset), dan bleek het niet zoveel beter in het herkennen van seksuele geaardheid dan een menselijke beoordelaar. Van de 100 die het algoritme het meest waarschijnlijk homoseksueel achtte, waren er namelijk maar 47 daadwerkelijk homoseksueel.Elders in hun paper schrijven Wang en Kosinksi dat 'press reports suggest that governments and corporations are developing and deploying face-based prediction tools aimed at intimate psychodemographic traits, such as the likelihood of committing a crime, or being a terrorist or pedophile. The laws in many countries criminalize same-gender sexual behavior, and in eight countries--including Iran, Mauritania, Saudi Arabia, and Yemen--it is punishable by death (UN Human Rights Council, 2015). It is thus critical to inform policymakers, technology companies and, most importantly, the gay community, of how accurate face-based predictions might be.'Dit is de reden waarom de nonchalance van de verschillende kranten zo problematisch is. Door artikels van andere media klakkeloos over te nemen (hoe gereputeerd ze ook zijn) zonder het onderzoek zelf kritisch te lezen en door te kiezen voor een incorrecte clickbaittitel als 'Deze technologie kan op basis van 1 foto uw geaardheid raden. En dat moet u zorgen baren', ontstaat er bij de lezers een terechte reactie van ongeloof. Kijk er de facebookreacties onder het artikel maar op na: 'gezever', 'data van een datingsite (...) redelijk waardeloos', 'en als je dit niet gelooft'... Deze mensen hebben in hun kritische houding geen ongelijk, want de kranten stellen de zaken inderdaad anders voor dan ze in de paper van Wang en Kosinski worden beschreven.Toch zijn er goede redenen om aan te nemen dat algoritmes in bepaalde omstandigheden vele malen beter zijn dan mensen in het op zicht herkennen van geaardheid, en naar alle waarschijnlijkheid worden ze daar in de toekomst nog veel beter in. Het is dus letterlijk van levensbelang dat we een volwassen gesprek leren voeren over dit soort technologische ontwikkelingen en hun consequenties. Dat zal niet lukken als onze kranten niet eens in staat blijken op een genuanceerde en kritische manier verslag uit te brengen van wetenschappelijke bevindingen.Mathijs Tratsaert is dichter en kunstwetenschapper. Hij schreef zijn masterthesis over methodologische vernieuwing in het onderzoek naar onze visuele cognitie op de grens van kunstwetenschap en neurowetenschap.