DATA - Ergens op het internet maakte iemand een heatmap van lettercombinaties op basis van een Engelse woordenlijst. Een tweet in Nederland hierover leverde per omgaande een bak met data om een soortgelijk iets te doen.

Alleen dan net anders.

Want het gaat in dit geval niet om een woordenboek, woordenlijst of iets anders gestructureerds. Het gaat om het taalgebruik op twee nogal omvangrijke fora. Eentje waarvan vast staat dat meer dan driekwart van de reaguurders vrouw is en eentje waar zeker driekwart man is.

Zou dat nog wat leuke inzichten opleveren?



We hebben het in drie stukken opgedeeld. Allereerst alle tweelettercombinaties op basis van alle unieke woorden die we konden vinden. Daarna op basis van alle tekst (minus dingen met accenten en zo). En tot slot even de unieke letters voor de verschillende varianten.

Laten we beginnen met de 2grammen voor de unieke woorden op respectievelijk het vrouwenforum en het mannenforum. Verticaal de eerste letter, waarbij ^ staat voor blanco (dus dan tweede letter gelijk beginletter woord). En horizontaal de tweede letter, waarbij $ staat voor blanco, oftewel einde woord.





Let op, de heat map is gemaakt op basis van logaritme van de getallen. Anders was er te groot verschil tussen de hoogfrequente combinaties en de weinig voorkomende.

Als je deze twee grafiekjes snel laat wisselen valt alleen op dat bij de vrouwen een iets grotere voorkeur is voor woorden met daarin dubbele letters (aa, bb, cc, etc..).

Gaan we kijken naar alle woorden (en dat zijn dan dus ook echt alle woorden, inclusief namen en straattaal, verbasteringen en zo voort). Dan ziet het er zo uit:





Ook hier is het moeilijk echt verschillen te zien. Maar na enig staren valt ook weer bij vrouwenmeerderheid op dat daar de combinatie “xx” vaker voorkomt. Net als “ik”.

Tot slot nog even voor de vier varianten de letterfrequenties zelf. Wederom op basis van logaritme (met grondtal 2).



Mocht iemand toevallig nog een platte lijst met alle unieke Nederlandse woorden hebben in digitaal formaat, maken we daar graag nog even een extra grafiekje van.

Voor nu wensen we u veel staarplezier. Hypnotiserende conclusies kunt u hieronder kwijt.

Heel veel dank aan Sjaalman voor het verzamelen en structureren van de data.