Kan man lita på resultat från enkätundersökningar som inte använder slumpmässiga urval? För den som är insatt i statistisk metod låter det som århundradets dummaste fråga, och för de flesta forskare är svaret självklart: Nej, det kan man inte. Ändå arbetar idag många företag och forskare med just så kallade självrekryterade respondenter i sina undersökningar. Det kan handla om exempelvis marknadsundersökningar eller opinionsundersökningar med hjälp av enkäter administrerade på internet. Ett av de mest kända företagen internationellt som har marknadsfört självrekryterade webbpanelerna som arbetsmetod är YouGov. I USA har YouGov flera gånger lyckats väl med att predicera de amerikanska presidentvalens utgång.

Men om vi vill göra en statistisk undersökning för att dra tillförlitliga slutsatser om exempelvis befolkningens partisympati, utbildningsnivå, fritidsvanor eller vad som nu intresserar oss, kan vi då använda oss av urval som inte bygger på slumpen?

För det första är det viktigt att komma ihåg att det fullständigt saknas en statistisk inferensteori om hur vi skulle kunna beräkna osäkerheten när vi generaliserar ett resultat från vårt urval till populationen av intresse när vi inte använder oss av ett sannolikhetsurval från en urvalsram av hög kvalitet. Helst bör vi också ha en relativt hög svarsfrekvens, dvs så många som möjligt som ingår i vårt urval bör ha deltagit i undersökningen och svarat på våra frågor. Vad gäller svarsfrekvensen finns dock ingen fast gräns för hur hög/låg den kan vara. Men återigen, det finns i strikt mening ingen vetenskaplig grund för att göra sådana generaliseringar från icke-slumpmässiga urval till en större population.

En jämförelse av sju undersökningar

I detta blogginlägg presenterar jag i korthet lite resultat från en jämförande studie av sju undersökningar med likadana frågor men olika metoder för datainsamling och urval. Undersökningen har genomförts av Opinionslaboratoriet vid Göteborgs universitet (Laboratory of Opinion Research, LORe) i samarbete med ett antal svenska undersökningsföretag. Studien kan inte ge något definitivt eller generellt svar på vilken kvalitet olika datainsamlings- eller urvalsmetoder har, utan skall betraktas som ett första försök att genomföra denna typ av jämförande studie i Sverige. Förhoppningen är att universitet och näringsliv i samverkan på detta vis ska kunna bidra till metodutvärdering och metodutveckling inom surveyområdet. Det finns enligt min mening alltför lite utbyte mellan forskare och praktiker på detta område, och för lite inblick i varandras sätt att arbeta. Min förhoppning är också att vi forskare som en oberoende aktör utan något eget ekonomiskt intresse i vissa arbetsmetoder framför andra kan bidra till att föra diskussionen framåt och till att få trovärdiga opartiska utvärderingar av olika arbetsmetoder.

Både i Sverige och internationellt har användandet av sk webbpaneler/on-linepaneler växt explosionsartat sedan sekelskiftet. Arbetssättet att genomföra webbenkäter till en på förhand rekryterad panel av respondenter som av olika anledningar är villiga att delta i frågeundersökningar på internet har medfört nya möjligheter, men också nya problem. De kan delvis ses som ett svar på de sjunkande svarsfrekenserna i de traditionella undersökningarna, tex via telefon eller via postenkäter, eller via hembesöksintervjuer. Men de kan också betraktas som ett svar på teknikutvecklingen i sig.

Två huvudsakliga frågor som diskuteras idag är:

Är webbpaneler generellt sett rimliga att använda när syftet är nivåskattningar av en population?

Är självrekryterade/öppna paneler acceptabla, eller är det enbart slumpmässigt rekryterade webbpaneler som kan göra anspråk på tillförlitliga generaliseringar till en större population?

En kontroversiell fråga

Dessa frågor diskuteras flitigt idag både bland forskare och bland praktiker, och förs både i den offentliga debatten och i vetenskapliga tidsskrifter. I Sverige har exempelvis företaget Novus varit aktivt i debatten. Tex genomförde de 2011 en egen omfattande jämförande studie av slumpmässigt rekryterade och självrekryterade webbpaneler där de drog slutsatsen självrekryterade paneler innehålle skevheter som vad gäller såväl åsikter och beteenden som grundläggande demografi. Statsvetaren Jenny Madestam och Novus VD Torbjörn Sjöström har också på DN debatt argumenterat för att självrekryterade paneler ökar risken för att urvalet är skevt.

Och de saknar varken internationell uppbackning eller uppbackning från forskarvärlden. Til exmpel skriver den amerikanske branschorganisationen AAPOR (American Association for Public Opinion Research) i sin rapport om självrekryterade webbpaneler från 2010 att ” Researchers should avoid nonprobability online panels when one of the research objectives is to accurately estimate population values.”. Vidare så har den amerikanske social-psykologen, statsvetaren och ledande forskaren i surveymetodologi Jon Krosnick och hans kollegor 2011 publicerat en stor jämförande studie i den vetenskapliga tidskriften Public Opinion Quarterly av inte mindre än elva olika undersökningar som drar slutsatsen att självrekryterade webbpaneler är mindre tillförlitliga än slumpmässigt rekryterade webbpaneler. En del går faktiskt ännu längre. I en rapport från svenska surveyföreningen om kvaliten i webbpaneler som ännu inte är publicerad argumentera det för att webbpaneler generellt sett inte bör användas när syftet är nivåskattningar till en population. Observera att surveyföreningen då avser även slumpmässigt rekryterade paneler.

Vad är en webbpanel?

Här är det viktigt att inse att webbpaneler skiljer sig på många sätt från traditionella sätt att göra statistiska undersökningar. Det är lätt att tro att de slumpmässigt rekryterade panelerna är ungefär samma sak som traditionella undersökningsmetoder då båda i någon mån använder sig av slumpen som ett hjälpmedel för att få representativa urval och generaliserbara slutsatser. Men grundproblemet är att det inte finns något register att slumpa fram e-postadresser eller liknande från. Det går inte att dra ett urval och göra en undersökning med hjälp av en webbenkät utan vidare på samma sätt som det går att göra en postenkät med hjälp av tex statens personadressregister (SPAR), eller att göra en telefonundersökning med hjälp av antingen random-digit-dialing eller ett telefonnummersatt befolkningsurval. På något sätt måste den som vill göra ett urval av individer att skicka e-post till få tag på en databas som innehåller e-postadresser. Och det är här webbpanelerna kommer in. En webbpanel är alltså i grund och botten en databas över e-postadresser till människor som är villiga att delta i enkätundersökningar på webben genom att få ett mejlutskick. I ett första skede kan då ett företag tex rekrytera, säg, 50 000 personer till sin databas över e-postadresser. Sedan tar de redan på lite grundläggande information, tex demografisk information, om dessa potentiella respondenter. Och slutligen när de vill genomföra en konkret undersökning väljs exempelvis 2000 personer ut från databasen, varav kanske 1000 i slutändan svara på själva enkäten. Varje företag har här sina egna arbetsmetoder för att få så hög kvalitet i sina undersökningar som möjligt. Alla detaljer angående dessa arbetsmetoder är oftast inte offentligt redovisade, medan en del är det. Ett exempel på självrekryterade paneler är då människor själva anmäler sig på ett företags webbplats, eller via annonser eller liknande. Ett exempel på slumpässigt rekryterade paneler är istället då ett företag drar ett slumpmässigt urval av befolkningen, som de sedan kontaktar, tex via telefon eller via posten, och försöker övertyga de som ingår i urvalet om att registrera sig som medlemmar i deras webbpanel och lämna ut sin e-postadress. Ofta ingår någon typ av incitament för deltagande i undersökningarna.

Det står alltså ganska klart att både slumpmässigt rekryterade webbpaneler och självrekryterade webbpaneler arbetar på ett ganska annorlunda sätt än traditionella undersökningar där vi först drar ett slumpmässigt urval om säg 2000 personer, som vi sedan kontaktar och försöker få så många som möjligt av dessa 2000 att delta i undersökningen. Med en sådan undersökning är det lätt att få god insyn i hur allt har gått till. Föreställ er nu att ett företag som bygger upp en slumpmässigt rekryterad webbpanel lyckas övertyga 20 procent av de som ingår i urvalet att lämna ifrån sig sin e-postadress. I nästa steg ska de svara på en sk profilundersökning där de svarar på lite grundläggande frågor om sig själva. Här kanske så många som 90 procent svarar. Vi är då nere på 18 procent av det ursprungliga urvalet. Och när en konkret studie sedan ska göras kanske vi uppnår en deltarandel på 50 procent, dvs 9 procent av det ursprungliga urvalet. Det är denna siffra, de nio procenten, som kallas den ”kumulativa svarsfrekvensen”. Det är tyvärr ovanligt att denna redovisas. Och vad händer ett år senare, när allt fler av de ursprungligen rekryterade 20 procenten har börjat hoppa av och tröttnat på att delta i undersökningarna som oftast kommer åtminstone åtskilliga gånger i månaden? Hur ska då den kumulativa svarsvrekvensen redovisas? Det är inte helt enkelt att svara på detta.

I grund och botten är skiljelinjen mellan slumpmässigt rekryterade paneler och självrekryterade paneler knivskarp. De rekryterar sina respondenter på helt olika sätt. Men av ovanstående resonemang tycker jag att det också blir tydligt att slumpmässigt rekryterade webbpaneler trots detta ingalunda kan likställas med traditionella slumpmässiga urval, de representerar istället en tredje kategori. Slumpmässiga urval har två stora fördelar. För det första har de en vetenskaplig grund för sina generaliseringar till populationen vi är intresserade av, och osäkerheten i denna generalisering kan (i bästa fall) beräknas. För det andra har den en praktisk fördel i och med att slumpmässigheten garanterar att urvalet blir representativt i förhållande till populationen. Åtminstone om bortfallet inte är systematiskt och svarsfrekvensen är någorlunda hög (men hur högt är det?). I praktiken använder sig också de flesta webbpaneler av olika metoder för att göra sina urval så representiva som möjligt i förhållande till populationen. Här finns en mängd olika tekniker. Men olika former av kvoter eller strata (”pre-stratifiering”) kan till exmpel användas för att säkerställa att exempelvis andelen kvinnor, andelen unga, eller andra egenskaper, i urvalet liknar andelen i hela populationen. Dessutom tillämpas även vikter som kopplas på efteråt i analysstadiet, så kallad post-stratifiering.

Jag tycker att det finns all anledning att fortsätta utvärdera och utveckla dessa metoder. Inte minst behöver det göras även i en svensk kontext då de mest kända tidigare studierna alla är gjorda i USA, där förutsättningarna för surveyundersökningar på många sätt skiljer sig åt från de svenska förhållandena.

Nya resultat

Här ska jag avsluta denna diskussion med att kort sammanfatta huvudresultaten från Opinionslaboratoriets jämförande studie som genomfördes under 2012.Denna studie presenteras idag, torsdagen den 14 mars 2013, på MarknadsUndersökningens dag i Stockholm. I studien ingår tre tvärsnittsstudier baserade på slumpmässiga urval. Dessa representerar tre olika datainsamlingsmetoder, men en och samma urvalsmetod. En postenkät från SOM-institutet, en telefonintervjuundersökning genomförd av Detector, och en webbenkät genomförd i vår egen regi inom opinionslaboratoriet LORe. Dessa utgår alla från slumpmässiga befolkningsurval och tillämpar ingen stratifiering av urvalet i förväg, och heller inga vikter i analysen. Utöver detta ingår två webbpaneler som arbetar med slumpmässiga rekryteringar, Novus och Sifo, samt två självrekryterade webbpaneler, YouGov och Cint. Här vill jag tillägga att Cint inte i egentligen mening är en självrekryterad webbpanel. Inom ramen för det Cint erbjuder finns både självrekryterade och slumpmässigt rekryterade paneldeltagare att tillgå. Vi använde dock ett urval från Cint som till ca 85% bestod av självrekryterade paneldeltagare, varför Cint i detta sammanhang ändå får representera de självrekryterade panelerna. Novus, Sifo och YouGov tillhandahöll sina egna vikter för analysen, medan vi inom opinionslaboratoriet själva konstruerade en viktning för Cint baserad på kön och ålder. Tilläggas skall även att dessa sju undersökningar gjordes inom ett och samma geografiskt avgränsade område, nämligen den sk Göteborgsregionens tretton kommuner.

De sju undersökningarna har huvudsakligen jämförts på tre sätt. För det första jämförs den demografiska träffsäkerheten i förhållande till SCBs befolkningsregister så långt det är möjligt. För det andra undersöks hur webbpanelernas resultat ser ut vad gäller politiska åsikter och attityder i förhållande till traditionella metoder. För det tredje undersöks hur skattningarna av samband mellan demografiska egenskaper och politiska åsikter ser ut i de olika undersökningarna. I detta blogginlägg presenteras dock bara den första punkten, den demografiska träffsäkerheten. Resterande resultat kan ses i det tabellunderlag som publiceras i samband med det här inlägget och finns på den här länken.

Den metod för att jämföra den demografiska träffsäkerheten som används är den genomsnittliga absoluta avvikelsen. Vi har fem demografiska indikatorer i samtliga sju undersökningar: kön, ålder, utbildning, arbetsmarknadssituation, samt körkortsinnehav. Om en undersökning överskattar andelen kvinnor med två procentenheter och underskattar andelen män med två procentenheter blir den genomsnittliga avvikelsen för indikatorn kön två procentenheter. Om samma undersökning överskattar andelen arbetslösa med fem procentenheter och underskattar andelen förvärvsarbetande med tre procentenheter blir den genomsnittliga avvikelsen för indikatorn arbetsmarknadssituation fyra procentenheter. Den totala genomsnittliga absoluta avvikelsen för dessa två indikatorer blir då tre procentenheter: (2+4)/2=3. Detta totala genomsnitt beräknas för de fem demografiska indikatorerna för samtliga sju undersökningar. Ju lägre avvikelse från SCBs uppgifter, desto mer träffsäker är alltså undersökningen. Resultatet visar sig vara ganska överraskande.

Vad vår jämförelse visar är alltså att YouGov och Cint, de två självrekryterade webbpanelerna, har de minsta avvikelsen från SCBs uppgifter om befolkningens demografiska sammansättning, det vill säga den största träffsäkerheten. Jag vill återigen betona att detta är ett överraskande resultat givet vad tidigare studier har visat, och givet de flesta forskares inställning till självrekryterade paneler. Närmast efter Cint följer Novus, som arbetar med slumpmässigt rekryterade webbpaneler, följt av Detector, som genomfört en telefonundersökning till ett befolkningsurval. Nästa på listan är SOM-institutet, som utan tvekan har den bästa urvalsramen för sin undersökning kombinerat med en hög svarsfrekvens. Näst sist på listan är Sifo, följt av vår egen webbenkät från opinionslaboratoriet.

Beror dessa resultat då på hur framgångsrikt undersökningsföretagen har konstruerat sina viktningsmatriser? Svaret är nej. Nedan visas de fyra webbpanelernas avvikelsesiffror med och utan viktning. Rangordningen förblir densamma.

Dessa resultat är givetvis mycket intressanta, men måste också betraktas som baserade på ett begränsat underlag. De andra studier jag tidigare nämnt av Krosnick med kollegor, använde sig av betydligt fler olika webbpaneler och framförallt, av betydligt fler indikatorer, vilket naturligtvis ger en mer tillförlitlig jämförelse. Givet att resultaten är såpass förvånande bör de replikeras och utökas med fler demografiska indikatorer innan vi kan känna oss säkra på kvaliten hos olika typer av frågeundersökningar. En sådan större, mer generellt upplagt jämförande studie med ett bredare urval av indikatorer ser jag som en viktig uppgift för den svenska undersökningsbranschen det närmaste året. Trots dessa begränsningar står det tydligt att i denna jämförande studie finns inget stöd för att självrekryterade webbpaneler skulle vara behäftade med större osäkerhet än andra undersökningar, varken slumpmässigt rekryterade webbpaneler eller andra traditionella metoder.

Hur ser det då ut när det gäller politiska åsikter och sambandsanalyser? För sådan information liksom övriga detaljer om urvalsstorlekar och svarsfrekvesnser måste jag för tillfället hänvisa läsarna till det tabellunderlag som går att ladda ned från bloggen. Jag vill däremot avsluta med några tankar utifrån resultaten:

Det är uppenbarligen svårare för undersökningar som inte arbetar med stående paneler och inte arbetar med några kvoter eller strata att uppnå enkel demografisk representativitet tex vad gäller kön och ålder. Det är alltså inte särskilt uppseendeväckande att webbpanelerna slår de traditionella undersökningarna på dessa punkter.

Vår egen webbenkät i opinionslaboratoriet (LORe) kommer sist i jämförelsen. Det är inte särskilt konstigt då svarsfrekensen var låga åtta procent. Enligt min mening demonstrerar detta tydligt att om man ska göra enkäter på webben, bör de göras från en befintlig stor panel, varifrån ett stratifierat urval (eller annan liknande metod) kan dras. Utan dessa tekniker som har utvecklats det senaste decenniet kan antagligen inte webbenkäter mäta sig med andra metoder.

Det framgår också av tabellunderlaget att samtliga undersökningar överrepresenterar högutbildade, vilket antagligen är ett av de största problemen för representativiteten då utbildningsnivån ofta hänger samman med exempelvis åsikter i samhällsfrågor.

Tabellunderlag till undersökningen

Martinson, Johan & Maria Andreasson (2013): ”Olika metoder – lika resultat? Tabellunderlag.” Laboratory of Opinion Research.