Datainsamlingen för Twittercensus 2014 går framåt i snabbt takt. Nytt för i år är att data samlas in för svenska, norska, danska och finska samtidigt – vilket också innebär att relationerna mellan konton över språkgränserna kommer att sparas. Detta innebär i sin tur att det kommer att vara möjligt att göra en karta över hur språkområdena hänger samman. Datamängden ökar förstås rejält, så vad som blir tekniskt möjligt att göra i slutändan är lite oklart.

Lite ironiskt går datainsamlingen betydligt snabbare i år än tidigare år. Genom att be om hjälp, och få fler än 1000 personer att bidra genom att logga in med sina Twitterkonton, kan vi nu ställa väldigt många fler frågor till Twitters API än vad som var möjligt tidigare. Hastigheten ligger på cirka 100 000 för närvarande, och då används lång i från hela kapaciteten. För varje sammankopplat konto ger twitter oss möjlighet att göra 180 förfrågningar/15 minuter för tweets och 15 förfrågningar/15 minuter efter följare och vänner. I skrivande stund finns över 1 miljon twitterkonton, 200 miljoner relationer och 50 000 000 tweets i databasen, och den fylls på varje sekund…

Själva datainsamlingen går till så att ett kontrollskript på en server (tack @cloudroyal!) startar upp till 150 parallella processer. Dessa processer får en uppgift från en kö. Uppgiften är antingen att hämta och analysera tweets, hämta ett kontos relationer, eller att uppdatera kontoinformation. Processen utför sitt uppdrag, sparar resultatet i databasen och stänger ner sig själv.

För att hålla koll på hur processerna går framåt finns en rad olika övervaknings och debug-funktioner. Den två enklaste, som övervakas frekvent, är en som visar antalet konton i de olika köerna samt en övervakning av antalet förfrågningar som görs till twitters API varje timme.

Twittercensus är Sveriges största mätning av Twitter och genomförs årligen av Intellecta Corporate. Vi vill också passa på att tacka Cloud Royale som tillhandahåller serverkapacitet för insamlingen.