Hollantilaistutkimuksen mukaan runsas kolmannes ihmisten twiiteistä koskee heidän työtään. Työ ja vapaa-aika sekoittuvat usein somessa: yli 40 prosenttia työtä koskevista twiiteistä lähetetään toimistoajan ulkopuolella eli illalla tai varhain aamulla.

Hollantilaistutkimuksen mukaan runsas kolmannes ihmisten twiiteistä koskee heidän työtään. Työ ja vapaa-aika sekoittuvat usein somessa: yli 40 prosenttia työtä koskevista twiiteistä lähetetään toimistoajan ulkopuolella eli illalla tai varhain aamulla. Matti Myller / Yle

Esimerkiksi kielentutkimuksessa on tiedetty jo pitkään, millainen arvo sosiaalisen median datamassoilla on. Itä-Suomen yliopiston tutkija sanookin jo odottaneensa keskustelua siitä, miten dataa voi ja saa käyttää.

Itä-Suomen yliopiston englannin kielen professori Mikko Laitinen on seurannut kevään aikana tarkasti keskustelua sosiaalisen median datamassojen keräämisestä ja hyödyntämisen pelisäännöistä.

Asia nousi esille maaliskuussa. Tuolloin paljastui, että brittiläinen analytiikka- ja sosiaalisen median profilointiyritys Cambridge Analytica oli käyttänyt miljoonien amerikkalaisten Facebook-käyttäjien tietoja heidän tietämättään vaikuttamaan Yhdysvaltojen presidentinvaalien tulokseen.

On hyvä, että yhteiskunnassa herää keskustelu datamassan käytöstä. Mikko Laitinen

Professori Mikko Laitinen sanoo jo odottaneensa, milloin isojen datamassojen käyttämisestä nousee laajempi keskustelu. Laitisen mielestä tavalliset sosiaalisen median käyttäjät ovat olleet turhan vapaamielisiä antaessaan dataa yritysten käyttöön.

– On hyvä, että yhteiskunnassa herää keskustelu datamassan käytöstä. Miten sitä pitäisi, saa ja voi käyttää. Oli jo aikakin, että tästä asiasta puhutaan, miettii Laitinen.

Englannin kielen tutkimuksessa on jo vuosikymmeniä voitu hyödyntää isoja datamassoja. Tutkimuksessa on käytetty puhuttua ja kirjoitettua kieltä.

Professori Laitisen mukaan englannin kielen tutkijoilla on ollut vapaasti saatavilla myös paristakymmenestä englanninkielisestä maasta sanomalehtijuttuja. Niitä on tallennettu iltaisin tietokantaan ja kyseinen aineisto on tutkijan käytettävissä seuraavana päivänä.

Reaaliaikaiset aineistot tuovat uusia tuulia tutkimustyöhön

Professori Mikko Laitisen tutkimusryhmä kerää ja tallentaa muun muassa geopaikallistettuja mikroblogiviestejä eli twiittejä Pohjoismaista. Laitinen iloitsee, että digitaalisen vallankumouksen kautta tutkimustyössä ollaan menossa kohti reaaliaikaisia aineistoja.

– Meillä on tänään saatavilla aika iso otos eilen lähetettyjä twiittejä tietyltä maantieteelliseltä alueelta. Se antaa hyviä mahdollisuuksia katsottaessa kielen käyttöä tai nykyistä kielen vaihtelua, kun tutkijan ei tarvitse enää olla tekemisissä vuosikymmenen takaisen datan kanssa. Reaaliaikainen mahdollisuus tarkastella mitä ihmiset kommentoivat vaikka jostain yhteiskunnallisesta tapahtumasta tarjoaa huikeita mahdollisuuksia kielentutkijan lisäksi myös muun muassa sosiaali- ja yhteiskuntatieteilijöille, miettii Laitinen.

Professori Mikko Laitinen kertoo esimerkin Twitter-datan testaamisesta Itä-Suomessa. Tutkimuskohteeksi otettiin runsaat 60 itäsuomalaista kuntaa. Yksinkertaisena kysymyksenä oli se, mitä kieliä näissä kunnissa asuvat ihmiset käyttävät Twitterissä.

– Tässä huomattiin se, että pienissä maaseutukunnissa Twitterin käyttäjäporukka menee aika pieneksi. Siellä olisi ollut mahdollista mennä yksilötasolle, mutta emme menneet edes kuntatasolle, kertoo Laitinen.

Tutkimuksessa olemme kiinnostuneita siitä, miten suomalaiset käyttävät englantia esimerkiksi sosiaalisessa mediassa. Mikko Laitinen

Professori Mikko Laitisen mukaan perustutkimuksen tavoitteena on tarjota nykyistä parempi pohja englannin kielen opetukselle. Englannin kielen tutkimuksessa keskiössä on saada kielenopetus kouluissa vastaamaan todellista kielenkäyttöä. Englannin kielen rooli on muuttunut Pohjoismaissa vieraasta kielestä ns. toisen kielen suuntaan.

– Kolmas kotimainen on varmaan kuvaava termi. Tutkimuksessa olemme kiinnostuneita siitä, miten suomalaiset käyttävät englantia esimerkiksi sosiaalisessa mediassa. Cambridge Analyticasta toimintamme eroaa siinä, että me emme etsi datamassasta ilmiöitä, joita voisi sitten hyödyntää esimerkiksi poliittisiin tarkoituksiin.

Englannin kielen tutkimuksessa haetaan isoja linjoja

Tietoturvakysymykset ovat tuoneet mietittävää myös professori Mikko Laitisen tutkimusryhmälle. Aineisto on säilötty siten, että siihen ei pääse kukaan muu käsiksi. Myöskään tiettyä ihmisryhmää tai yksittäistä ihmistä ei nosteta esille.

– Olemme kiinnostuneita isoista linjoista ja laajemmasta ilmiöstä kuin tietystä yksilöstä.

Massadata on usein kielellistä aineistoa eli sen tutkimiseen tarvitaan humanistien, ohjelmoijien, visualisoijien ja tilastotieteilijöiden yhteistyötä. Twitter-aineiston käsittelyssä professori Mikko Laitisen tutkimusryhmä tekee monitieteistä yhteistyötä eri alojen ammattilaisten kanssa.

Tutkimustyössä joutuu aina pohtimaan kuinka tuloksia voi käyttää esimerkiksi yleistämään koko populaation tasolle. Mikko Laitinen

Laitisen mukaan sosiaalisen median aineistoa tutkittaessa on selvää, että tietyt ihmisryhmät ovat yliedustettuina ja toiset ryhmät aliedustettuina.

– On oltava tiedon louhintaa ja teknistä osaamista, että siitä tutkittavasta datamassasta voi löytää jonkin näköisiä merkityksellisiä ilmiöitä. Tutkimustyössä joutuu aina pohtimaan kuinka tuloksia voi käyttää esimerkiksi yleistämään koko populaation tasolle.

Professori Mikko Laitinen arvioi, että jatkossakin nähdään datamassan jättimäisiä väärinkäytöksiä.

– Kielentutkijana en osaa tästä sanoa. Maallikkona voisin kuitenkin ennustaa, että emme ole vielä nähneet edes pahinta koskien Cambridge Analyticaa.

Brittiyhtiö ilmoitti keskiviikkona lopettavansa toimintansa välittömästi.

Laitinen ottaa vertauskohteeksi isojen öljy-yhtiöiden tilanteen yli 100 vuotta sitten. Tuolloin yhtiöt muodostivat jossain vaiheessa monopolin ja myöhemmin yksi öljy-yhtiö pilkottiin useampiin yhtiöihin.

– Tulemme hyvin suurella todennäköisyydellä näkemään saman tyyppistä kehitystä. Jollei nyt Googlen tai Facebookin pilkkomista niin ainakin selkeää kehitystä kohti jonkinlaista sääntelyä tavallisten ihmisten tuottaman datan hyödyntämisessä.

Somen valta on torstai-iltana Ylen A-teeman aiheena, TV 1 kello 21.05.