Lectio-direktør om kritik af forskeradgang: Gymnasieopgaver indgår kun som data til maskinlæring

Direktør bag gymnasieplatform forsvarer, at virksomheden har stillet 130.000 opgaver til rådighed for forskere. Det er nemlig ikke elever, det handler om, men ettaller og nuller, lyder det.

Da virksomheden Macom, som udvikler gymnasieplatformen Lectio, stillede 130.000 opgaver til rådighed for forskere til udvikling af programmet Ghostwriter, skete det ifølge Danske Gymnasier uden at indhente samtykke fra skolerne.

»Skolerne har ikke været involveret i beslutningen om at give adgang til opgaverne, og det står ikke beskrevet i vores databehandleraftale, at Macom kan give adgang til disse data,« har formand for Danske Gymnasier Birgitte Vedersø tidligere udtalt til Version2:

»Vi synes, det er utrygt, når der ikke bliver levet op til den databehandleraftale, vi har.«

Sagen kort Ghostwriter er et program, som ved hjælp af et neuralt netværk vurderer, om en given opgave er skrevet af eleven selv ved at sammenligne opgaven med elevens tidligere afleveringer. Det neurale netværk er blevet trænet på et datasæt bestående af 130.000 gymnasieopgaver, som Macom har stillet til rådighed for forskerne. Det har vakt bekymring hos Danske Gymnasier, som ikke er blevet taget med på råd. Programmet er udviklet af forskningsgruppen DIKU-DABAI, som er en del af et projekt startet af Innovationsfonden, som skal fremme brugen af big data både samfundsmæssigt og i erhvervslivet.

Det manglende samtykke er problematisk, for databehandlere har kun lov til at behandle data på instruks fra de dataansvarlige, forklarer Jon Lauritzen, som er partner i advokatfirmaet DLA Piper og specialist i it-ret.

Macom bekræfter over for Version2, at firmaet fungerer som databehandler over for gymnasierne, hvilket også fremgår af Macoms egen databehandleraftale.

Macom: »Naturlig forlængelse af antiplagiat-system«

Direktør for Macom, Martin Holbøll, betragter udviklingen af Ghostwriter som en naturlig forlængelse af Lectios eksisterende antiplagiat-system.

Hvis I bruger gymnasieelevernes opgaver som træningssæt til maskinlæring, skal I så ikke aftale det med gymnasierne først?

»Vi har plagiatkontrol i vores software. Det er en af de funktioner, der er. Det har været der længe, og det er en del af dagligdagen på skoler, at opgaver de bliver plagiatkontrolleret. Nu er det så blevet en problemstilling, at folk går ud og køber opgaver på internettet. Så det er en naturlig ting at sige, at plagiatkontrol kunne udvides, så man også kan fange det.«

Så fordi gymnasierne er indforstået med, at I laver plagiatkontrol, så er de også med på, at I udfører maskinlæring på opgaverne – at I bruger det som træningssæt?

»Det skal forstås sådan, at vi er en del af DABAI-projektet. Forskere i det projekt kan ligesom vores ansatte arbejde med problemstillinger. Det her er så en problemstilling blandt mange.«

»Vi snakker hele tiden med skolerne«

Kan I bedrive forskning på de data, I får fra gymnasierne, til at forbedre jeres produkt, uden at snakke med gymnasierne om det?

»Forskningen bliver drevet af forskere i regi af DABAI-projektet.«

Men har gymnasierne noget at skulle have sagt i forhold til det her projekt?

»Selvfølgelig har de det. Det er dem, der er vores kunder. Det er dem, der stiller krav til os.«

Jeg har spurgt Danske Gymnasier, og de havde ingen anelse om, at det her var foregået.

»Nej, men det er jo en interesseorganisation. Vi snakker med vores kunder, skolerne.«

Har I så informeret de individuelle gymnasier om projektet?

»Vi snakker selvfølgelig løbende med vores kunder. Vi er en virksomhed, selvfølgelig snakker vi med vores kunder. Den sidste melding, jeg fik fra Danske Gymnasier, er, at de ikke snakker med leverandører. Så der er vel ikke noget underligt i, at de ikke er inde over.«

Har I kontaktet gymnasierne for at fortælle dem om, at de her opgaver bliver brugt til det her?

»Vi snakker hele tiden med skolerne. Vi laver løbende forbedringer til vores software på en daglig basis.«

Har I specifikt fortalt dem om det her projekt?

»Svaret er, at vi snakker hele tiden med vores skoler. Der har været en sag, hvor en rækker skoler ønskede ændringer i den måde vi viste data på. Vi efterkommer naturligvis de ønsker, der er.«

Ingen anonymisering fra Macoms side

Ifølge advokat Jon Lauritzen er Macom forpligtet til at anonymisere opgaverne, før de bliver gjort tilgængelige for tredjeparter, men det er ikke klart, hvordan det skal foregå. Sådan en anonymisering vil nemlig i sig selv kræve tilladelse fra den dataansvarlige, som er de enkelte gymnasier.

Martin Holbøll mener, er dataene er anonymiserede i den forstand, at de indgår som data til et træningssæt, men ikke har været tilgængelige for forskerne at læse direkte.

»Dataene er blevet anonymiseret i den forstand, at de kun indgår som datapunkter til maskinlæring,« siger han.

»Forskerne har ikke haft adgang til at læse de individuelle opgaver. Hvis de kunne det, er det klart at det ville være et brud på aftalen mellem akademia og industrien.«

Af den videnskabelige artikel, der er skrevet om Ghostwriters udvikling, fremgår det, at forskerne selv har forsøgt at anonymisere dataene ved automatisk at fjerne alle egennavne i opgaveteksterne.

Opt-out ikke relevant

For potentielt personhenførbare data er det nødvendigt at indhente samtykke fra de registrerede – altså eleverne – for at deres data må bruges til formål som maskinlæring.

Men det er ifølge Martin Holbøll misforstået at tro, at programmet handler om elevers opgaver, og derfor er det heller ikke relevant at snakke om opt-out, mener han.

Hvis elever er bekymrede over, at deres opgaver bliver brugt i denne sammenhæng, har de så nogen mulighed for at opt'e-ud fra, at deres opgaver bliver brugt?

»Jeg synes det her, det er tendentiøst. Du antager, at det er en elevopgave. Jeg vil sige, det tangerer altså noget, der er lidt skævt.«

Siger du, at gymnasieelevernes opgaver ikke bliver brugt?

»Der er blevet brugt data til at lave forskning på, ja. Og du ved godt, at data består af 0- og 1-taller, i en binær verden. Det er datapunkter, vi snakker om. Vi snakker ikke elever her.«

Men man kan sige, at de data repræsenterer nogle opgaver, som elever har skrevet?

»’Man kan sige’, altså hvis man vil sige det, så må man sige ’jeg forstår det sådan, jeg postulerer dette’ og den slags ting. En anden ting er at sige, ’jeg vil egentlig godt have nogle fakta’, og så tager man fat i dem, som har med fakta at gøre, forskere. Det med tendentiøst at begynde at sige ting, det er ikke fakta.«

Det er jo et simpelt spørgsmål, om gymnasieeleverne kan fravælge at få brugt deres opgaver?

»Men ud fra en præmis om, at det er elever, det her handler om. Det er det ikke.«

Ikke udleveret, men stillet til rådighed

Martin Holbøll sætter fokus på, at de pågældende data ikke er blevet udleveret til forskerne, men er stillet til rådighed i virksomhedens datarum.

»Vi har et datalokale, hvor forskere kan komme og samarbejde med os. Forskerne kan ikke tage data med sig ud af vores datarum,« siger han.

»Forskerne har adgang til en datamængde, som er aftalt forud. Det kommer an på, hvad det specifikke forskningsprojekt handler om. En delmængde af de data er elevopgaver.«