Det internasjonale medieselskapet Google har betalt studenten Kevin Unhammer ved Universitetet i Bergen og språkforsker Trond Trosterud ved Universitetet i Tromsø for å skape et dataprogram som forstår norsk.

Programmet oversetter mellom bokmål og nynorsk, og er det første i sitt slag som er til fri bruk.

Prøv maskinoversetteren selv Prøv maskinoversetteren selv

– Slike programmer vil for eksempel gjøre det enklere for kommuner og offentlige organer å skrive tekster og skjema på ulike språk og målformer. Så kan oversetterne konsentrere seg om helheten i teksten, i stedet for å bruke tid på å slå opp i ordbøker, sier Trosterud.

Imponert over studentens arbeid

Det første de to har begynt å bruke programmet til, er å oversette artikler på Wikipedia fra bokmål til nynorsk. Se de oversatte artiklene selv .

Trosterud er svært fornøyd med kvaliteten på oversetteren, og også på Unhammers sommerjobb.

– Det Kevin gjorde i løpet av tre måneder har ingen gjort før. Dette er usannsynlig bra.

Norsk språkteknologis historie er strødd med prosjekter som har feilet. Derfor er dette prosjektet usannsynlig bra. Språkforsker Trond Trosterud

Google som arbeidsgiver

Google Summer of Code Ekspandér faktaboks Sommerjobb som betales av Google.

Flere hundre studenter fra hele verden deltar.

Man kan velge mellom ulike programmeringsoppgaver.

Prosjektet må være åpen kildekode.

Lønn for tre måneder: 4 500 USD (2009). Mer: Google

Kevin sier det var en annerledes sommerjobb, og er svært godt fornøyd med å få betalt for å gjøre noe han liker.

– Betalinga var 4500 USD (vel 26 000 kroner, red.anm) for sommerjobben, jeg pleier å tjene mindre på sommerjobber vanligvis.

Og han synes ikke det er mindre flott at Google står i arbeidsgiverfeltet på lønnsslippen.

– Det er vel litt stas. Det tar seg nok godt ut på CV-en. Og folk synes det høres litt imponerende ut når de hører at det er Google som har betalt sommerjobben, sier han og ler.

Den flerspråklige staten

Google Ekspandér faktaboks Verbet "to google" kom inn i Oxford English dictionary i 2007

Firmanavnet Google kommer fra ordet googol som viser til nummeret 1 fulgt av ett hundre nuller

Trosterud nevner at man frigjøres fra å slå opp ethvert ord i ordboka, når han blir bedt om å forklare hva dette kan brukes tid. Et annet eksempel er fra fylkesmannen i Aust-Agder.

– Det som nå vokser frem er den firespråklige staten. Fylkesmannen der har nettsider på bokmål, nynorsk, engelsk og nord-samisk. Det er et stort maskiner å administrere, og en av nøkkelkomponentene i den flerspråklige staten vil vil være programvare som dette.

Enkel måte å skrive nynorskstil?

Studenten Kevin Unhammer har hatt sommerjobb betalt av Google - og gir bort resultatet. Foto: Paul Sakuma / AP

Det er ikke bare i Wikipedia dette vil bli brukt. Kevin ser for seg at det også kan brukes til andre ting.

– Jeg frykter jo at mange etter hvert vil bruke det i skolen, når de skal skrive nynorsk-stiler.

På grunn av dette har han møtt motstand fra uventet hold.

– Moren min er lærer, og hun er ikke særlig begeistret for dette, sier Unhammer, og forklarer lett leende at hun frykter for elevenes nynorskkunnskaper.

Frykter ikke for nynorskforståelse

Trosterud er imidlertid ganske trygg på at dette ikke vil torpedere for norske elevers nynorskforståelse. Tvert i mot.

– Programmer som dette vil alltid gjøre noen feil, og det er ikke feil som mennesker vil gjøre. Så hvis noen leverer inn maskinoversatt tekst uten å kunne nynorsk, vil det raskt vise seg. Dette programmet gjør det lettere fordi man slipper å slå opp hvert eneste ord, men man måfortsatt tenke selv, sier språkforskeren.

En stor utfordring

Unhammer forklarer hvorfor dette er så vanskelig å oversette, selv om målformene på norsk er svært like.

– Det er jo ikke slik at man kan oversette ord for ord. Ofte må man flytte om på ordene, og før det må man avklare tvetydigheter. Ganske mange ord i ordboka har flere meninger: Det samme ordet kan være et verb i én sammenheng og et substantiv i en annen, og så videre.

– Hvordan gjør du det da?

– Vi modifiserte et annet program som er laget for å avklare tvetydigheter , og tilpasset den til vårt prosjekt. Det handler om å se på ordene som står rundt, og bruke konteksten til å finne ut betydningen.

Fri programvare

Programvaren er under stadig utvikling, og alt gjøres fritt tilgjengelig på nettet som åpen kildekode. Det innebærer at alle kan bruke og jobbe videre på programmet, også dersom man ønsker å gjøre det kommersielt.

Kevin sier det er helt naturlig for ham å jobbe med åpen kildekode.

– For det første hadde jeg ikke kunnet lage dette programmet om ikke andre hadde frigitt sine programmer. Og så liker jeg at andre kan jobbe videre med det jeg har gjort, og at de kan bygge videre på det.

Et evig prosjekt

Snart ferdigsstilles en versjon av programmet, men det betyr ikke at jobben er fullført. Tvert i mot.

– Maskinoversettelse er en av de store, uløste oppgavene i IT. Det går an å flikke på dette i evig tid, sier Unhammer.

Unhammers program er en del av prosjektet Apertium, som er et rammeverk for oversetting mellom en rekke ulike språk .

Innholdet som skulle vises her støttes dessverre ikke lenger.