BLOGINI ON MUUTTANUT. TÄMÄ KIRJOITUS LÖYTYY NYKYISIN OSOITTEESTA:

http://mining4meaning.com/2014/08/25/rap_algoritmi/

(Päivitys 7.9.2014: Riimikertoimia voi nyt laskea itse osoitteessa raplysaattori.fi. Lähdekoodi saatavilla GitHubissa.)

(Päivitys 27.8.2014: Lisäsin joitain uusia artisteja riimikerroinvertailuun ja päivitin tekstiä sen mukaisesti. Aion julkaista lähiaikoina nettisivun, jossa voit laskea riimikertoimen haluamillesi sanoituksille. Lisäksi aion laittaa ohjelman lähdekoodin julkiseen jakoon. Jos haluat saada jatkossa tietoa näistä tai muista blogiini liittyvistä päivityksistä, käy tykkäämässä FB-sivustani.)

“Puolet räppäreist ei tajuu rimmaamisest mitään / ennen mikkiin päästämistä pitäis kirjalliset pitää”

Näin toteaa suomiräpin epäilemättä tämän hetken tunnetuin nimi, Cheek, kappaleessaan Kuka muu muka. Tässä kirjoituksessa kuvailen, miten tietokoneella voidaan löytää lyriikoissa esiintyviä riimejä automaattisesti ja tutkin, löytyykö edellä mainitulle Cheekin väitteelle katetta analysoimalla Suomen tunnetuimpien räppäreiden sanoituksia toteuttamallani tietokoneohjelmalla. Ohjelma laskee tunnistamiensa riimien pituuksia sekä arvioi artistin sanavaraston kokoa.

Riimittelyn ABC

Alkuun listaan muutamia säännönmukaisuuksia, joita olen vuosien kuuntelun saatossa havainnut rap-lyriikoissa. Räpissä riimin määritelmä on laveampi kuin esimerkiksi mitallisessa runoudessa; konsonanteilla ei ole juurikaan väliä, ja rimmaavat vokaalit voivat olla yhtä hyvin pitkiä tai lyhyitä. Näin ollen esimerkiksi sanat “ahkera” ja “laakea” muodostavat riimin.

Yksi keino, jolla räppäri voi näyttää taitonsa ja monesti myös saada biisinsä kuulostamaan paremmilta, on käyttää tuplariimejä, joissa ei rimmaa vain lainin viimeinen sana vaan kaksi viimeistä sanaa. Oppikirjaesimerkkinä tästä toimii kirjoituksen alun lainaus Cheekiltä, missä tuplariimin muodostaa sanapari “rimmaamisest mitään – kirjalliset pitää”. Tästä voi nousta vielä ns. nextille levelille muodostamalla multiriimejä, joissa useampi kuin kaksi viimeistä sanaa rimmaavat. Eikä rimmaavien sanojen tarvitse olla yksi yhteen, vaan yksi sana voi rimmata vaikkapa kahden lyhyen sanan kanssa (“ei saa – veisaa”).

Riimien automaattinen tunnistus

Seuraavaksi kuvaan Raplysaattoriksi nimeämäni ohjelman toimintaa. Jos et ole kiinnostunut teknisistä yksityiskohdista, voit hypätä suoraan seuraavaan lukuun.

Riimejä voidaan tunnistaa poistamalla lyriikoista ensin kaikki konsonantit ja tuplavokaalien jälkimmäinen vokaali ja sen jälkeen etsimällä tekstistä mahdollisimman pitkiä identtisiä vokaalijonoja. Tämän idean pohjalta toteutin ohjelman, joka toimii yleisellä tasolla seuraavalla tavalla:

Käy konsonanteista ja tuplavokaaleista siivottu teksti lävitse sana sanalta. Jokaisen sanan kohdalla etsi pisin yhtenevä vokaalijono edellisen kymmenen sanan joukosta (vertaa ensin sanojen viimeisiä vokaaleja, sitten toisiksi viimeisiä ja jatka tätä, sanarajoista välittämättä, niin kauan kunnes vastaan tulee ensimmäinen eriävä vokaali). Määritä kappaleen keskimääräinen riimin pituus (=riimikerroin) laskemalla keskiarvo kunkin sanan pisimmän riimin vokaalimäärästä.

Näiden vaiheiden lisäksi ohjelma tekee alkuun muutamia esikäsittelyoperaatioita tekstille, kuten siivoaa pois kaikki välimerkit. Lisäksi ohjelma huomioi riimeissä muutamia erityistapauksia, kuten sen, että riimin alku- ja loppuosa eivät voi päättyä samaan sanaan (esimerkiksi kertosäkeistössä toistetaan tavallisesti samaa lausetta monta kertaa, mutta näitä toistoja ei voida laskea riimeiksi).

Tyypillisesti suurin osa riimeistä sijoittuu lainien loppuun, mutta koska lainien rajojen tunnistaminen tekstistä automaattisesti on haastavaa, ohjelma laskee pisimmän riimin jokaiselle sanalle. Tästä syystä mukaan tulee varmasti laskettua joitakin vokaaleiltaan yhteneviä sanoja, joita artisti ei ole tarkoittanut riimeiksi, mikä lisää pientä kohinaa kappaleesta laskettuun riimikertoimeen. Kohinan vähentämiseksi ohjelma jättääkin huomiotta yhden vokaalin mittaiset riimit, koska tarkoitukselliset riimit ovat harvoin näin lyhyitä.

Suomen pisimmät riimit kirjoittaa…?

Artistin riimikertoimen laskemiseksi tein lisäksi toisen ohjelman, joka hakee automaattisesti halutun artistin kaikkien saatavilla olevien kappaleiden sanoitukset eräältä lyriikoita tarjoavalta sivustolta. Sen jälkeen laskin Raplysaattorilla artistin jokaisen kappaleen riimikertoimen (riimien keskimääräisen pituuden) ja otin näistä keskiarvon. Alla olevassa taulukossa on listattu tarkastelemani artistit sekä heidän keskimääräiset riimikertoimensa.

Sijoitus Artisti Riimikerroin 1. Skandaali 1.429 2. Altis 1.427 3. Huge L 1.224 4. Paleface 1.222 5. Cheek 1.193 6. Sere 1.110 7. Brädi 1.060 8. Asa 0.995 9. Jodarok 0.986 10. Aste 0.973 11. Heikki Kuula 0.970 12. Sini Sabotage 0.961 13. Tuomas Kauhanen 0.957 14. JVG 0.937 15. Juju 0.923 16. Are 0.919 17. Mikael Gabriel 0.904 18. Pyhimys 0.891 19. Steen1 0.874 20. Stig 0.874 21. Uniikki 0.869 22. Stepa 0.863 23. Raptori 0.861 24. Timo Pieni Huijaus 0.853 25. Spekti 0.843 26. Juno 0.840 27. Elastinen 0.839 28. Stepa 0.835 29. Juice Leskinen 0.817 30. Lavis 0.817 31. Iso H 0.813 32. Tuuttimörkö 0.806 33. Jukka Poika 0.797 34. Petri Nygård 0.786 35. Ruudolf 0.751

Tuloksista nähdään, että viiden kärki erottuu selkeästi muista artisteista. Cheekin riimikerroin 1.2 on samaa luokkaa kuin Palefacen (vain suomenkieliset kappaleet huomioitu) ja Huge L:n kertoimet, mutta näistä vielä selvästi ylempänä löytyvät Skandaali ja Altis 1.4:n riimikertoimilla. Näistä artisteista ainakaan Huge L ja Altis eivät liene vielä noussut suuren yleisön tietoisuuteen ja Skandaalinkin toistaiseksi ainoat albumit on julkaistu jo vuosina 2003 sekä 2004. Toisaalta myös listan häntäpäästä löytyy yllätyksiä kuten se, että aivan Suomen tunnetuimpien räppärien joukkoon lukeutuva Elastinen on vasta sijalla 27.

Alle olen listannut muutamia Raplysaattorin löytämiä riimejä neljältä kärkiartistilta (rimmaava osuus lihavoitu):

Skandaali – Sun Muijas: “Sama mitä tuut tekemään, se pitää must enemmän / en sitä tuu menettää, se pistää sut menemään“ (riimin pituus 13 vokaalia)

Altis – Riivaaja: “Meen varaa huoneen saan samal vuoteen / ku voin ajaa huomen taas takas suomeen“ (riimin pituus 11 vokaalia)

Huge L – Eino-Leevi: “Vois kerran päiväs punnertaa, sen verran verbaalil tasol taas / ku alan sanottaa, teen herra kenraalist alokkaan“ (riimin pituus 10 vokaalia)

Paleface – Riisto Räppääjä: “Vihollisten erona on kokardien soikeus / oman käden oikeuskin on totaalinen poikkeus“ (riimin pituus 9 vokaalia)

Cheek – Jare Henrik Tiihonen: “Nöyrästi loskas Jarena kohti kevättä tarvon / kunnes illal stagella rotsi levällään taas on“ (riimin pituus 11 vokaalia)

Vähätteleekö Cheek taitojaan?

Elina Westinen on tutkinut väitöskirjatyössään kolmea suomalaista rap-artistia: Cheekiä, Pyhimystä ja Stepaa. Eräässä Westisen tekemässä haastattelussa Cheek kommentoi kollegoidensa kykyjä seuraavanlaisesti (Westinen 2014, 273):

“Pyhimyshän on niinku hyvä ja […] mut Stepa ni ei osaa mitää […] mä voisin verrata sitä niinku semmoseen just mitä ite teki joku kymmenen vuot sitte”.

Cheekin väite Stepan taidoista tai niiden puutteesta kuulostaa äkkiseltään hyvin ylimieliseltä. Riimikerroinvertailun perusteella sille löytyy kuitenkin näyttöä: Stepa sijoittuu riimikerroinvertailussa kolmanneksi viimeiseksi (sijalle 21.), kun taas Cheek itse on 4. sijalla. Mielenkiintoinen havainto on se, että Cheekin jo vuonna 2004 julkaistun albumin Avaimet Mun Kulmille riimikerroin on 1.25, joka on suurempi kuin hänen uusimman Kuka muu muka -nimisen levynsä riimikerroin 1.15. Tämän valossa Cheekin rinnastus Stepan taitojen ja hänen omien kymmenen vuoden takaisten kykyjensä välillä näyttäytyykin yllättäen vaatimattomana! Toisaalta voidaan kysyä, ovatko Cheekin omat lyyriset taidot kehittyneet ollenkaan viimeisten kymmenen vuoden aikana.

“Sanavarasto rajaton, taatusti voittamaton”

Rimmaavuuden lisäksi halusin tutkia myös sanoitusten sisältöä. Tämän mittaamiseksi laskin räppäreille seuraavan luvun: kuinka monta eri eli uniikkia sanaa esiintyy artistin kirjoittamien viimeisten 9000 sanan joukossa. Tämä mittari kuvaa sitä, kuinka suuri sanavarasto artistilla on käytössään. Vastaavaa menetelmää on aiemmin sovellettu englanninkielisille rap-sanoituksille.

Yhdeksäntuhatta sanaa vastaa noin kahta suomenkielistä albumia. Ne artistit, joiden sanoituksia ei löytynyt riittävästi, jätettiin analyysin ulkopuolelle. Sanojen eri taivutusmuodot on laskettu omiksi sanoikseen, koska slangikielisten sanojen perusmuotoja on haastavaa selvittää koneellisesti. Alla olevasta kuvasta löytyvät neljäntoista suomalaisen artistin uniikkien sanojen määrät sekä riimikertoimet. Kuvasta nähdään, että suurimmalla osalla artisteista uniikkien sanojen määrä on 3500-4500 sanan välillä, mutta joukosta erottuu kuitenkin yksi artisti, Asa, jolla uniikkeja sanoja on peräti 5607. Uskon, että yhtenä selityksenä tälle on se, että Asalla sanoitusten aihepiirit eivät rajoitu pelkästään esimerkiksi naisiin ja autoihin.

Huomaa, että kuvassa näkyvät lukemat eivät kuvaa suoraan artistin sanavaraston absoluuttista kokoa, sillä esimerkiksi autost ja autoon lasketaan erillisiksi sanoiksi. Eri artistien uniikkien sanojen määriä vertailemalla voidaan kuitenkin selvittää, miten artistien sanavarastojen koot suhteutuvat toisiinsa, sillä kaikilla voitaneen olettaa esiintyvän sanojen taivutusmuotoja samassa suhteessa. Kokonaisuudessaan ne artistit, jotka pääsevät lähimmäksi kuvaajan oikeaa yläkulmaa, ovat näillä kahdella mittarilla mitattuna verbaalisesti taitavimpia. Yläkulmassa ammottava tyhjä aukko antaa ymmärtää, että Suomen rap-skenessä olisi vielä tilaa sellaiselle artistille, joka yhdistäisi Asan monipuolisuuden ja Skandaalin riimittelytaidot!

Lopuksi

Räppäreitä vertaillaan usein sen perusteella, kenellä on paras flow. Flowlle ei liene olemassa tarkkaa määritelmää, mutta uskon, että riimikerroin eli käytettyjen riimien pituus muodostaa siitä yhden osan. Tekijöitä on kuitenkin varmasti monia muitakin. Flown voisi sanoa kuvastavan sitä, kuinka helpolta artistin räppääminen kuulostaa ja miten sanojen rytmitys istuu yhteen taustalla soivan biitin kanssa. Omasta mielestäni esimerkiksi Ruudolfilla, joka jää riimikerroinvertailussa viimeiseksi, on parempi flow kuin monilla muilla listalta löytyvistä artisteista. Jatkotutkimuksen aiheeksi jääkin selvittää, millä muilla mittareilla artistin flowta voisi mitata.

P.S. Jos tämän kirjoituksen sattuu lukemaan joku, jolla on syvempää näkemystä rap-sanoitusten tekemisestä, kuulisin mielelläni ideoitasi!

Lähteet:

Westinen, Elina. The discursive construction of authenticity: resources, scales and polycentricity in Finnish hip hop culture. PhD thesis, University of Jyväskylä, 2014.