Riigi kodanike palk näitab midagi olulist riigi kohta: näiteks saab iga eestlane võrrelda, kas ta teenib teistest eestlastest rohkem või vähem. Uudistes, raportites ja igasugustes analüüsides räägitakse enamasti keskmisest palgast ja kuigi aritmeetiline keskmine on kõigile selge tõlgendusega arv, ütleb see palgajaotuse kohta väga vähe. Paljudes olukordades on keskmise palga vaatamine sama kasutu nagu ütlemine, et keskmisel inimesel on pool peenist ja üks rind.

Milline on siis Eesti palgajaotus? Guugeldades “eesti palgajaotus” on esimene tulemus palgajaotustest, mida tegin Bondora avalikke andmeid analüüsides. Delfi Ärileht on küll natuke kirjutanud keskmise ja mediaani erinevusest, aga täielikku jaotust ei suuda ma internetist leida. Sellepärast teen täna väga lühikese postituse Eesti palgajaotusega, et see oleks kuskil internetis olemas, ja jätan interpreteerimise mõneks teiseks korraks.

Siin ta on (2014. aasta andmetel):





[interaktiivne versioon]

Ja siin on sama graafik, kus mehed ja naised on lahku löödud — palgalõhe ühes pildis:

[interaktiivne versioon]

Andmed pärinevad Statistikaameti tabelitest PA621 ja PA629 ja näitavad täistööajaga töötajate brutopalka (s.t. sellest summast läheb veel tulumaks maha) 2014. aastal.

Graafiku iga joon — vastavalt siis naiste, meeste või kõigi kohta — näitab, kui suur osa grupist teenib vastavat palka . Näiteks: meeste joonel on andmepunkt (Palk=1600, Osakaal=0.81), mis tähendab, et 81% meestest teenivad 1600 eurot või vähem.

Muide, siin näitan kumulatiivset jaotust — intuitiivsem oleks tihedusgraafik, kus iga (näiteks) 50-eurose vahemiku jaoks näeme, kui palju inimesi teenivad selles vahemikus olevat palka. Kahjuks ei avalda Statistikaamet sellise graafiku tegemiseks piisavalt detailseid andmeid.

21.11.2016: Mitu inimest on viidanud, et samade andmete põhjal saab ka tihedusgraafiku teha. Olen täiesti nõus, et see on võimalik ja kaalusin selle lisamist, aga tal oleks üks väga suur probleem: kui tüüpiliselt oleks tihedusgraafikul iga palgavahemik võrdse suurusega (näiteks 0-100€, 100-200€ jne), siis siin olevate andmete põhjal saaks teha ainult eri suurusega palgavahemikega tihedusgraafiku. Praktikas tähendab see, et graafikut on palju raskem interpreteerida, sest y-teljele ei saa enam panna mitte lihtsalt inimeste arvu (nagu võrdsete tulbalaiuste korral), vaid y-teljel oleks inimeste tihedus ehk inimeste arv euro kohta — ja seda on palju raskem interpreteerida. Kuna ma ei suutnud leida head viisi, kuidas neid andmeid kasulikult ja samas mitteeksitavalt esitada, jätsin tihedusgraafiku tegemata. “Kahjuks ei avalda Statistikaamet sellise graafiku tegemiseks piisavalt detailseid andmeid” all mõtlesingi, et tahaksin konstantsetesse näiteks 100-eurostesse “palgaämbritesse” jaotatud arve.

Palgajaotuse mudeldamine

(Siit edasi loe ettevaatlikumalt, kuna näitan graafikuid mudeli, mitte otse andmete kohta.)

Õnneks ei tähenda see, et Statistikaamet põnevamaid andmeid endale hoiab, veel andmeteaduse lõppu. Võime ülal graafikutel näidatud kvantiilide põhjal hinnata palkade jaotusfunktsiooni — ja just selle jaoks on mõeldud R-i pakett rriskDistributions. Kui oletame, et jaotusfunktsioon on log-normaalne ja leiame selle jaoks parameetrid , saame järgmise pildi:

[interaktiivne versioon]

Või kumulatiivselt:

[interaktiivne versioon]

Mudeli täpsuse kontroll

Kui täpne see mudel on?

Esiteks saame kontrollida, kui hästi ennustab mudel keskmist palka. Naiste keskmine palk on 896€, mudel pakkus 878€ (viga -2%); meeste keskmine palk on 1192€, mudel pakkus 1177€ (viga -1.3%). Mõlemal juhul on on täpsus üsna hea.

Veel saame vaadata, kui hästi klapib ennustatud kumulatiivne jaotus tegeliku jaotusega:

[interaktiivne versioon]

[interaktiivne versioon]

Tundub, et jooned kattuvad päris hästi, seega mudel on hea? Jah, aga ainult 0-2000€ piirkonnas. Kõrgemapalgaliste arvu mudel alahindab, eriti naiste puhul. Meeste madalaimas otsas hindab mudel samas palku üle.

Natuke paremini on seda näha järgnevatelt graafikutelt, kus iga punkt näitab ühe kvantiili (näiteks 97% inimestest) asukohta tegelikkuses (horisontaaltelg) ja mudeli arvates (vertikaaltelg). Punane joon näitab ideaalset (täiesti täpset) mudelit.

[interaktiivne versioon]

[interaktiivne versioon]

Andmete analüüsiks ja visualiseerimiseks kasutatud R-i kood on kättesaadav GitHubis.

Jaga: