Avainsana-arkisto: Boxplot

Ruutu- ja janakaavio

Päivitetty 2.2.2019

Ruutu- ja janakaavio

Viiden luvun yhteenvedon voin havainnollistaa ruutu- ja janakaavion avulla. Ruutu- ja janakaaviolla on monta nimeä: laatikko- ja viiksikaavio, laatikko- ja viivakaavio, box & whisker -kaavio, boxplot.

Ruutu- ja janakaavion rakenneosat ovat ruutu ja ruudun päistä lähtevät janat:

  • Ruudun alareuna vastaa alaneljännestä ja yläreuna yläneljännestä. Ruudun sisään piirretty viiva vastaa mediaania ja rasti keskiarvoa.
  • Janojen päät vastaavat pienintä ja suurinta. Jos datassa on niin kutsuttuja poikkeavia arvoja, niin ne esitetään janan ulkopuolisina pisteintä. Poikkeavaksi arvoksi lasketaan arvo, joka on yli 1,5 laatikon korkeuden päässä laatikon reunasta.

Seuraavassa esitän neljän rahastoluokan tuottojen jakaumaa heinäkuussa 2015 (Lähde: Sijoitustutkimus, n vaihtelee välillä 32-58).

tunnuslukuja5

Kaikkein pienimmät tuotot ovat kehittyville markkinoille sijoittavissa rahastoissa ja suurimmat Pohjois-Amerikkaan sijoittavissa rahastoissa. Tuotot ovat vaihdelleet eniten Pohjois-Amerkikkaan sijoittavissa rahastoissa. Eurooppaan sijoittavissa rahastoissa tuotoissa ei ole paljoa vaihtelua, mutta huomiota kiinnittää muutama poikkeavan tuoton omaava rahasto sekä ylä- että alapäässä.

Ruutu- ja janakaavio voi epäonnistua, jos et huomioi seuraavia vinkkejä:

VINKKI 1: Jos ryhmittelevän muuttujan arvot ovat datassa numeroita (esimerkiksi 1=mies ja 2=nainen), niin data pitää lajitella (järjestää) ryhmittelevän muuttujan mukaan kaavion onnistumiseksi.

VINKKI 2: Jos ryhmittelevän muuttujan arvot ovat datassa numeroita (esimerkiksi 1=mies ja 2=nainen), niin en valitse ryhmittelevän muuttujan arvoja ennen kaaviolajin valitsemista, vaan teen kaavion aluksi vain muuttujalle, jolle lasken viiden luvun yhteenvedon. Tämän jälkeen valitsen kaavionmuokkaustyökalujen Design (Rakenne) -välilehdeltä Select Data (Valitse tiedot). Select Data -toiminnolla pääsen lisäämään sukupuolet luokka-akselin otsikoiksi (Category Axis Labels).

VINKKI 3: Jos ryhmittelevän muuttujan arvot ovat datassa tarkasteltavan muuttujan oikealla puolella, niin en valitse ryhmittelevän muuttujan arvoja ennen kaaviolajin valitsemista, vaan teen kaavion aluksi vain muuttujalle, jolle lasken viiden luvun yhteenvedon. Tämän jälkeen valitsen kaavionmuokkaustyökalujen Design (Rakenne) -välilehdeltä Select Data (Valitse tiedot). Select Data -toiminnolla pääsen lisäämään ryhmittelevän muuttujan arvot luokka-akselin otsikoiksi (Category Axis Labels).

Lisätietoa

Tämän oppii vain tekemällä itse. Harjoittele työkirjalla tunnuslukuja.xlsx.

SPSS: Explore

Päivitetty 25.9.2020

Keskiarvoja koskevassa testauksessa oletetaan, että otoskeskiarvot ovat normaalijakautuneet. Jos otoskoko on vähintään 30, niin asiaa ei tarvitse erikseen testata. Pienillä otoksilla normaalijakautuneisuus kannattaa testata SPSS:n Exlore-toiminnolla. Itse asiassa tällöin testataan muuttujan normaalijakautuneisuus, joka takaa myös otoskeskiarvojen normaalijakautuneisuuden pienilläkin otoksilla. Explore-toiminto on muutenkin hyödyllinen määrällisen muuttujan tarkastelussa, koska samalla saadaan keskiarvon luottamusväli, histogrammi ja ruutu- ja janakaavio (boxplot).

Seuraavassa käytän esimerkkinä valmiiksi SPSS-muotoista dataa reaktioajat.sav.

  • Valitsen Analyze – Descriptive Statistics – Explore
  • Siirrän ryhmittelevät muuttujat Factor List -ruutuun (esimerkissäni Alkoholi).
  • Siirrän muuttujat, joita haluan tarkastella Dependent List -ruutuun (esimerkissäni Reaktioaika)
  • Napsautan Plots-painiketta
  • Valitsen oletusvalintojen lisäksi Histogram ja Normality plots with tests
  • Pääsen pois Plots-ikkunasta Continue-painikkeella
  • Valitsen OK.

Tuloksena saat muiden muassa Descriptives-taulukon, johon on laskettu keskeisiä tunnuslukuja sekä keskiarvon luottamusväli (95 % Confidence Interval for Mean). Descriptives-taulukon alapuolella on Tests of Normality -taulukko.

Kolmogorov-Smirnov -testi ja Shapiro-Wilk -testi testaavat normaalijakautuneisuutta. Nollahypoteesina on molemmissa ”Muuttuja noudattaa normaalijakaumaa”. Testien p-arvot löytyvät taulukon Sig. -sarakkeista. Molempien ryhmien (Ei-alkoholia ja Alkoholia) kohdalla nollahypoteesi jää voimaan, koska p-arvot ovat suurempia kuin 0,05. Jos Kolmogorov-Smirnov -testi ja Shapiro-Wilk -testi johtavat erilaisiin päätelmiin, niin minä olisin taipuvainen käyttämään testejä, joissa ei tarvitse olettaa normaalijakautuneisuutta.

SPSS tulostaa muuttujan jakaumia esittävät histogrammit sekä useita normaalijakautuneisuuden arviointiin tarkoitettuja kuvioita. Erityisen havainnollinen on ruutu- ja janakaavio (boxplot).

Ruutu- ja janakaavion ruudun alareuna vastaa alaneljännestä ja yläreuna yläneljännestä. Ruudun sisällä oleva vaakaviiva vastaa mediaania. Janojen päissä olevat vaakaviivat kuvaavat pienintä ja suurinta arvoa. Jos muuttujalla on arvoja, jotka sijaitsevat yli 1,5 ruudun korkeuden verran ruudun yläpuolella tai alapuolella, niin ne esitetään omina pisteinään (tällöin janojen päissä olevat vaakaviivat eivät tietenkään kuvaa pienintä ja suurinta arvoa). Yli 1,5 ruudun korkeuden verran ruudun yläpuolella tai alapuolella olevia havaintoja kutsutaan poikkeaviksi (outlier). Poikkeavien havaintojen vieressä on havainnon rivinumero datassa.

Tunnuslukuja

Päivitetty 21.4.2019.

Määrällisten muuttujien tapauksessa ei kannata pihtailla tunnuslukujen kanssa. Määrälliselle muuttujalla kannattaa laskea ainakin

  • keskiarvo ja keskihajonta
  • viiden luvun yhteenveto (pienin, alaneljännes eli alakvartiili, mediaani, yläneljännes eli yläkvartiili, suurin)
  • havaintojen lukumäärä (n).

Keskiarvo ja mediaani

Keskiarvo (arvojen summa jaettuna arvojen lukumäärällä) ja mediaani (suuruusjärjestykseen järjestettyjen arvojen keskimmäinen tai kahden keskimmäisen keskiarvo) pyrkivät mittaamaan jakauman keskikohtaa. Jos keskiarvo ja mediaani ovat lähellä toisiaan, niin tämä viittaa jakauman symmetrisyyteen. Muista arvoista selvästi poikkeavat arvot vaikuttavat voimakkaasti keskiarvoon:

  • Jos keskiarvo on mediaania suurempi, niin tämä viittaa oikealle vinoon jakaumaan.
  • Jos keskiarvo on mediaania pienempi, niin tämä viittaa vasemmalle vinoon jakaumaan.

Poikkeavista arvoista ja niihin suhtautumisesta voit lukea lisää artikkelista Poikkeavat arvot.

Jos keskiarvo ja mediaani poikkeavat selvästi toisistaan, niin mediaani on yleensä paremmin jakauman keskikohtaa kuvaava luku.

Keskihajonta

Keskihajonta pyrkii mittaamaan arvojen vaihtelua keskiarvon molemmin puolin. Keskihajonta ilmaisee havaintojen keskimääräisen poikkeaman keskiarvosta. Pelkästään keskihajonnan lukuarvon perusteella on vaikeaa muodostaa mielikuvaa arvojen vaihtelusta. Keskihajonta on kuitenkin tilastollisessa mielessä tärkeä tunnusluku, jota käytetään muun muassa keskiarvon virhemarginaalin laskemiseen.

Viiden luvun yhteenveto

Viiden luvun yhteenveto antaa hyvän kuvan arvojen vaihtelusta. Viiden luvun yhteenvedon avulla arvojen vaihteluväli pienimmästä suurimpaan jaetaan neljään osaan:

  • pienimmän ja alanejänneksen välinen osa sisältää 25 % arvoista
  • alaneljänneksen ja mediaanin välinen osa sisältää 25 % arvoista
  • mediaanin ja yläneljänneksen välinen osa sisältää 25 % arvoista
  • yläneljänneksen ja suurimman välinen osa sisältää 25 % arvoista.

Laskenta Excelin funktioilla

Voin laskea tunnuslukuja datan yläpuolelle, alapuolelle, viereen, toiseen taulukkoon  tai jopa  toiseen työkirjaan. Minulla on tapana laskea tunnuslukuja datan yläpuolelle. Tätä varten lisään datan yläpuolelle riittävän määrän tyhjiä rivejä (yhden enemmän kuin laskettavia tunnuslukuja, jotta tunnuslukujen ja datan väliin jää tyhjä rivi). Jollen tarvitse ensimmäiseen sarakkeeseen tunnuslukuja, niin kirjoitan siihen itseäni varten laskettavien tunnuslukujen nimet (keskiarvo, keskihajonta jne.). Tunnuslukujen laskennan suoritan Excelin funktioilla:

  • =AVERAGE(alue) (KESKIARVO)
  • =STDEV.S(alue) (KESKIHAJONTA.S)
  • =MIN(alue) (MIN)
  • =PERCENTILE.EXC(alue;25 %) (PROSENTTIPISTE.ULK)
  • =MEDIAN(alue) (MEDIAANI)
  • =PERCENTILE.EXC(alue;75 %) (PROSENTTIPISTE.ULK)
  • =MAX(alue) (MAKS)
  • =COUNT(alue) (LASKE)

Funktioiden vaatima lähtötieto ’alue’ on viittaus arvoihin, joista tunnusluku lasketaan. Alaneljännes ja yläneljännes lasketaan samalla funktiolla PERCENTILE.EXC, jolle pitää ylimääräisenä lähtötietona antaa 25 % (alaneljännes) tai 75 % (yläneljännes). Huomaa, että lähtötietojen väliin kirjoitetaan puolipiste.

Vanhempien Excel-versioiden käyttäjille: Excel 2010:een tuli joitain uudistuksia funktioihin. Excel 2007 ja sitä vanhemmissa käytetään STDEV.S sijasta funktiota STDEV (KESKIHAJONTA) ja PERCENTILE.EXC sijasta funktiota PERCENTILE (PROSENTTIPISTE). PERCENTILE.EXC saattaa antaa hieman PERCENTILE-funktiosta poikkeavan tuloksen, mutta erolla ei yleensä ole käytännön merkitystä (lisätietoa). Vanhat funkiot toimivat edelleen uudemmissa versioissa.

Seuraavassa olen lisännyt 9 tyhjää riviä datan data1.xlsx yläpuolelle. Esimerkiksi keskiarvon olen laskenut funktiolla =AVERAGE(B11:B92) ja alaneljänneksen funktiolla =PERCENTILE.EXC(B11:B92;25 %). Sarakkeeseen B laskemani funktiot olen kopioinut muihin sarakkeisiin: Valitsin solut B1:B8, tartuin hiirellä kiinni valittujen solujen oikean alakulman neliöstä ja vedin oikealle.

Kuvaamallani menettelyllä tulen laskeneeksi tarpeettomiakin tunnuslukuja. Esimerkiksi sukupuolelle ainoastaan vastausten lukumäärä (n) on käyttökelpoinen tunnusluku. Tarpeettomia tunnuslukuja en tietenkään raportoi.

Raportointia varten tunnuslukuja kannattaa kopioida uuteen taulukkoon. Liittäminen täytyy tehdä arvoina käyttäen Paste Values (Liitä arvot) -toimintoa. Desimaalien määrä täytyy säätää tilanteeseen sopivaksi. Esimerkiksi palkkaan liittyvät tunnusluvut voin esittää seuraavasti:

Taulukosta näen keskiarvoa ja mediaania vertaamalla, että aineistossa on joitain erityisen suuria palkkoja. Tämä käsitys vahvistuu, kun katson suurinta arvoa. Viiden luvun yhteenveto antaa hyvän mielikuvan siitä miten palkat ovat jakaantuneet. Voin esimerkiksi todeta, että puolella työntekijöistä palkka on välillä 2027 euroa – 2817 euroa.

Tunnuslukuja ryhmittäin

Jos haluan vertailla miesten ja naisten palkkajakaumaa, niin lasken palkan tunnuslukuja sukupuolen määräämissä ryhmissä. Voin tehdä tämän esimerkiksi seuraavasti:

  • Lasken tunnusluvut koko aineistolle.
  • Lajittelen (järjestän) aineiston ryhmittelevän muuttujan (esimerkiksi sukupuoli) mukaan.
  • Teen aineistosta kopioita (pidän  ctrl-näppäintä alhaalla ja raahan alareunan taulukonvalitsinta hieman oikealle).
  • Poistan kopioista ne rivit, jotka eivät kuulu haluamaani osa-aineistoon.
  • Osa-aineiston tunnusluvut voin kopioida uuteen taulukkoon vierekkäin, jolloin vertailu käy mahdolliseksi.

Toinen mahdollisuus on käyttää AGGREGATE (KOOSTE) -funktiota yhdessä aineiston suodatuksen kanssa.

 Aggregate-funktio

Voin laskea tunnusluvut siten, että tunnusluvun arvo vaihtuu aineiston suodatuksen (Filter) mukana. Jos suodatus ei ole sinulle tuttua, niin lue artikkeli Excel Table (Taulukko). Laskennan toteutan käärimällä tunnuslukufunktion AGGREGATE (KOOSTE) -funktion sisään.

  • Aloitan funktion rakentamisen kirjoittamalla suoraan tyhjään soluun funktion nimen alkua =AG, jonka jälkeen Excel jo ehdottaakin AGGREGATE-funktiota. Jos hyväksyn Excelin ehdotuksen tab/sarkain-näppäimellä, niin Excel täydentää funktion nimen ja lisää sulkumerkin =AGGREGATE(.
  • Sulkumerkin jälkeen Excel tarjoaa luetteloa tilastollisia tunnuslukuja laskevista funktioista. Valitsen luettelosta haluamani funktion. Voin liikkua luettelossa nuolilla ja valita tab/sarkain-näppäimellä tai hiiren kaksoisnapsauksella.
  • Seuraavaksi kirjoitan lähtötietojen väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen Excel tarjoaa monenlaisia oudonnäköisiä vaihtoehtoja, joista valitsen vaihtoehdon 5 (Ignore hidden rows), jonka ansiosta funktio reagoi suodatuksiin.
  • Seuraavaksi kirjoitan lähtötietojen väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen näytän hiirellä ne arvot, joista lasken tunnuslukua.
  • Jos en ole laskemassa ala- tai yläneljännestä, niin kirjoitan sulkumerkin ) ja napsautan enter-painiketta. Jos olen laskemassa ala- tai yläneljännestä, niin kirjoitan puolipisteen ; ja viimeiseksi argumentiksi 25 % (alaneljännes) tai 75 % (yläneljännes).

Voin tämän jälkeen todeta, miten funktion tulos vaihtuu suodatusten mukana. Voin helposti esimerkiksi suodattaa näkyville miehet ja kopioida miesten tunnusluvut jonnekin. Tämän jälkeen voin suodattaa näkyville naiset ja kopioida naisten tunnusluvut miesten tunnuslukujen viereen. Muistan tietysti käyttää liittämiseen Paste Values (Liitä arvot) -toimintoa.

Pienin palkka näyttää olevan miehellä. Miesten ja naisten alaneljännekset eivät poikkea paljoa toisistaan. Mediaani ja yläneljännes ovat miehillä selvästi suuremmat. Naisten joukossa ei ole suuripalkkaisia lainkaan.

Graafinen esittäminen

Graafiseen esittämiseen ruutu- ja janakaavio on erinomainen valinta. Ruutu- ja janakaavio havainnollistaa viiden luvun yhteenvedon.

Seuraavaksi

Katso Excel-esimerkkejä tunnuslukuja.xlsx.

Otoskesta lasketut tunnusluvut kuvailevat lähtökohtaisesti otosta. Jos otoksesta laskettuja tunnuslukuja yleistetään laajempaan perusjoukkoon, niin yleistämiseen liittyy otantavirheen aiheuttamaa epävarmuutta. Keskiarvon kohdalla epävarmuuden suuruus voidaan ilmaista virhemarginaalin avulla. Tästä enemmän artikkelissa Keskiarvon virhemarginaali.