Avainsana-arkisto: Boxplot

Ruutu- ja janakaavio

Päivitetty 9.12.2016

Viiden luvun yhteenveto (pienin, alaneljännes, mediaani, yläneljännes, suurin) kuvailee hyvin määrällisen muuttujan arvojen jakaumaa. Viiden luvun yhteenvetoa voin havainnollistaa ruutu- ja janakaavion avulla. Ruutu- ja janakaaviota kutsutaan myös laatikko-ja viiksikaavioksi, laatikko- ja viivakaavioksi, box & whisker -kaavioksi ja boxplotiksi.

Ruutu- ja janakaavion voin esittää vaakaasennossa tai pystyasennossa. Ruutu- ja janakaavion rakenneosat ovat ruutu ja ruudun päissä olevat janat:

  • Ruudun vasen reuna/alareuna vastaa alaneljännestä ja oikea reuna/yläreuna yläneljännestä. Alaneljänneksen ja yläneljänneksen määritelmästä seuraa, että 25 % havainnoista jää alaneljänneksen alapuolelle ja 25 % yläneljänneksen yläpuolelle. Ruudun sisään piirretty viiva vastaa mediaania. Alaneljänneksen ja mediaanin väliin jää 25 % havainnoista; mediaanin ja yläneljänneksen väliin 25 % havainnoista.
  • Janojen päät vastaavat pienintä ja suurinta.

laatikkokaavio

Viiden luvun yhteenveto pilkkoo havaintoalueen neljään neljännekseen. Ruutu- ja janakaavio tuo tämän havainnollisesti esiin.

Excel 2016 sisältää uutuutena ruutu- ja janakaaviolajin. Vanhoissa Excelin versioissa ei ole valmiina ruutu- ja janakaaviolajia, mutta pienellä kikkailulla voin laatia ruutu- ja janakaavion. Esimerkiksi seuraavan ruutu- ja janakaavion olen laatinut Excelillä.

laatikkokaavio3

Esimerkkikaaviosta näen yhdellä silmäyksellä, että osaston 1 palkat ovat suurimmat, osaston 3 palkat pienimmät ja eniten vaihtelua on osaston 2 palkoissa.

Ohjeet ja esimerkit ruutu- ja janakaavion laadintaan Excelillä löydät tiedostosta kaavio2.xlsx. Excel 2016 sisältää ruutu- ja janakaavion omana kaaviolajinaan; katso kaavio1.xlsx.

Mainokset

SPSS: Explore

Päivitetty 29.11.2015

Keskiarvoja koskevassa testauksessa oletetaan, että otoskeskiarvot ovat normaalijakautuneet. Jos otoskoko on vähintään 30, niin asiaa ei tarvitse erikseen testata. Pienillä otoksilla normaalijakautuneisuus kannattaa testata SPSS:n Exlore-toiminnolla. Itse asiassa tällöin testataan muuttujan normaalijakautuneisuus, joka takaa myös otoskeskiarvojen normaalijakautuneisuuden pienilläkin otoksilla. Explore-toiminto on muutenkin hyödyllinen määrällisen muuttujan tarkastelussa, koska samalla saadaan keskiarvon luottamusväli, histogrammi ja ruutu- ja janakaavio (boxplot).

Seuraavassa käytän esimerkkinä valmiiksi SPSS-muotoista aineistoa reaktioajat.sav.

  • Valitsen Analyze – Descriptive Statistics – Explore
  • Siirrän ryhmittelevät muuttujat Factor List -ruutuun (esimerkissäni Alkoholi).
  • Siirrän muuttujat, joita haluan tarkastella Dependent List -ruutuun (esimerkissäni Reaktioaika)
  • Napsautan Plots-painiketta
  • Valitsen oletusvalintojen lisäksi Histogram ja Normality plots with tests
  • Pääsen pois Plots-ikkunasta Continue-painikkeella
  • Valitsen OK.

Tuloksena saat muiden muassa Descriptives-taulukon, johon on laskettu keskeisiä tunnuslukuja sekä keskiarvon luottamusväli (95 % Confidence Interval for Mean). Descriptives-taulukon alapuolella on Tests of Normality -taulukko.

Kolmogorov-Smirnov -testi ja Shapiro-Wilk -testi testaavat normaalijakautuneisuutta. Nollahypoteesina on molemmissa ”Muuttuja noudattaa normaalijakaumaa”. Testien p-arvot löytyvät taulukon Sig. -sarakkeista. Molempien ryhmien (Ei-alkoholia ja Alkoholia) kohdalla nollahypoteesi jää voimaan, koska p-arvot ovat suurempia kuin 0,05. Jos Kolmogorov-Smirnov -testi ja Shapiro-Wilk -testi johtavat erilaisiin päätelmiin, niin minä olisin taipuvainen käyttämään testejä, joissa ei tarvitse olettaa normaalijakautuneisuutta.

SPSS tulostaa muuttujan jakaumia esittävät histogrammit sekä useita normaalijakautuneisuuden arviointiin tarkoitettuja kuvioita. Erityisen havainnollinen on ruutu- ja janakaavio (boxplot).

Ruutu- ja janakaavion ruudun alareuna vastaa alaneljännestä ja yläreuna yläneljännestä. Ruudun sisällä oleva vaakaviiva vastaa mediaania. Janojen päissä olevat vaakaviivat kuvaavat pienintä ja suurinta arvoa. Jos muuttujalla on arvoja, jotka sijaitsevat yli 1,5 ruudun korkeuden verran ruudun yläpuolella tai alapuolella, niin ne esitetään omina pisteinään (tällöin janojen päissä olevat vaakaviivat eivät tietenkään kuvaa pienintä ja suurinta arvoa). Yli 1,5 ruudun korkeuden verran ruudun yläpuolella tai alapuolella olevia havaintoja kutsutaan poikkeaviksi (outlier). Poikkeavien havaintojen vieressä on havainnon rivinumero aineistossa.

8 Tunnuslukuja

Päivitetty 4.9.2017

Määrällisten muuttujien tapauksessa ei kannata pihtailla tunnuslukujen kanssa. Määrälliselle muuttujalla kannattaa laskea ainakin

  • keskiarvo ja keskihajonta
  • viiden luvun yhteenveto (pienin, alaneljännes eli alakvartiili, mediaani, yläneljännes eli yläkvartiili, suurin)
  • havaintojen lukumäärä (n).

Keskiarvo ja mediaani

Keskiarvo (arvojen summa jaettuna arvojen lukumäärällä) ja mediaani (suuruusjärjestykseen järjestettyjen arvojen keskimmäinen tai kahden keskimmäisen keskiarvo) pyrkivät mittaamaan jakauman keskikohtaa. Jos keskiarvo ja mediaani ovat lähellä toisiaan, niin tämä viittaa jakauman symmetrisyyteen. Muista arvoista selvästi poikkeavat arvot vaikuttavat voimakkaasti keskiarvoon:

  • Jos keskiarvo on mediaania suurempi, niin tämä viittaa oikealle vinoon jakaumaan.
  • Jos keskiarvo on mediaania pienempi, niin tämä viittaa vasemmalle vinoon jakaumaan.

Poikkeavista arvoista ja niihin suhtautumisesta voit lukea lisää artikkelista Poikkeavat arvot.

Jos keskiarvo ja mediaani poikkeavat selvästi toisistaan, niin mediaani on yleensä paremmin jakauman keskikohtaa kuvaava luku.

Keskihajonta

Keskihajonta pyrkii mittaamaan arvojen vaihtelua keskiarvon molemmin puolin. Keskihajonta ilmaisee havaintojen keskimääräisen poikkeaman keskiarvosta. Pelkästään keskihajonnan lukuarvon perusteella on vaikeaa muodostaa mielikuvaa arvojen vaihtelusta. Keskihajonta on kuitenkin tilastollisessa mielessä tärkeä tunnusluku, jota käytetään muun muassa keskiarvon virhemarginaalin laskemiseen.

Viiden luvun yhteenveto

Viiden luvun yhteenveto antaa hyvän kuvan arvojen vaihtelusta. Viiden luvun yhteenvedon avulla arvojen vaihteluväli pienimmästä suurimpaan jaetaan neljään osaan:

  • pienimmän ja alanejänneksen välinen osa sisältää 25 % arvoista
  • alaneljänneksen ja mediaanin välinen osa sisältää 25 % arvoista
  • mediaanin ja yläneljänneksen välinen osa sisältää 25 % arvoista
  • yläneljänneksen ja suurimman välinen osa sisältää 25 % arvoista.

Laskenta Excelin funktioilla

Voin laskea tilastoaineiston tunnuslukuja aineiston yläpuolelle, alapuolelle, viereen, toiseen taulukkoon  tai jopa  toiseen työkirjaan. Minulla on tapana laskea tunnuslukuja aineiston yläpuolelle. Tätä varten lisään aineiston yläpuolelle riittävän määrän tyhjiä rivejä (yhden enemmän kuin laskettavia tunnuslukuja, jotta tunnuslukujen ja aineiston väliin jää tyhjä rivi). Jollen tarvitse ensimmäiseen sarakkeeseen tunnuslukuja, niin kirjoitan siihen itseäni varten laskettavien tunnuslukujen nimet (keskiarvo, keskihajonta jne.). Tunnuslukujen laskennan suoritan Excelin funktioilla:

  • =AVERAGE(alue) (KESKIARVO)
  • =STDEV.S(alue) (KESKIHAJONTA.S)
  • =MIN(alue) (MIN)
  • =PERCENTILE.EXC(alue;25 %) (PROSENTTIPISTE.ULK)
  • =MEDIAN(alue) (MEDIAANI)
  • =PERCENTILE.EXC(alue;75 %) (PROSENTTIPISTE.ULK)
  • =MAX(alue) (MAKS)
  • =COUNT(alue) (LASKE)

Funktioiden vaatima argumentti ’alue’ on viittaus arvoihin, joista tunnusluku lasketaan. Alaneljännes ja yläneljännes lasketaan samalla funktiolla PERCENTILE.EXC, jolle pitää lisäargumenttina antaa 25 % (alaneljännes) tai 75 % (yläneljännes). Huomaa, että argumenttien väliin kirjoitetaan puolipiste.

Vanhempien Excel-versioiden käyttäjille: Excel 2010:een tuli joitain uudistuksia funktioihin. Excel 2007 ja sitä vanhemmissa käytetään STDEV.S sijasta funktiota STDEV (KESKIHAJONTA) ja PERCENTILE.EXC sijasta funktiota PERCENTILE (PROSENTTIPISTE). PERCENTILE.EXC saattaa antaa hieman PERCENTILE-funktiosta poikkeavan tuloksen, mutta erolla ei yleensä ole käytännön merkitystä (lisätietoa). Vanhat funkiot toimivat edelleen uudemmissa versioissa.

Seuraavassa olen lisännyt 9 tyhjää riviä aineiston data1.xlsx yläpuolelle. Esimerkiksi keskiarvon olen laskenut funktiolla =AVERAGE(B11:B92) ja alaneljänneksen funktiolla =PERCENTILE.EXC(B11:B92;25 %). Sarakkeeseen B laskemani funktiot olen kopioinut muihin sarakkeisiin: Valitsin solut B1:B8, tartuin hiirellä kiinni valittujen solujen oikean alakulman neliöstä ja vedin oikealle.

Kuvaamallani menettelyllä tulen laskeneeksi tarpeettomiakin tunnuslukuja. Esimerkiksi sukupuolelle ainoastaan vastausten lukumäärä (n) on käyttökelpoinen tunnusluku. Tarpeettomia tunnuslukuja en tietenkään raportoi.

Raportointia varten tunnuslukuja kannattaa kopioida uuteen taulukkoon. Liittäminen täytyy tehdä arvoina käyttäen Paste Values (Liitä arvot) -toimintoa. Desimaalien määrä täytyy säätää tilanteeseen sopivaksi. Esimerkiksi palkkaan liittyvät tunnusluvut voin esittää seuraavasti:

Taulukosta näen keskiarvoa ja mediaania vertaamalla, että aineistossa on joitain erityisen suuria palkkoja. Tämä käsitys vahvistuu, kun katson suurinta arvoa. Viiden luvun yhteenveto antaa hyvän mielikuvan siitä miten palkat ovat jakaantuneet. Voin esimerkiksi todeta, että puolella työntekijöistä palkka on välillä 2027 euroa – 2817 euroa.

Tunnuslukuja ryhmittäin

Jos haluan vertailla miesten ja naisten palkkajakaumaa, niin lasken palkan tunnuslukuja sukupuolen määräämissä ryhmissä. Voin tehdä tämän esimerkiksi seuraavasti:

  • Lasken tunnusluvut koko aineistolle.
  • Lajittelen (järjestän) aineiston ryhmittelevän muuttujan (esimerkiksi sukupuoli) mukaan.
  • Teen aineistosta kopioita (pidän  ctrl-näppäintä alhaalla ja raahan alareunan taulukonvalitsinta hieman oikealle).
  • Poistan kopioista ne rivit, jotka eivät kuulu haluamaani osa-aineistoon.
  • Osa-aineiston tunnusluvut voin kopioida uuteen taulukkoon vierekkäin, jolloin vertailu käy mahdolliseksi.

Toinen mahdollisuus on käyttää AGGREGATE (KOOSTE) -funktiota yhdessä aineiston suodatuksen kanssa.

 Aggregate-funktio

Voin laskea tunnusluvut siten, että tunnusluvun arvo vaihtuu aineiston suodatuksen (Filter) mukana. Jos suodatus ei ole sinulle tuttua, niin lue artikkeli 2 Excel Table (Taulukko). Laskennan toteutan käärimällä tunnuslukufunktion AGGREGATE (KOOSTE) -funktion sisään.

  • Aloitan funktion rakentamisen kirjoittamalla suoraan tyhjään soluun funktion nimen alkua =AG, jonka jälkeen Excel jo ehdottaakin AGGREGATE-funktiota. Jos hyväksyn Excelin ehdotuksen tab/sarkain-näppäimellä, niin Excel täydentää funktion nimen ja lisää sulkumerkin =AGGREGATE(.
  • Sulkumerkin jälkeen Excel tarjoaa luetteloa tilastollisia tunnuslukuja laskevista funktioista. Valitsen luettelosta haluamani funktion. Voin liikkua luettelossa nuolilla ja valita tab/sarkain-näppäimellä tai hiiren kaksoisnapsauksella. Excel Mac ei tarjoa luetteloa funktioista, vaan joudut katsomaan sen funktion Help-toiminnosta.
  • Seuraavaksi kirjoitan argumenttien väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen Excel tarjoaa monenlaisia oudonnäköisiä vaihtoehtoja, joista valitsen vaihtoehdon 5 (Ignore hidden rows), jonka ansiosta funktio reagoi suodatuksiin.
  • Seuraavaksi kirjoitan argumenttien väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen näytän hiirellä ne arvot, joista lasken tunnuslukua.
  • Jos en ole laskemassa ala- tai yläneljännestä, niin kirjoitan sulkumerkin ) ja napsautan enter-painiketta. Jos olen laskemassa ala- tai yläneljännestä, niin kirjoitan puolipisteen ; ja viimeiseksi argumentiksi 25 % (alaneljännes) tai 75 % (yläneljännes).

Voin tämän jälkeen todeta, miten funktion tulos vaihtuu suodatusten mukana. Voin helposti esimerkiksi suodattaa näkyville miehet ja kopioida miesten tunnusluvut jonnekin. Tämän jälkeen voin suodattaa näkyville naiset ja kopioida naisten tunnusluvut miesten tunnuslukujen viereen. Muistan tietysti käyttää liittämiseen Paste Values (Liitä arvot) -toimintoa.

Pienin palkka näyttää olevan miehellä. Miesten ja naisten alaneljännekset eivät poikkea paljoa toisistaan. Mediaani ja yläneljännes ovat miehillä selvästi suuremmat. Naisten joukossa ei ole suuripalkkaisia lainkaan.

Graafinen esittäminen

Graafiseen esittämiseen ruutu- ja janakaavio eli boxplot on erinomainen valinta. Ruutu- ja janakaavio havainnollistaa viiden luvun yhteenvedon.

Ruutu- ja janakaavion alin viiva vastaa pienintä arvoa, ruudunn alareuna alaneljännestä, ruudun keskellä oleva viiva mediaania, ruudun yläreuna yläneljännestä ja ylin viiva suurinta arvoa.

Excelissä ruutu- ja janakaavio on vasta versiosta Excel 2016 alkaen (ei Mac). Pienellä kikkailulla ruutu- ja janakaavion laatiminen kuitenkin onnistuu. Lue lisää artikkelista ruutu- ja janakaavio.

Seuraavaksi

Otoskesta lasketut tunnusluvut kuvailevat lähtökohtaisesti otosta. Jos otoksesta laskettuja tunnuslukuja yleistetään laajempaan perusjoukkoon, niin yleistämiseen liittyy otantavirheen aiheuttamaa epävarmuutta. Keskiarvon kohdalla epävarmuuden suuruus voidaan ilmaista virhemarginaalin avulla. Tästä enemmän artikkelissa 9 Keskiarvon virhemarginaali.