Avainsana-arkisto: Viiden luvun yhteenveto

Ruutu- ja janakaavio

Päivitetty 2.2.2019

Ruutu- ja janakaavio

Viiden luvun yhteenvedon voin havainnollistaa ruutu- ja janakaavion avulla. Ruutu- ja janakaaviolla on monta nimeä: laatikko- ja viiksikaavio, laatikko- ja viivakaavio, box & whisker -kaavio, boxplot.

Ruutu- ja janakaavion rakenneosat ovat ruutu ja ruudun päistä lähtevät janat:

  • Ruudun alareuna vastaa alaneljännestä ja yläreuna yläneljännestä. Ruudun sisään piirretty viiva vastaa mediaania ja rasti keskiarvoa.
  • Janojen päät vastaavat pienintä ja suurinta. Jos datassa on niin kutsuttuja poikkeavia arvoja, niin ne esitetään janan ulkopuolisina pisteintä. Poikkeavaksi arvoksi lasketaan arvo, joka on yli 1,5 laatikon korkeuden päässä laatikon reunasta.

Seuraavassa esitän neljän rahastoluokan tuottojen jakaumaa heinäkuussa 2015 (Lähde: Sijoitustutkimus, n vaihtelee välillä 32-58).

tunnuslukuja5

Kaikkein pienimmät tuotot ovat kehittyville markkinoille sijoittavissa rahastoissa ja suurimmat Pohjois-Amerikkaan sijoittavissa rahastoissa. Tuotot ovat vaihdelleet eniten Pohjois-Amerkikkaan sijoittavissa rahastoissa. Eurooppaan sijoittavissa rahastoissa tuotoissa ei ole paljoa vaihtelua, mutta huomiota kiinnittää muutama poikkeavan tuoton omaava rahasto sekä ylä- että alapäässä.

Ruutu- ja janakaavio voi epäonnistua, jos et huomioi seuraavia vinkkejä:

VINKKI 1: Jos ryhmittelevän muuttujan arvot ovat datassa numeroita (esimerkiksi 1=mies ja 2=nainen), niin data pitää lajitella (järjestää) ryhmittelevän muuttujan mukaan kaavion onnistumiseksi.

VINKKI 2: Jos ryhmittelevän muuttujan arvot ovat datassa numeroita (esimerkiksi 1=mies ja 2=nainen), niin en valitse ryhmittelevän muuttujan arvoja ennen kaaviolajin valitsemista, vaan teen kaavion aluksi vain muuttujalle, jolle lasken viiden luvun yhteenvedon. Tämän jälkeen valitsen kaavionmuokkaustyökalujen Design (Rakenne) -välilehdeltä Select Data (Valitse tiedot). Select Data -toiminnolla pääsen lisäämään sukupuolet luokka-akselin otsikoiksi (Category Axis Labels).

VINKKI 3: Jos ryhmittelevän muuttujan arvot ovat datassa tarkasteltavan muuttujan oikealla puolella, niin en valitse ryhmittelevän muuttujan arvoja ennen kaaviolajin valitsemista, vaan teen kaavion aluksi vain muuttujalle, jolle lasken viiden luvun yhteenvedon. Tämän jälkeen valitsen kaavionmuokkaustyökalujen Design (Rakenne) -välilehdeltä Select Data (Valitse tiedot). Select Data -toiminnolla pääsen lisäämään ryhmittelevän muuttujan arvot luokka-akselin otsikoiksi (Category Axis Labels).

Lisätietoa

Tämän oppii vain tekemällä itse. Harjoittele työkirjalla tunnuslukuja.xlsx.

Tiekartat

Päivitetty 24.1.2020

Datoja jalostetaan ja analysoidaan, jotta saadaan käyttökelpoista, havainnollista ja ymmärrettävää tietoa päätöksenteon tueksi ja perusteluksi.

Analysoitavia datoja saadaan erilaisista lähteistä, esimerkiksi

  • mittalaitteilla mitattuja ilmansaasteiden pitoisuuksia
  • kyselylomakkeella kerättyjä mielipiteitä
  • kokeellisella tutkimusasetelmalla kerättyjä havaintoja
  • verkkosivuston käyttötilastoja
  • yrityksen tietokannasta poimittuja myyntitapahtumia
  • internetin tietokannoista löytyviä tilastoja.

Datoja jalostetaan ja analysoidaan, jotta saadaan käyttökelpoista, havainnollista ja ymmärrettävää tietoa päätöksenteon tueksi ja perusteluksi. Analysointiin käytetään samoja menetelmiä datan lähteestä riippumatta.

Analyysit aloitetaan muuttujakohtaisilla tarkasteluilla muuttuja kerrallaan (kuvaileva analytiikka). Joissain tapauksissa  muuttujakohtaiset tarkastelut riittävät, mutta yleensä analyyseissä edetään riippuvuuksien tarkasteluun (selittävä analytiikka). Yksinkertaisimmillaan  tarkastellaan kahden muuttujan välistä riippuvuutta. Jos toinen muuttujista on kategorinen, niin riippuvuuden sijasta voidaan puhua ryhmien vertailusta: kategorisen muuttujan arvot määräävät ryhmät, joiden välillä toisen muuttujan arvoja vertaillaan. Jos molemmat muuttujat ovat määrällisiä niin riippuvuutta voidaan kutsua korrelaatioksi ja sen voimakkuutta mitataan korrelaatiokertoimen avulla.

Edellä todetun perusteella voin jaotella perusanalyysit seuraavasti:

tiekartta1

Vaativammassa analyysissä käytetään monimuuttujamenetelmiä, joissa analysoidaan useamman muuttujan välisiä riippuvuuksia samanaikaisesti.

Seuraavassa luettelen kuhunkin analyysityyppiin liittyviä menetelmiä. Ryhmittelen menetelmät sen mukaan minkälaisille mitta-asteikoille ne sopivat. Käyttämäni mitta-asteikot ovat

  • Kategorinen: Muuttujan arvot luokittelevat havaintoyksiköt toisensa poissulkeviin kategorioihin/luokkiin. Tällaista mitta-asteikkoa kutsutaan myös luokitteluasteikoksi, nominaaliasteikoksi ja laatueroasteikoksi. Esimerkki: Henkilön ammatti.
  • Järjestysasteikollinen: Jos kategoriat/luokat voidaan asettaa yksikäsitteiseen suuruus, paremmuus tai muuhun järjestykseen, niin kyseessä on järjestysasteikko. Tällaista mitta-asteikkoa kutsutaan myös ordinaaliasteikoksi. Esimerkki: Hotelliluokituksessa hotellin saama tähtien määrä.
  • Määrällinen: Muuttujan arvot mittaavat mitattavan ominaisuuden määrää numeroasteikolla. Määrälliset muuttujat kattavat sekä välimatka-asteikolliset (intervalliasteikolliset) että suhdeasteikolliset muuttujat. Esimerkki: Henkilön kuukausipalkka.
  • Mielipideasteikko: Mielipideasteikko on järjestysasteikko, mutta monissa tapauksissa sen voidaan ajatella mittaavan mielipiteen, esimerkiksi tyytyväisyyden, määrää numeroasteikolla. Tällöin mielipideasteikko voidaan tulkita määrälliseksi ja määrällisille muuttujille soveltuvia menetelmiä voidaan käyttää. Esimerkki: Tyytyväisyys asiakaspalvelun ystävällisyyteen asteikolla 1-5 (1=erittäin tyytymätön, 5=erittäin tyytyväinen).

Yhden muuttujan tarkastelu

Datan analysoinnin aloitan muuttujakohtaisilla tarkasteluilla.

  • Kategorisille muuttujille lasken lukumäärä- ja prosenttitaulukot. Lukumäärä- ja prosenttitaulukosta käytetään myös nimityksiä yhteenvetotaulukko ja frekvenssitaulukko. Taulukoinneissa pääset hyvään alkuun lukemalla artikkelin Taulukointi.
  • Järjestysasteikollisille muuttujille voin lukumäärä- ja prosenttitaulukoiden lisäksi laskea viiden luvun yhteenvedon.
  • Määrällisille muuttujille lasken tunnuslukuina keskiarvon, keskihajonnan ja viiden luvun yhteenvedon. Tunnusluvuissa pääset hyvään alkuun lukemalla artikkelin Tunnuslukuja.

tiekart2

Mielipideasteikot (esimerkiksi 1-5, täysin eri mieltä – täysin samaa mieltä) ovat järjestysasteikoita, mutta tietyin varauksin voin käyttää keskiarvoa ja keskihajontaa. Voit lukea lisää artikkelista Mielipideasteikon keskiarvo.

Jos analysoitava data on otos laajemmasta perusjoukosta, niin kannattaa laskea prosenttiosuuksille ja keskiarvoille luottamusvälit. Luottamusväli ilmaisee epävarmuuden yleistettäessä prosenttiosuus tai keskiarvo laajempaan perusjoukkoon. Lisätietoa prosenttiosuuden luottamusvälistä artikkelissa Prosenttiosuuden luottamusväli ja keskiarvon luottamusvälistä artikkelissa Keskiarvon virhemarginaali.

Kahden ryhmän vertailu – riippumattomat ryhmät

Päädyn vertailemaan kahta ryhmää esimerkiksi seuraavissa tapauksissa:

  • Haluan verrata kyselytutkimusdatan perusteella miesten ja naisten mielipiteitä.
  • Haluan verrata kokeellisen tutkimuksen keinoin ovatko alkoholia nauttineiden reaktioaikojen keskiarvot samat kuin alkoholia nauttimattomien.

Jos mitattava muuttuja on kategorinen, niin vertaan lukumääriä ja/tai prosentteja ristiintaulukoimalla ryhmittelevän muuttujan ja mitattavan muuttujan. Hyvään alkuun ristiintaulukoinneissa pääset lukemalla artikkelin Ristiintaulukointi. Jos mitattava muuttuja on määrällinen, niin yleensä vertaan keskiarvoja. Myös mielipideasteikon tapauksessa voin tietyin varauksin verrata keskiarvoja. Lisätietoa artikkelissa Kahden riippumattoman otoksen vertailu.

tiekart3

Tarvittaessa voin testata ryhmien välisen eron merkitsevyyttä. Testaamisella varmistan, onko otoksessa havaittu ero niin suuri, ettei se voi aiheutua pelkästä otantavirheestä, vaan taustalla on ryhmien todellinen ero perusjoukossa. Lisätietoa artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Useamman ryhmän vertailu – riippumattomat ryhmät

Jos vertailtavia ryhmiä on useampia, niin järjestysasteikollisen ja määrällisen muuttujan tapauksessa testimenetelmät ovat erilaiset kuin kahden ryhmän vertailussa.

tiekart4

Lisätietoa testimenetelmistä artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Kahden ryhmän vertailu – riippuvat ryhmät

Kokeellisessa tutkimuksessa päädytään usein vertailemaan toisistaan riippuvia ryhmiä. Jos riippumattoman ja riippuvan ero ei ole sinulle selvä, niin lue artikkeli Riippumattomat vai riippuvat otokset.

tiekart5

Lisätietoa testimenetelmistä artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Useamman ryhmän vertailu – riippuvat ryhmät

Useamman riippuvan ryhmän vertailua tarvitaan lähinnä kokoeellisessa tutkimuksessa.

tiekart6

Lisätietoa testimenetelmistä artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Korrelaatio

Korrelaatio tarkoittaa kahden muuttujan välistä riippuvuutta.

  • Kategoristen muuttujien välistä korrelaatiota tarkastelen ristiintaulukoimalla. Tätä jo tarkastelin aiemmin ryhmien vertailun yhteydessä.
  • Jos toinen tai molemmat muuttujista ovat järjestysasteikollisia, niin voin laskea Spearmanin järjestyskorrelaation. Joissain tapauksissa Spearmanin järjestyskorrelaatio on sopiva menetelmä myös mielipideasteikollisille muuttujille. Järjestyskorrelaatiosta lisää artikkelissa Spearmanin järjestyskorrelaatio.
  • Jos molemmat muuttujat ovat määrällisiä, niin tarkastelen riippuvuutta hajontakaavioiden ja korrelaatiokertoimien avulla. Tästä lisää artikkelissa Korrelaatio ja sen merkitsevyys.

tiekart7

Tarvittaessa voin testata riippuvuuden/korrelaation merkitsevyyttä. Testaamisella varmistan, onko otoksessa havaittu riippuvuus/korrelaatio niin suuri, ettei se voi aiheutua pelkästä otantavirheestä, vaan taustalla on todellinen riippuvuus/korrelaatio perusjoukossa. Lisätietoa testaamisesta artikkelissa Korrelaatio ja sen merkitsevyys.

Mallit ja ennakoiva analytiikka

Edellä mainitut menetelmät sopivat kuvailevaan ja selittävään analytiikkaan. Tarvittaessa voidaan edetä pidemmälle:

  • Sovittamalla dataan havaittuja eroja ja riippuvuuksia selittäviä malleja.
  • Ennakoimalla tulevaa malleista laskettujen ennusteiden avulla.

Muuttujien mitta-asteikot vaikuttavat mallin valintaan:

  • Jos selitettävä muuttuja on määrällinen, niin kyseeseen tulevat erilaiset regressiomallit.
  • Jos selitettävä muuttuja on kategorinen, niin kyseeseen tulevat erilaiset luokittelumallit, esimerkiksi logistinen regressio.
  • Jos selitettävä muuttuja puuttuu, niin kyseeseen tulevat erilaiset klusterointimallit, esimerkiksi K-means klusterointi.

Tunnuslukuja

Päivitetty 21.4.2019.

Määrällisten muuttujien tapauksessa ei kannata pihtailla tunnuslukujen kanssa. Määrälliselle muuttujalla kannattaa laskea ainakin

  • keskiarvo ja keskihajonta
  • viiden luvun yhteenveto (pienin, alaneljännes eli alakvartiili, mediaani, yläneljännes eli yläkvartiili, suurin)
  • havaintojen lukumäärä (n).

Keskiarvo ja mediaani

Keskiarvo (arvojen summa jaettuna arvojen lukumäärällä) ja mediaani (suuruusjärjestykseen järjestettyjen arvojen keskimmäinen tai kahden keskimmäisen keskiarvo) pyrkivät mittaamaan jakauman keskikohtaa. Jos keskiarvo ja mediaani ovat lähellä toisiaan, niin tämä viittaa jakauman symmetrisyyteen. Muista arvoista selvästi poikkeavat arvot vaikuttavat voimakkaasti keskiarvoon:

  • Jos keskiarvo on mediaania suurempi, niin tämä viittaa oikealle vinoon jakaumaan.
  • Jos keskiarvo on mediaania pienempi, niin tämä viittaa vasemmalle vinoon jakaumaan.

Poikkeavista arvoista ja niihin suhtautumisesta voit lukea lisää artikkelista Poikkeavat arvot.

Jos keskiarvo ja mediaani poikkeavat selvästi toisistaan, niin mediaani on yleensä paremmin jakauman keskikohtaa kuvaava luku.

Keskihajonta

Keskihajonta pyrkii mittaamaan arvojen vaihtelua keskiarvon molemmin puolin. Keskihajonta ilmaisee havaintojen keskimääräisen poikkeaman keskiarvosta. Pelkästään keskihajonnan lukuarvon perusteella on vaikeaa muodostaa mielikuvaa arvojen vaihtelusta. Keskihajonta on kuitenkin tilastollisessa mielessä tärkeä tunnusluku, jota käytetään muun muassa keskiarvon virhemarginaalin laskemiseen.

Viiden luvun yhteenveto

Viiden luvun yhteenveto antaa hyvän kuvan arvojen vaihtelusta. Viiden luvun yhteenvedon avulla arvojen vaihteluväli pienimmästä suurimpaan jaetaan neljään osaan:

  • pienimmän ja alanejänneksen välinen osa sisältää 25 % arvoista
  • alaneljänneksen ja mediaanin välinen osa sisältää 25 % arvoista
  • mediaanin ja yläneljänneksen välinen osa sisältää 25 % arvoista
  • yläneljänneksen ja suurimman välinen osa sisältää 25 % arvoista.

Laskenta Excelin funktioilla

Voin laskea tunnuslukuja datan yläpuolelle, alapuolelle, viereen, toiseen taulukkoon  tai jopa  toiseen työkirjaan. Minulla on tapana laskea tunnuslukuja datan yläpuolelle. Tätä varten lisään datan yläpuolelle riittävän määrän tyhjiä rivejä (yhden enemmän kuin laskettavia tunnuslukuja, jotta tunnuslukujen ja datan väliin jää tyhjä rivi). Jollen tarvitse ensimmäiseen sarakkeeseen tunnuslukuja, niin kirjoitan siihen itseäni varten laskettavien tunnuslukujen nimet (keskiarvo, keskihajonta jne.). Tunnuslukujen laskennan suoritan Excelin funktioilla:

  • =AVERAGE(alue) (KESKIARVO)
  • =STDEV.S(alue) (KESKIHAJONTA.S)
  • =MIN(alue) (MIN)
  • =PERCENTILE.EXC(alue;25 %) (PROSENTTIPISTE.ULK)
  • =MEDIAN(alue) (MEDIAANI)
  • =PERCENTILE.EXC(alue;75 %) (PROSENTTIPISTE.ULK)
  • =MAX(alue) (MAKS)
  • =COUNT(alue) (LASKE)

Funktioiden vaatima lähtötieto ’alue’ on viittaus arvoihin, joista tunnusluku lasketaan. Alaneljännes ja yläneljännes lasketaan samalla funktiolla PERCENTILE.EXC, jolle pitää ylimääräisenä lähtötietona antaa 25 % (alaneljännes) tai 75 % (yläneljännes). Huomaa, että lähtötietojen väliin kirjoitetaan puolipiste.

Vanhempien Excel-versioiden käyttäjille: Excel 2010:een tuli joitain uudistuksia funktioihin. Excel 2007 ja sitä vanhemmissa käytetään STDEV.S sijasta funktiota STDEV (KESKIHAJONTA) ja PERCENTILE.EXC sijasta funktiota PERCENTILE (PROSENTTIPISTE). PERCENTILE.EXC saattaa antaa hieman PERCENTILE-funktiosta poikkeavan tuloksen, mutta erolla ei yleensä ole käytännön merkitystä (lisätietoa). Vanhat funkiot toimivat edelleen uudemmissa versioissa.

Seuraavassa olen lisännyt 9 tyhjää riviä datan data1.xlsx yläpuolelle. Esimerkiksi keskiarvon olen laskenut funktiolla =AVERAGE(B11:B92) ja alaneljänneksen funktiolla =PERCENTILE.EXC(B11:B92;25 %). Sarakkeeseen B laskemani funktiot olen kopioinut muihin sarakkeisiin: Valitsin solut B1:B8, tartuin hiirellä kiinni valittujen solujen oikean alakulman neliöstä ja vedin oikealle.

Kuvaamallani menettelyllä tulen laskeneeksi tarpeettomiakin tunnuslukuja. Esimerkiksi sukupuolelle ainoastaan vastausten lukumäärä (n) on käyttökelpoinen tunnusluku. Tarpeettomia tunnuslukuja en tietenkään raportoi.

Raportointia varten tunnuslukuja kannattaa kopioida uuteen taulukkoon. Liittäminen täytyy tehdä arvoina käyttäen Paste Values (Liitä arvot) -toimintoa. Desimaalien määrä täytyy säätää tilanteeseen sopivaksi. Esimerkiksi palkkaan liittyvät tunnusluvut voin esittää seuraavasti:

Taulukosta näen keskiarvoa ja mediaania vertaamalla, että aineistossa on joitain erityisen suuria palkkoja. Tämä käsitys vahvistuu, kun katson suurinta arvoa. Viiden luvun yhteenveto antaa hyvän mielikuvan siitä miten palkat ovat jakaantuneet. Voin esimerkiksi todeta, että puolella työntekijöistä palkka on välillä 2027 euroa – 2817 euroa.

Tunnuslukuja ryhmittäin

Jos haluan vertailla miesten ja naisten palkkajakaumaa, niin lasken palkan tunnuslukuja sukupuolen määräämissä ryhmissä. Voin tehdä tämän esimerkiksi seuraavasti:

  • Lasken tunnusluvut koko aineistolle.
  • Lajittelen (järjestän) aineiston ryhmittelevän muuttujan (esimerkiksi sukupuoli) mukaan.
  • Teen aineistosta kopioita (pidän  ctrl-näppäintä alhaalla ja raahan alareunan taulukonvalitsinta hieman oikealle).
  • Poistan kopioista ne rivit, jotka eivät kuulu haluamaani osa-aineistoon.
  • Osa-aineiston tunnusluvut voin kopioida uuteen taulukkoon vierekkäin, jolloin vertailu käy mahdolliseksi.

Toinen mahdollisuus on käyttää AGGREGATE (KOOSTE) -funktiota yhdessä aineiston suodatuksen kanssa.

 Aggregate-funktio

Voin laskea tunnusluvut siten, että tunnusluvun arvo vaihtuu aineiston suodatuksen (Filter) mukana. Jos suodatus ei ole sinulle tuttua, niin lue artikkeli Excel Table (Taulukko). Laskennan toteutan käärimällä tunnuslukufunktion AGGREGATE (KOOSTE) -funktion sisään.

  • Aloitan funktion rakentamisen kirjoittamalla suoraan tyhjään soluun funktion nimen alkua =AG, jonka jälkeen Excel jo ehdottaakin AGGREGATE-funktiota. Jos hyväksyn Excelin ehdotuksen tab/sarkain-näppäimellä, niin Excel täydentää funktion nimen ja lisää sulkumerkin =AGGREGATE(.
  • Sulkumerkin jälkeen Excel tarjoaa luetteloa tilastollisia tunnuslukuja laskevista funktioista. Valitsen luettelosta haluamani funktion. Voin liikkua luettelossa nuolilla ja valita tab/sarkain-näppäimellä tai hiiren kaksoisnapsauksella.
  • Seuraavaksi kirjoitan lähtötietojen väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen Excel tarjoaa monenlaisia oudonnäköisiä vaihtoehtoja, joista valitsen vaihtoehdon 5 (Ignore hidden rows), jonka ansiosta funktio reagoi suodatuksiin.
  • Seuraavaksi kirjoitan lähtötietojen väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen näytän hiirellä ne arvot, joista lasken tunnuslukua.
  • Jos en ole laskemassa ala- tai yläneljännestä, niin kirjoitan sulkumerkin ) ja napsautan enter-painiketta. Jos olen laskemassa ala- tai yläneljännestä, niin kirjoitan puolipisteen ; ja viimeiseksi argumentiksi 25 % (alaneljännes) tai 75 % (yläneljännes).

Voin tämän jälkeen todeta, miten funktion tulos vaihtuu suodatusten mukana. Voin helposti esimerkiksi suodattaa näkyville miehet ja kopioida miesten tunnusluvut jonnekin. Tämän jälkeen voin suodattaa näkyville naiset ja kopioida naisten tunnusluvut miesten tunnuslukujen viereen. Muistan tietysti käyttää liittämiseen Paste Values (Liitä arvot) -toimintoa.

Pienin palkka näyttää olevan miehellä. Miesten ja naisten alaneljännekset eivät poikkea paljoa toisistaan. Mediaani ja yläneljännes ovat miehillä selvästi suuremmat. Naisten joukossa ei ole suuripalkkaisia lainkaan.

Graafinen esittäminen

Graafiseen esittämiseen ruutu- ja janakaavio on erinomainen valinta. Ruutu- ja janakaavio havainnollistaa viiden luvun yhteenvedon.

Seuraavaksi

Katso Excel-esimerkkejä tunnuslukuja.xlsx.

Otoskesta lasketut tunnusluvut kuvailevat lähtökohtaisesti otosta. Jos otoksesta laskettuja tunnuslukuja yleistetään laajempaan perusjoukkoon, niin yleistämiseen liittyy otantavirheen aiheuttamaa epävarmuutta. Keskiarvon kohdalla epävarmuuden suuruus voidaan ilmaista virhemarginaalin avulla. Tästä enemmän artikkelissa Keskiarvon virhemarginaali.