Avainsana-arkisto: Keskihajonta

8 Tunnuslukuja

Päivitetty 4.9.2017

Määrällisten muuttujien tapauksessa ei kannata pihtailla tunnuslukujen kanssa. Määrälliselle muuttujalla kannattaa laskea ainakin

  • keskiarvo ja keskihajonta
  • viiden luvun yhteenveto (pienin, alaneljännes eli alakvartiili, mediaani, yläneljännes eli yläkvartiili, suurin)
  • havaintojen lukumäärä (n).

Keskiarvo ja mediaani

Keskiarvo (arvojen summa jaettuna arvojen lukumäärällä) ja mediaani (suuruusjärjestykseen järjestettyjen arvojen keskimmäinen tai kahden keskimmäisen keskiarvo) pyrkivät mittaamaan jakauman keskikohtaa. Jos keskiarvo ja mediaani ovat lähellä toisiaan, niin tämä viittaa jakauman symmetrisyyteen. Muista arvoista selvästi poikkeavat arvot vaikuttavat voimakkaasti keskiarvoon:

  • Jos keskiarvo on mediaania suurempi, niin tämä viittaa oikealle vinoon jakaumaan.
  • Jos keskiarvo on mediaania pienempi, niin tämä viittaa vasemmalle vinoon jakaumaan.

Poikkeavista arvoista ja niihin suhtautumisesta voit lukea lisää artikkelista Poikkeavat arvot.

Jos keskiarvo ja mediaani poikkeavat selvästi toisistaan, niin mediaani on yleensä paremmin jakauman keskikohtaa kuvaava luku.

Keskihajonta

Keskihajonta pyrkii mittaamaan arvojen vaihtelua keskiarvon molemmin puolin. Keskihajonta ilmaisee havaintojen keskimääräisen poikkeaman keskiarvosta. Pelkästään keskihajonnan lukuarvon perusteella on vaikeaa muodostaa mielikuvaa arvojen vaihtelusta. Keskihajonta on kuitenkin tilastollisessa mielessä tärkeä tunnusluku, jota käytetään muun muassa keskiarvon virhemarginaalin laskemiseen.

Viiden luvun yhteenveto

Viiden luvun yhteenveto antaa hyvän kuvan arvojen vaihtelusta. Viiden luvun yhteenvedon avulla arvojen vaihteluväli pienimmästä suurimpaan jaetaan neljään osaan:

  • pienimmän ja alanejänneksen välinen osa sisältää 25 % arvoista
  • alaneljänneksen ja mediaanin välinen osa sisältää 25 % arvoista
  • mediaanin ja yläneljänneksen välinen osa sisältää 25 % arvoista
  • yläneljänneksen ja suurimman välinen osa sisältää 25 % arvoista.

Laskenta Excelin funktioilla

Voin laskea tilastoaineiston tunnuslukuja aineiston yläpuolelle, alapuolelle, viereen, toiseen taulukkoon  tai jopa  toiseen työkirjaan. Minulla on tapana laskea tunnuslukuja aineiston yläpuolelle. Tätä varten lisään aineiston yläpuolelle riittävän määrän tyhjiä rivejä (yhden enemmän kuin laskettavia tunnuslukuja, jotta tunnuslukujen ja aineiston väliin jää tyhjä rivi). Jollen tarvitse ensimmäiseen sarakkeeseen tunnuslukuja, niin kirjoitan siihen itseäni varten laskettavien tunnuslukujen nimet (keskiarvo, keskihajonta jne.). Tunnuslukujen laskennan suoritan Excelin funktioilla:

  • =AVERAGE(alue) (KESKIARVO)
  • =STDEV.S(alue) (KESKIHAJONTA.S)
  • =MIN(alue) (MIN)
  • =PERCENTILE.EXC(alue;25 %) (PROSENTTIPISTE.ULK)
  • =MEDIAN(alue) (MEDIAANI)
  • =PERCENTILE.EXC(alue;75 %) (PROSENTTIPISTE.ULK)
  • =MAX(alue) (MAKS)
  • =COUNT(alue) (LASKE)

Funktioiden vaatima argumentti ’alue’ on viittaus arvoihin, joista tunnusluku lasketaan. Alaneljännes ja yläneljännes lasketaan samalla funktiolla PERCENTILE.EXC, jolle pitää lisäargumenttina antaa 25 % (alaneljännes) tai 75 % (yläneljännes). Huomaa, että argumenttien väliin kirjoitetaan puolipiste.

Vanhempien Excel-versioiden käyttäjille: Excel 2010:een tuli joitain uudistuksia funktioihin. Excel 2007 ja sitä vanhemmissa käytetään STDEV.S sijasta funktiota STDEV (KESKIHAJONTA) ja PERCENTILE.EXC sijasta funktiota PERCENTILE (PROSENTTIPISTE). PERCENTILE.EXC saattaa antaa hieman PERCENTILE-funktiosta poikkeavan tuloksen, mutta erolla ei yleensä ole käytännön merkitystä (lisätietoa). Vanhat funkiot toimivat edelleen uudemmissa versioissa.

Seuraavassa olen lisännyt 9 tyhjää riviä aineiston data1.xlsx yläpuolelle. Esimerkiksi keskiarvon olen laskenut funktiolla =AVERAGE(B11:B92) ja alaneljänneksen funktiolla =PERCENTILE.EXC(B11:B92;25 %). Sarakkeeseen B laskemani funktiot olen kopioinut muihin sarakkeisiin: Valitsin solut B1:B8, tartuin hiirellä kiinni valittujen solujen oikean alakulman neliöstä ja vedin oikealle.

Kuvaamallani menettelyllä tulen laskeneeksi tarpeettomiakin tunnuslukuja. Esimerkiksi sukupuolelle ainoastaan vastausten lukumäärä (n) on käyttökelpoinen tunnusluku. Tarpeettomia tunnuslukuja en tietenkään raportoi.

Raportointia varten tunnuslukuja kannattaa kopioida uuteen taulukkoon. Liittäminen täytyy tehdä arvoina käyttäen Paste Values (Liitä arvot) -toimintoa. Desimaalien määrä täytyy säätää tilanteeseen sopivaksi. Esimerkiksi palkkaan liittyvät tunnusluvut voin esittää seuraavasti:

Taulukosta näen keskiarvoa ja mediaania vertaamalla, että aineistossa on joitain erityisen suuria palkkoja. Tämä käsitys vahvistuu, kun katson suurinta arvoa. Viiden luvun yhteenveto antaa hyvän mielikuvan siitä miten palkat ovat jakaantuneet. Voin esimerkiksi todeta, että puolella työntekijöistä palkka on välillä 2027 euroa – 2817 euroa.

Tunnuslukuja ryhmittäin

Jos haluan vertailla miesten ja naisten palkkajakaumaa, niin lasken palkan tunnuslukuja sukupuolen määräämissä ryhmissä. Voin tehdä tämän esimerkiksi seuraavasti:

  • Lasken tunnusluvut koko aineistolle.
  • Lajittelen (järjestän) aineiston ryhmittelevän muuttujan (esimerkiksi sukupuoli) mukaan.
  • Teen aineistosta kopioita (pidän  ctrl-näppäintä alhaalla ja raahan alareunan taulukonvalitsinta hieman oikealle).
  • Poistan kopioista ne rivit, jotka eivät kuulu haluamaani osa-aineistoon.
  • Osa-aineiston tunnusluvut voin kopioida uuteen taulukkoon vierekkäin, jolloin vertailu käy mahdolliseksi.

Toinen mahdollisuus on käyttää AGGREGATE (KOOSTE) -funktiota yhdessä aineiston suodatuksen kanssa.

 Aggregate-funktio

Voin laskea tunnusluvut siten, että tunnusluvun arvo vaihtuu aineiston suodatuksen (Filter) mukana. Jos suodatus ei ole sinulle tuttua, niin lue artikkeli 2 Excel Table (Taulukko). Laskennan toteutan käärimällä tunnuslukufunktion AGGREGATE (KOOSTE) -funktion sisään.

  • Aloitan funktion rakentamisen kirjoittamalla suoraan tyhjään soluun funktion nimen alkua =AG, jonka jälkeen Excel jo ehdottaakin AGGREGATE-funktiota. Jos hyväksyn Excelin ehdotuksen tab/sarkain-näppäimellä, niin Excel täydentää funktion nimen ja lisää sulkumerkin =AGGREGATE(.
  • Sulkumerkin jälkeen Excel tarjoaa luetteloa tilastollisia tunnuslukuja laskevista funktioista. Valitsen luettelosta haluamani funktion. Voin liikkua luettelossa nuolilla ja valita tab/sarkain-näppäimellä tai hiiren kaksoisnapsauksella. Excel Mac ei tarjoa luetteloa funktioista, vaan joudut katsomaan sen funktion Help-toiminnosta.
  • Seuraavaksi kirjoitan argumenttien väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen Excel tarjoaa monenlaisia oudonnäköisiä vaihtoehtoja, joista valitsen vaihtoehdon 5 (Ignore hidden rows), jonka ansiosta funktio reagoi suodatuksiin.
  • Seuraavaksi kirjoitan argumenttien väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen näytän hiirellä ne arvot, joista lasken tunnuslukua.
  • Jos en ole laskemassa ala- tai yläneljännestä, niin kirjoitan sulkumerkin ) ja napsautan enter-painiketta. Jos olen laskemassa ala- tai yläneljännestä, niin kirjoitan puolipisteen ; ja viimeiseksi argumentiksi 25 % (alaneljännes) tai 75 % (yläneljännes).

Voin tämän jälkeen todeta, miten funktion tulos vaihtuu suodatusten mukana. Voin helposti esimerkiksi suodattaa näkyville miehet ja kopioida miesten tunnusluvut jonnekin. Tämän jälkeen voin suodattaa näkyville naiset ja kopioida naisten tunnusluvut miesten tunnuslukujen viereen. Muistan tietysti käyttää liittämiseen Paste Values (Liitä arvot) -toimintoa.

Pienin palkka näyttää olevan miehellä. Miesten ja naisten alaneljännekset eivät poikkea paljoa toisistaan. Mediaani ja yläneljännes ovat miehillä selvästi suuremmat. Naisten joukossa ei ole suuripalkkaisia lainkaan.

Graafinen esittäminen

Graafiseen esittämiseen ruutu- ja janakaavio eli boxplot on erinomainen valinta. Ruutu- ja janakaavio havainnollistaa viiden luvun yhteenvedon.

Ruutu- ja janakaavion alin viiva vastaa pienintä arvoa, ruudunn alareuna alaneljännestä, ruudun keskellä oleva viiva mediaania, ruudun yläreuna yläneljännestä ja ylin viiva suurinta arvoa.

Excelissä ruutu- ja janakaavio on vasta versiosta Excel 2016 alkaen (ei Mac). Pienellä kikkailulla ruutu- ja janakaavion laatiminen kuitenkin onnistuu. Lue lisää artikkelista ruutu- ja janakaavio.

Seuraavaksi

Otoskesta lasketut tunnusluvut kuvailevat lähtökohtaisesti otosta. Jos otoksesta laskettuja tunnuslukuja yleistetään laajempaan perusjoukkoon, niin yleistämiseen liittyy otantavirheen aiheuttamaa epävarmuutta. Keskiarvon kohdalla epävarmuuden suuruus voidaan ilmaista virhemarginaalin avulla. Tästä enemmän artikkelissa 9 Keskiarvon virhemarginaali.

Mainokset

7 Mielipideasteikon keskiarvo

Päivitetty 1.9.2017

Aineistossa data1.xlsx on muiden muassa vastauksia kysymyksiin, joissa on kysytty tyytyväisyyttä eri asioihin. Asteikkona on viisiportainen mielipideasteikko:

  • 1 erittäin tyytymätön
  • 2 tyytymätön
  • 3 ei tyytymätön eikä tyytyväinen
  • 4 tyytyväinen
  • 5 erittäin tyytyväinen

Mielipiteiden jakauman voin esittää yhteenvetotaulukkona, jossa on eri mielipiteiden lukumäärät (ja/tai prosentit). Tästä voit lukea aiemmasta artikkelistani 3 Taulukointi. Jos haluan esittää pikayhteenvedon tyytyväisyyksistä eri asioihin, niin voin laskea mielipiteiden keskiarvot:

Keskiarvon perusteella voin muodostaa mielikuvan vastaajien keskimääräisestä mielipiteestä. Erityisesti tarkastan kaksi asiaa:

  • Onko keskiarvo tyytymättömän vai tyytyväisen puolella eli alle vai yli 3?
  • Kuinka kaukana asteikon keskikohdasta keskiarvo on?

Keskihajonta ilmaisee, kuinka paljon mielipiteet keskimäärin poikkeavat keskiarvosta? Keskihajonnan perusteella voin muodostaa mielikuvan mielipiteiden vaihtelusta. Mitä suurempi keskihajonta, sitä enemmän mielipiteet ovat vaihdelleet.

On tärkeää ilmoittaa myös keskiarvon taustalla olevien mielipiteiden eli vastausten lukumäärä (n).

Voinko käyttää keskiarvoja?

Joissain menetelmäoppaissa kielletään, toisissa taas sallitaan keskiarvon käyttö mielipideasteikon yhteydessä. Keskiarvon käyttökieltoa perustellaan sillä, että mielipide on kategorinen (tarkemmin ottaen järjestysasteikollinen) muuttuja, jolle ei ole mielekästä laskea keskiarvoa. Tällöin ajatellaan, että mielipeasteikko ei mittaa tasavälisesti mielipiteen määrää. Keskiarvon käyttöä taas perustellaan sillä, että mielipideasteikkoa voidaan pitää kuta kuinkin tasavälisenä asteikkona, joka mittaa mielipiteen määrää. Tätä perustelua ei kuitenkaan voida vastaansanomattomasti osoittaa oikeaksi.

Käytäntö on osoittanut, että keskiarvot antavat useimmissa tapauksissa oikeansuuntaisen ja käyttökelpoisen arvion keskimääräisestä mielipiteestä. Keskiarvon käytössä kannattaa kuitenkin huomoida seuraavat seikat:

  • Mielipiteiden jakauma pitää aina tarkistaa lukumäärä/prosentti-taulukosta. Erikoisten jakaumien kohdalla keskiarvoihin pitää suhtautua varoen. Äärimmäinen esimerkki: Viisiportaisen mielipideasteikon keskiarvoksi saadaan 3, jos kaikki mieliteet ovat 3; samaan keskiarvoon päädytään jos puolet mielipiteistä on 1 ja puolet 5.
  • Keskiarvon lisäksi kannattaa laskea keskihajonta, joka mittaa mielipiteiden vaihtelua.
  • Jos vastaajille on tarjottu muitakin vaihtoehtoja kuin varsinaisen mielipideasteikon arvoja (esimerkiksi ’En tiedä asiasta’), niin nämä täytyy jättää keskiarvon laskennan ulkopuolelle. Tämän voin käytännössä toteuttaa tekemällä aineistostani keskiarvojen laskentaa varten kopion, jossa korvaan laskennan ulkopuolelle jätettävät arvot tyhjillä soluilla tai tekstimuotoisella tiedolla Excelin Home (Aloitus) -välilehden Find&Select – Replace (Etsi ja valitse – Korvaa) -toiminnolla.
  • Lukumäärät ja/tai prosentit sisältävä yhteenvetotaulukko on tyhjentävä esitys mielipiteiden jakaumasta ja näin ollen aina tarkempi kuin keskiarvo.

Kukin tehköön oman ratkaisunsa keskiarvojen käyttämisestä tai käyttämättä jättämisestä.

Keskiarvojen laskenta pivot-taulukkoon

Jos haluan laskea keskiarvot esimerkkiaineiston data1.xlsx tyytyväisyysmuuttujille, niin toimin seuraavasti:

  • Valitsen täsmälleen yhden solun aineiston alueelta.
  • Valitsen Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).
  • Raahaan tyytyväisyysmuuttujat yksi kerrallaan kenttäluettelon (PivotTable Field List) Values (Arvot) -ruutuun.
  • Vaihdan kunkin Values (Arvot) -ruudun kentän laskentaperusteeksi Average (Keskiarvo). Laskentaperusteen vaihtoon pääsen napsauttamalla kenttää ja valitsemalla avautuvasta valikosta Value Field Settings (Arvokentän asetukset).
  • Lopuksi raahaan sarakeotsikoiden (Column Labels)  Values (Arvot) -palikan riviotsikoihin (Row Labels), jotta saan keskiarvot allekkain.

Pivot-taulukko pitkine otsikoineen ja liikoine desimaaleineen kaipaa jonkin verran viimeistelyä.

Keskihajonnat saan laskettua vastaavalla tavalla:

  • Valitsen täsmälleen yhden solun aineiston alueelta.
  • Valitsen Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).
  • Raahaan tyytyväisyysmuuttujat yksi kerrallaan kenttäluettelon (PivotTable Field List) Values (Arvot) -ruutuun.
  • Vaihdan kunkin Values (Arvot) -ruudun kentän laskentaperusteeksi StdDev (Keskihajonta). Laskentaperuteen vaihtoon pääsen napsauttamalla kenttää ja valitsemalla avautuvasta valikosta Value Field Settings (Arvokentän asetukset).
  • Lopuksi raahaan sarakeotsikoiden (Column Labels)  Values (Arvot) -palikan riviotsikoihin (Row Labels), jotta saan keskihajonnat allekkain.

Tämän jälkeen teen vielä kolmannen pivot taulukon, johon lasken vastausten määrät (Count).

Voin kopioida keskiarvot, keskihajonnat ja vastausten määrät uuteen taulukkoon vierekkäin.

Jos tarkasteltavilla asioilla ei ole mitää luontaista järjestystä, niin tunnuslukuja sisältävä taulukko kannattaa järjestää keskiarvojen mukaiseen järjestykseen.

Järjestämisen voin tehdä valitsemalla taulukon sisällön sarakeotsikoita lukuunottamatta. Tämän jälkeen valitsen Home (Aloitus) -välilehdeltä Sort&Filter – Custom Sort (Lajittele ja suodata – Mukautettu lajittelu). Lajitteluperusteeksi (Sort by) valitsen keskiarvon.

Taulukosta nähdään, että kaikkein tyytymättömimpiä oltiin palkkaan (keskiarvo=2,1) ja kaikkein tyytyväisimpiä työtovereihin (keskiarvo=4,1). Muiden asioiden kohdalla keskiarvot ovat lähellä mielipideasteikon keskikohtaa. Tyytyväisyys työympäristöön jakoi mielipiteitä eniten (keskihajonta=1,2). Tyytyväisyys palkkaan jakoi mielipiteitä vähiten (keskihajonta=0,8).

Graafinen esittäminen

Huolellisesti viimeistelty keskiarvot, keskihajonnat ja n-arvot sisältävä taulukko on havainnollinen ja  täsmällinen esitystapa. Näin ollen graafista esittämistä ei tarvita. Jos kuitenkin haluat havainnollistaa keskiarvoja graafisesti, niin voit käyttää pylväskaaviota.

On tärkeää katkaista arvoakseli alkamaan mielipideasteikon pienimmän arvon kohdalta (tässä 1). Myös arvoakselin otsikointiin on kiinnitettävä erityistä huomiota. Jos haluat kerrata/opetella kaavioiden tekemistä ja muotoilua, niin voit hyödyntää itseopiskelupakettiani kaavio.xlsx.

Keskiarvoja ryhmissä

Jos olen laskenut tunnuslukuja pivot-taulukkoon, niin voin tarkastella tunnuslukuja ryhmittäin raahaamalla ryhmittelevän muuttujan sarakeotsikoihin (Column Labels). Siistimisen jälkeen tyytyväisyys-muuttujien keskiarvot sukupuolittain näyttävät seuraavalta:

On tärkeää, että näkyvillä on n-arvo, josta nähdään kuinka monesta havainnosta keskiarvot on laskettu. Jos n-arvoissa on vaihtelua puuttuvien vastausten takia, niin riittää ilmoittaa n pienimmillään. Esimerkkimme tapauksessa n-arvoista paljastuu, että naisia ei ole aineistossa kuin 19 kpl. Näin pienen otoksen kohdalla keskiarvoihin täytyy suhtautua varoen. Myös keskihajontojen esittäminen sukupuolittain voisi olla paikallaan. Keskihajonnat voi liittää omiin sarakkeisiinsa samaan taulukkoon keskiarvojen kanssa, mutta tämä luonnollisesti heikentää taulukon luettavuutta. Toinen vaihtoehto on esittää keskihajonnat kokonaan omana taulukkonaan.

Jos haluan graafista havainnollistusta, niin voin käyttää pylväskaaviota:

On tärkeää katkaista arvoakseli alkamaan mielipideasteikon pienimmän arvon kohdalta (tässä 1). Myös arvoakselin otsikointiin on kiinnitettävä erityistä huomiota. Jos haluat kerrata/opetella kaavioiden tekemistä ja muotoilua, niin voit hyödyntää itseopiskelupakettiani kaavio.xlsx.

Seuraavaksi

Voin laskea tilastollisia tunnuslukuja Excelin funktioilla. Tämä on monessa mielessä jopa kätevämpää kuin tunnuslukujen laskenta pivot-taulukkoon. Lisäksi tällöin käytössäni on sellaisiakin tunnuslukuja, joita ei ole mahdollista laskea pivot-taulukkoon. Funktioiden käytöstä lisää artikkelissa 8 Tunnuslukja.