Avainsana-arkisto: Excel

Analyyseihin sopivat tietokoneohjelmat

Päivitetty 8.11.2019.

Analyysien onnistumiseksi on tärkeää tietää mitä haluat laskea? Jollet tiedä, niin katsele tiekarttoja.

Excel

Excelillä voit laskea lukumäärä- ja prosenttiyhteenvedot, ristiintaulukoinnit sekä tilastolliset tunnusluvut. Lasketuista taulukoista saat helposti havainnollisia graafisia esityksiä. Excelissä on monipuoliset mahdollisuudet tulostaulukoiden ja graafisten esitysten muotoiluun. Tilastollisen merkitsevyyden testaamiseen Excel ei ole paras mahdollinen väline eikä kaikkiin tapauksiin löydy valmista toimintoa.

Jos osaat Excelin perustaidot, niin Excel on luonteva valinta perusanalyyseihin. Tilastollisen merkitsevyyden testaukseen voit käyttää esimerkiksi Pythonia tai SPSS:ää. Excel-muotoon tallennettu data aukeaa Pythonilla tai SPSS:llä.

Python

Jos et karsasta koodaamista, niin kannattaa opetella analysoimaan Python-ohjelmointikielellä. Aikaisempaa ohjelmointi/koodaus-kokemusta et tarvitse. Python  ohjelmakirjastoineen on joustava, tehokas ja ilmainen väline datojen analysointiin, p-arvojen laskentaan ja visualisointiin.

Python sopii erinomaisesti myös koneoppimisen malleihin ja ennakoivaan analytiikkaan.

Lue lisää:

Tilasto-ohjelmat

Tilasto-ohjelmat ovat varta vasten tilastoaineistojen analysointiin tarkoitettuja ohjelmia ja näin ollen varma valinta datan analysointiin. Tilastollisen merkitsevyyden testaus (khiin neliö -testi, t-testit, korrelaation merkitsevyys, Mann-Whitney -testi jne.) sujuu tilasto-ohjelmalla helposti. Tilasto-ohjelmista käytetyimpiä on SPSS.

Pienen opettelun jälkeen SPSS on helppokäyttöinen ohjelma, jolla voit analysoida myös alunperin Excel-muotoon tallennettuja datoja. Graafisten esitysten laatiminen vaatii hieman enemmän opettelua.

Lisätietoa SPSS-tilastohjelmasta.

Nettikyselyohjelmistot

Webropol, SurveyMonkey, Questback ja muut vastaavat ovat nettikyselyn tekemiseen sopivia ohjelmistoja. Niiden avulla saat myös joitain analyysejä nettikyselyn vastauksista. Monipuolisuudeltaan ja joustavuudeltaan ne eivät ole Excelin, Pythonin tai SPSS:n veroisia. Voit hyödyntää niiden tuottamia taulukoita ja graafisia esityksiä harkintasi mukaan. Useimmissa tapauksissa nettikyselyn raakadata täytyy kuitenkin tuoda Exceliin, Pythoniin tai tilasto-ohjelmaan monipuolisempien analyysien tekemiseksi.

Lisätietoa Webropolista.

Pääsääntö

Pääsääntö: Käytetty tietokoneohjelma ei ole itsetarkoitus. Olennaista on, että käytät tilanteeseen sopivia menetelmiä, olet huolellinen sekä esität tulokset selkeästi ja havainnollisesti.

Toistomittausten varianssianalyysi

Päivitetty 25.4.2019.

Jos tarkoituksena on tutkia aiheuttavatko käsittelyt eroja tutkittavien ominaisuuksiin, niin keskeisimmät tutkimusasetelmat ovat:

Satunnaistettu koe (completely randomized design): Jokaista käsittelyä varten arvotaan oma ryhmä tutkittavia. Tällöin analyysimenetelmänä käytetään yksisuuntaista varianssianalyysiä.

Toistomittaus (repeated measures design): Käytetään samaa tutkittavien joukkoa eri käsittelyillä. Tätä kutsutaan toistomittaukseksi, koska samoja tutkittavia mitataan toistuvasti eri käsittelyillä. Tällöin analyysimenetelmäksi sopii toistomittausten varianssianalyysi. Esimerkiksi kolmen erilaisen moottorin säädön vaikutusta polttoaineen kulutukseen voidaan tutkia kuuden eri kuljettajan avulla siten, että kukin kuljettaja ajaa testilenkin jokaisella säädöllä. Mittaus toistetaan siis kullekin kuljettajalle 3 kertaa, mutta jokaisella kerralla on erilainen säätö.

Satunnaistettu lohkokoe (randomized block design): Jos tiedetään, että jokin tutkittavien ominaisuus vaikuttaa mittauksen kohteena oleviin muuttujiin, niin tutkittavat voidaan jakaa kyseisen ominaisuuden mukaan samanlaisiin lohkoihin. Esimerkiksi samaan pikaruokaketjuun kuuluvien neljän ravintolan eroja voidaan arvioida jakamalla arvioijat kokemuksen mukaan kuuteen eri lohkoon seuraavasti:

  • ensimmäiseen lohkoon otetaan vain kaikkein kokeneimmat arvioijat
  • toiseen lohkoon otetaan hieman vähemmän kokeneet arvioijat jne.
  • kuudenteen lohkoon otetaan kaikkein vähiten kokemusta omaavat arvioijat
  • kuhunkin lohkoon otetaan neljä arvioijaa, koska arvoitavia ravintoloita on neljä
  • samaan lohkoon kuuluville neljälle arvioijalle arvotaan satunnaisesti arvioitavat ravintolat.

Asetelmalla pyritään kontrolloimaan arvioijan kokemuksen vaikutusta arvioihin. Myös tähän asetelmaan sopii analyysimenetelmäksi toistomittausten varianssianalyysi.

Yksisuuntaisen varianssinalyysin ja toistomittausten varianssianalyysin keskeinen ero

anova10Yksisuuntaisessa varianssianalyysissä mittaustulosten vaihtelu jaetaan ryhmien (kutakin käsittelyä vastaa yksi ryhmä) väliseen ja ryhmien sisäiseen vaihteluun. Kyseessä on malli, jossa pyritään selittämään vaihtelu ryhmien (käsittelyjen) eroilla ja tässä mallissa kaikki muu kuin ryhmien välinen vaihtelu on luettavissa virhevaihteluksi.

Toistomittausten varianssianalyysissä erotetaan ryhmien sisäisestä vaihtelusta lohkojen välinen vaihtelu ja muu osa ryhmien sisäisestä vaihtelusta luetaan virhevaihteluksi. Kyseessä on malli, jossa pyritään selittämään vaihtelu ryhmien eroilla ja lohkojen eroilla. Muu kuin ryhmien välinen ja lohkojen välinen vaihtelu luetaan virhevaihteluksi. Virhevaihtelu jää pienemmäksi kuin yksisuuntaisessa varianssianalyysissä, koska lohkojen välinen vaihtelu otetaan malliin mukaan.
anova11
Ryhmien välisten erojen merkitsevyyttä mitataan ryhmien välisen vaihtelun ja virhevaihtelun suhteena. Jos ryhmien vaihtelu on riittävän paljon virhevaihtelua suurempi, niin sillon ryhmien välisiä eroja voidaan pitää merkitsevinä. On siis olennaista, että käytetään mallia, jossa virhevaihtelu saadaan mahdollisimman pieneksi. Näin ollen toistomittausasetelmassa ja satunnaistetussa lohkoasetelmassa kannatta aina käyttää toistomittausten varianssianalyysiä yksinkertaisen varianssianalyysin sijasta.

Toistomittausten varianssianalyysi Excelillä

anova16

Esimerkki. Auton polttoaineen kulutusta verrattin kolmella erilaisella moottorin säädöllä A, B ja C. Testikuljettajina oli 6 kuljettajaa, jotka ajoivat arvotussa järjestyksessä testilenkin kullakin säädöllä. Mitatut kulutukset (litraa sadalla kilomertrilla) olivat oheisen taulukon mukaiset.

Excelin analyysityökalujen avulla voin laskea toistomittausten varianssianalyysin. Jos et ole aiemmin ottanut analyysityökaluja käyttöön, niin voit tehdä sen seuraavasti:

  • Valitsen File – Options (Tiedosto – Asetukset).
  • Valitsen Add Ins (Apuohjelmat) ja valitsen alhaalta Manage (Hallinta) -ruudusta Excel Add Ins (Excel-apuohjelmat).
  • Valitsen Go (Siirry).
  • Valitsen luettelosta Analysis Toolpak (Analyysityökalut) ja valitsen OK.
  • Tämän jälkeen löydän Data (Tiedot) -välilehdeltä analyysityökalut (Data Analysis).

Analyysityökaluista löydän toistomittausten varianssianalyysin nimellä Anova: Two-Factor Without Replication (Anova: kaksisuuntainen ilman toistoa). Nimitys kaivannee hieman selitystä: ’kaksisuuntainen’ viittaa siihen, että yhteisvaihtelua selitetään kahdella tekijällä, käsittelyllä ja tutkittavien/lohkojen eroilla; ’ilman toistoa’ viittaa siihen, että kullakin käsittelyn ja tutkittavan/lohkon yhdistelmällä on vain yksi mittaus.

Täytän Anova-ikkunaan syöttöalueen (Input Range). Syöttöalueeksi valitsen kaikki kulutukset sekä rivi- ja sarakeotsikot. Lisäksi määritän, että otsikot huomioidaan (Labels).

anova14

Excel tulostaa keskiarvot ja varianssit sekä ANOVA-taulukon, joka näyttää seuraavalta:

anova15

ANOVA-taulukossa vaihtelu on jaettu kolmeen osaan:

  • rivien eli tässä tapauksessa kuljettajien väliseen vaihteluun (SS=0,55205)
  • sarakkeiden eli tässä tapauksessa säätöjen väliseen vaihteluun (SS=0,573333)
  • muuhun vaihteluun eli virhevaihteluun (SS=0,196067).

Mitä suurempi säätöjen välinen vaihtelu on virhevaihteluun verrattuna, sitä merkitsevämpiä eroja säätöjen välillä on. Tämä testataan F-testillä, jonka p-arvon voin lukea taulukosta.

Esimerkin tapauksessa ainakin kahden säädön välillä on merkitsevä ero (p-arvo 0,001).

On opettavaista ainakin kerran tutustua ANOVA-taulukon johtamiseen ja erityisesti vaihtelua mittaavien neliösummien (SS, sum of squares) laskemiseen. Voit tutustua ANOVA-taulukon johtamiseen Excel-tiedoston anovakaavat.xlsx avulla. Olen laskenut tiedostoon Excelin kaavoilla kaikki ANOVA-taulukossa oleva luvut. Tiedostosta löytyy laskettu esimerkki myös satunnaistetusta lohkokokeesta.

Käyttöedellytykset

Toistomittausten varianssianalyysiä koskee sama käyttöedellytys kuin muitakin keskiarvon käyttöön perustuvia menetelmiä: otoskeskiarvojen täytyy olla peräisin likimain normaalijakaumasta. Jos ryhmät ovat isoja (vähintään 30), niin normaalijakautuneisuus ei yleensä ole ongelma. Jos ryhmät ovat pieniä, voin arvioida normaalijakautuneisuutta otoksen arvojen jakauman perusteella (histogrammi, ruutu- ja janakaavio). Epäselvissä tapauksissa kannattaa testata normaalijakautuneisuus SPSS:llä. Ohjeet laatikkokaavion tekemiseen ja normaalijakautuneisuuden testaamiseen löydät artikkelistani SPSS: Explore.

Toisena käyttöedellytyksenä on niin kutsuttu sfäärisyys (sphericity). Yksinkertaistaen voisi todeta, että tässä on kyse ryhmien välisten erojen varianssien yhtäsuuruudesta. Sfäärisyyden testaamiseen ei ole toimintoa Excelissä. Lue lisää artikkelista SPSS: Toistomittausten varianssianalyysi.

Jos käyttöedellytykset eivät täyty, niin voin käyttää SPSS:n Friedman-testiä.

Parivertailut

Varianssianalyysi kertoo onko ryhmien keskiarvojen välillä merkitseviä eroja. Sen sijaan varianssianalyysi ei kerro minkä ryhmien välillä on merkitseviä eroja. Arvailuja voin tehdä ryhmien keskiarvojen perusteella. Tarkempaan analyysiin tarvitsen parivertailuja. Excel ei tarjoa valmiita työkaluja parivertailujen tekemiseen. SPSS sisältää menetelmiä parivertailujen tekemiseen. Lue lisää artikkelista SPSS: Toistomittausten varianssianalyysi.

Yksisuuntainen varianssianalyysi

Päivitetty 25.4.2019.

Varianssianalyysi on lähinnä kokeellisissa tutkimusasetelmissa käytettävä menetelmä. Varianssianalyysillä voin testata onko ryhmien (kolme tai useampia ryhmiä) keskiarvojen välillä merkitseviä eroja.

Esimerkki. Hiljakkoin työllistetyt 32 vastavalmistunutta jaetaan satunnaisesti neljään erilaiseen myyntikoulutusohjelmaan. Kuukauden koulutuksen jälkeen koulutetuille järjestetään testi, jonka pistemäärät ovat:

Onko koutusohjelmien välillä eroja? Voin tarkastella asiaa alustavasti kaavion avulla. Laadin Excelissä Scatter (Piste) -kaavion, jonka jälkeen valitsin Design (Rakenne) -välilehdeltä Switch Row/Column (Vaihda rivi tai sarake):

Huomautus: Jos ryhmien koot ovat suurempia, niin yllä olevan kaltainen kaavio ei ole havainnollinen, koska pisteet menevät liikaa päällekkäin. Vaihtoehtoisesti voin laatia viivakaavion ryhmien keskiarvoista. Isompien ryhmien kohdalla ruutu- ja janakaavio eli boxplot on havainnollinen.

Kaavion perusteella kolutusohjelmien välillä näyttää olevan eroja. Kaaviossa havaittavat erot voivat kuitenkin johtua satunnaisvaihtelusta. Varianssianalyysin avulla voin selvittää ovatko erot merkitseviä.

Excelin analyysityökalujen avulla voin laskea varianssianalyysin. Jos en ole aiemmin ottanut analyysityökaluja käyttöön, niin voit tehdä sen seuraavasti:

  • Valitsen File – Options (Tiedosto – Asetukset).
  • Valitsen Add Ins (Apuohjelmat) ja valitsen alhaalta Manage (Hallinta) -ruudusta Excel Add Ins (Excel-apuohjelmat).
  • Valitsen Go (Siirry).
  • Valitsen luettelosta Analysis Toolpak (Analyysityökalut) ja valitsen OK.
  • Tämän jälkeen löydän Data (Tiedot) -välilehdeltä analyysityökalut (Data Analysis).

Analyysityökaluista löydän Anova: Single Factor (Anova: yksisuuntainen). Täytän Anova-ikkunaan syöttöalueen (Input Range). Syöttöalueeksi valitsen kaikki testipistemäärät otsikoineen (esimerkkini tapauksessa otsikot ovat 1,2,3,4). Varmistan, että Excel hakee tiedot sarakkeittain (Columns). Lisäksi määritän, että otsikot huomioidaan (Labels in First Row).

Excelin laskemat tulostaulukot näyttävät seuraavilta:

Ylemmästä taulukosta voin lukea eri koulutusohjelmiin liittyvien testipistemäärien keskiarvot ja varianssit (keskihajonnan toinen potenssi). Ensimmäisen koulutusohjelman keskiarvo (79) on selvästi muita korkeampi.

Alemmassa ANOVA-taulukossa vaihtelu on jaettu kahteen osaan: ryhmien väliseen vaihteluun (356,0417) ja ryhmien sisäiseen vaihteluun (84,34821). Mitä suurempi ryhmien välinen vaihtelu on ryhmien sisäiseen vaihteluun verrattuna, sitä merkitsevämpiä eroja ryhmien välillä on. Tämä testataan F-testillä, jonka p-arvon voin lukea taulukosta.

Esimerkin tapauksessa ryhmien välillä on merkiseviä eroja, koska p-arvo 0,014 on pienempi kuin 0,05.

On hyvä tutustua ANOVA-taulukon johtamiseen ja erityisesti vaihtelua mittaavien neliösummien (SS, sum of squares) laskemiseen. Voit tutustua ANOVA-taulukon johtamiseen Excel-tiedoston anovakaavat.xlsx avulla. Olen laskenut tiedostoon Excelin kaavoilla kaikki ANOVA-taulukossa oleva luvut.

Käyttöedellytykset

1. Vertailtavien ryhmien täytyy olla toisistaan riippumattomat.

2. Otoskeskiarvojen täytyy olla peräisin likimain normaalijakaumasta. Jos ryhmät ovat isoja (vähintään 30), niin normaalijakautuneisuus ei yleensä ole ongelma. Jos ryhmät ovat pieniä, voin arvioida normaalijakautuneisuutta otoksen arvojen jakauman perusteella (histogrammi, ruutu- ja janakaavio). Epäselvissä tapauksissa kannattaa testata normaalijakautuneisuus SPSS:llä. Ohjeet ruutu- ja janakaavion tekemiseen ja normaalijakautuneisuuden testaamiseen SPSS:llä löydät artikkelistani SPSS: Explore.

3. Ryhmien varianssien täytyy olla likimain saman suuruisia. Jos käytössä on klassinen koeasetelma, jossa tutkittavat on jaettu satunnaisesti koeryhmään ja vertailuryhmään, niin varianssien pitäisi olla likimain saman suuruisia. Varianssien yhtäsuuruuden tarkistamiseen sopii ruutu- ja janakaavio. Epäselvissä tapauksissa voin testata varianssien yhtäsuuruuden SPSS:n varianssianalyysin laskennan yhteydessä. Lue lisää artikkelistani SPSS: Yksisuuntainen varianssianalyysi.

Jos käyttöedellytykset eivät täyty, niin voin käyttää Kruskal-Wallis -testiä.

Parivertailut

Varianssianalyysi kertoo onko ryhmien keskiarvojen välillä merkitseviä eroja. Sen sijaan varianssianalyysi ei kerro minkä ryhmien välillä on merkitseviä eroja. Arvailuja voin tehdä ryhmien keskiarvojen ja kaavion perusteella. Esimerkkini tapauksessa ei ole vaikeaa arvata, että ainakin koulutusohjelmien 1 (keskiarvo 79)  ja 3 (keskiarvo 64,375) välillä on merkitsevä ero. Olisi kuitenkin hyvä tehdä parivertailuja myös muista pareista. Excel ei tarjoa valmiita työkaluja parivertailujen tekemiseen. Kahden riippumattoman otoksen t-testiä ei voi sellaisenaan käyttää, koska testin toistaminen usealle parille lisää hylkäämisvirheen todennäköisyyttä. SPSS sisältää menetelmiä parivertailujen tekemiseen. Lue lisää artikkelistani SPSS: Yksisuuntainen varianssianalyysi.

Kahden riippuvan otoksen vertailu

Päivitetty 20.4.2019.

Jos haluan tutkia vaikuttaako alkoholi miesten reaktioaikaan, niin voin toimia seuraavasti:

  • valitsen otoksen miehiä
  • mittaan otoksen miehille reaktioajan ilman alkoholin vaikutusta
  • mittaan otoksen miehille reaktioajan sen jälkeen kun he ovat nauttineet tarkoin mitatun määrän alkoholia
  • lasken kullekin miehelle reaktioaikojen eron
  • lasken reaktioaikojen erojen keskiarvon (samaan tulokseen päädyn, jos lasken reaktioaikojen keskiarvojen eron).

Kumpaakin mittausta voin pitää omana otoksenaan, mutta kyseessä ovat toisistaan riippuvat otokset (kyseessähän ovat samat miehet). Riippuvia otoksia voidaan kutsua myös parittaisiksi otoksiksi.

Mitä enemmän erojen keskiarvo poikkeaa nollasta sitä enemmän minulla on perusteita väittää, että alkoholia nauttineilla on eri suuruinen reaktioaika. Pieni poikkeama nollasta voi kuitenkin selittyä otantavirheellä. Otantavirheen osuus on sitä pienempi mitä suurempaa otosta käytän.

Kysymys: Miten voin tietää selittyykö erojen keskiarvon poikkeama nollasta pelkästään otantavirheellä vai onko taustalla myös alkoholin vaikutus reaktioaikaan?

Vastaus: Suoritan kahden riippuvan otoksen t-testin (myös nimitystä parittaisten otosten t-testi käytetään). T-testin tuloksena saan p-arvon. P-arvo on todennäköisyys sille, että erojen keskiarvon poikkeama nollasta selittyy pelkästään otantavirheellä. Mitä pienempi p-arvo sitä enemmän saan tukea sille, että erojen keskiarvo poikkeaa merkitsevästi nollasta.

Vakiintuneen tavan mukaan alle 0,050 (5,0 %) suuruista p-arvoa pidetään riittävänä näyttönä perusjoukossa olevan eron puolesta.

Testin suorittamiseksi minun täytyy valita suoritanko kaksisuuntaisen vai yksisuuntaisen testin. Lisäksi minun on syytä pohtia, onko testin suorittaminen ylipäätään luotettavaa eli täyttyvätkö testin käyttöedellytykset.

Mitä pienempi p-arvo sitä enemmän saan tukea sille, että erojen keskiarvo poikkeaa merkitsevästi nollasta.

Kaksisuuntainen vai yksisuuntainen testi

Jos etukäteen ajateltuna ei ole käsitystä siitä onko erojen keskiarvo positiivinen vai negatiivinen, niin käytän kaksisuuntaista testiä.

Jos etukäteen ajateltuna vain tietyn merkkinen erojen keskiarvo tulee kyseeseen tai olen yksinomaan kiinnostunut tietyn merkkisestä erosta, niin voin käyttää yksisuuntaista testiä. Yksisuuntaisessa testauksessa pienempi poikkeama riittää tilastollisesti merkitsevään testitulokseen.

Testin käyttöedellytykset

Ensiksi tarkasteltavan muuttujan täytyy olla sellainen, että keskiarvon laskeminen on mielekästä. Tällöin myös mittausten erojen keskiarvon laskeminen on mielekästä.

Jos otoskoko on vähintään 30, niin voin käyttää testiä. Tätä pienempien otosten tapauksessa edellytetään, että erot ovat likimain normaalisti jakautuneet. Jos mitattavat muuttujat voidaan olettaa normaalijakautuneiksi, niin sitä suuremmalla syyllä myös mittausten ero voidaan olettaa normaalijakautuneeksi. Jotkin muuttujat ovat luonnostaan sellaisia, että normaalijakautuneisuus voidaan olettaa. Reaktioaika on tällainen muuttuja (useimmat ihmisen fyysisistä ja psyykkisistä ominaisuuksista noudattavat normaalijakaumaa).  Epäselvissä tapauksissa voin yrittää arvioida normaalijakautuneisuutta otosten erojen jakauman perusteella (voin käyttää esimerkiksi histogrammia tai ruutu- ja janakaaviota).

Testin p-arvon laskeminen Excelillä

Voin laskea testin p-arvon Excelin funktiolla =T.TEST(otos1;otos2;suuntaisuus;tyyppi)

  • otos1: viittaus ensimmäiseen otokseen
  • otos2: viittaus toiseen otokseen
  • suuntaisuus: 2 kaksisuuntaiselle testille, 1 yksisuuntaiselle testille
  • tyyppi: 1 riippuvien otosten t-testille

Suomenkielisessä Excelissä funktion nimi on T.TESTI.

Funktion nimeä vaihdettiin Excelin versioon 2010. Aikasemmissa versioissa funktion nimi on TTEST (TTESTI). Vanha funktion nimi toimii edelleen uudemmissa Excelin versioissa.

Esimerkki. Tiedostossa reaktioajat.xlsx on kuvitteellinen esimerkkiaineisto reaktioajoista. Ensimmäisen mittauksen reaktioajat ovat soluissa B2:B16 ja toisen otoksen reaktioajat soluissa C2:C16. P-arvon laskemiseen (yksisuuntainen) voidaan käyttää funktiota =T.TEST(B2:B16;C2:C16;2;1)

Esimerkkiaineiston p-arvo on pienempi kuin 0,001, mikä tarkoittaa erojen keskiarvon tilastollisesti merkitsevää poikkeamaa nollasta.

Testin tulosten raportointi

Tuloksen voin raportoida monellakin tavalla. Tärkeintä on, että otosten keskiarvot, keskihajonnat, otoskoko ja testin p-arvo ovat näkyvillä. Esimerkiksi:

Reaktioaikojen keskiarvo ilman alkoholia 0,226 (keskihajonta = 0,025, n = 15) oli pienempi kuin keskiarvo alkoholin vaikutuksen alaisena 0,243 (keskihajonta = 0,023, n = 15). Ero osoittautui riippuvien otosten t-testillä merkitseväksi: t(14) = 5,621, p < 0,001, 2-suuntainen.

Tieteellisessä tekstissä t-testimuuttujan arvo täytyy ilmoittaa yhdessä vapausasteluvun df kanssa: t(14) = 5,621. Testimuuttujan arvon ja vapausasteluvun saat Excelin analyysityökaluilla (katso reaktioajat.xlsx) tai käyttämällä valmista laskentapohjaa tiedostossa otantavirhe.xlsx.

SPSS

Jos haluat suorittaa testauksen SPSS:llä, niin lue artikkelini SPSS: Kahden riippuvan otoksen vertailu.

Muita menetelmiä kahden riippuvan otoksen vertailuun

Jos keskiarvo ei sovellu tarkasteltavalle muuttujalle, niin tarjolla on kaksi hyvää vaihtoehtoa:

  1. Jos tarkasteltava muuttuja on kaksiarvoinen (joko/tai), niin voit käyttää McNemar-testiä. Voit esimerkiksi testata ostohalukkuuden eroa ennen ja jälkeen tuote-esittelyn. Excelissä ei ole valmista toimintoa testin laskemiseen. SPSS soveltuu hyvin testin laskemiseen.
  2. Jos otoskoko on alle 30 etkä ole varma normaalijakautuneisuudesta, niin riippuvien otosten t-testin sijasta voit käyttää Wilcoxon merkittyjen sijalukujen testiä. Excelissä ei ole valmista toimintoa testin laskemiseen. SPSS soveltuu hyvin testin laskemiseen.

Kahden riippumattoman otoksen vertailu

Miesten reaktioaikaa voin tutkia myös toisenlaisella tutkimusasetelmalla:

  • valitsen kaksi toisistaan riippumatonta otosta miehiä
  • ensimmäisen otoksen miehille mittaan reaktioajan ilman alkoholin vaikutusta
  • toisen otoksen miehille mittaan reaktioajan sen jälkeen kun he ovat nauttineet tarkoin mitatun määrän alkoholia
  • lasken kummallekin otokselle reaktioaikojen keskiarvon.

Tässä asetelmassa otokset ovat toisistaan riippumattomat ja vertailuun täytyy käyttää kahden riippumattoman otoksen t-testiä.

Usein kysyttyä

Kysymys: Olen laskenut keskiarvot ja keskihajonnat, mutta alkuperäinen aineisto ei ole Excelissä. Voinko silti laskea kahden otoksen t-testin.

Vastaus: Voit. Käytä Exceliin laatimaani laskentapohjaa otantavirhe.xlsx. Syötä laskentapohjaan otoskoko, erojen keskiarvo ja erojen keskihajonta.

Kysymys: Voinko laskea virhemarginaalin erojen keskiarvolle?

Vastaus: Kyllä. Käytä Exceliin laatimaani laskentapohjaa otantavirhe.xlsx. Syötä laskentapohjaan otoskoko, erojen keskiarvo ja erojen keskihajonta.

Kahden riippumattoman otoksen vertailu

Päivitetty 20.4.2019.

Jos haluan tutkia vaikuttaako alkoholi miesten reaktioaikaan, niin voin toimia seuraavasti:

  • valitsen kaksi toisistaan riippumatonta otosta miehiä
  • ensimmäisen otoksen miehille mittaan reaktioajan ilman alkoholin vaikutusta
  • toisen otoksen miehille mittaan reaktioajan sen jälkeen kun he ovat nauttineet tarkoin mitatun määrän alkoholia
  • lasken kummallekin otokselle reaktioaikojen keskiarvon.

Mitä enemmän otosten keskiarvot poikkeavat toisistaan sitä enemmän minulla on perusteita väittää, että alkoholi vaikuttaa miesten reaktioaikaan. Pienet erot keskiarvoissa voivat selittyä otantavirheellä. Reaktioajoissa on luontaista vaihtelua miesten välillä ja on sattuman varassa minkälaisen reaktioajan omaavat miehet otoksiin valikoituvat. Otantavirheen osuus on sitä pienempi mitä suurempaa otosta käytän.

Kysymys: Miten voin tietää selittyykö keskiarvojen ero pelkästään otantavirheellä vai onko taustalla myös alkoholin vaikutus reaktioaikaan?

Vastaus: Suoritan kahden riippumattoman otoksen t-testin. T-testin tuloksena saan p-arvon. P-arvo on todennäköisyys sille, että keskiarvojen ero selittyy pelkästään otantavirheellä. Mitä pienempi p-arvo sitä enemmän saan tukea sille, että keskiarvojen välinen ero on merkitsevä.

Vakiintuneen tavan mukaan alle 0,050 (5,0 %) suuruista p-arvoa pidetään riittävänä näyttönä perusjoukossa olevan eron puolesta.

Testin suorittamiseksi minun täytyy valita suoritanko yhtäsuurten vai erisuurten varianssien testin sekä suoritanko kaksisuuntaisen vai yksisuuntaisen testin. Lisäksi minun on syytä pohtia, onko testin suorittaminen ylipäätään luotettavaa eli täyttyvätkö testin käyttöedellytykset.

Mitä pienempi p-arvo sitä enemmän saan tukea sille, että keskiarvojen välinen ero on merkitsevä.

Yhtäsuurten vai erisuurten varianssien testi?

Kahden riippumattoman otoksen t-testistä on kaksi versiota.

  • Yhtäsuurten varianssien testi sopii tilanteisiin, joissa verrattavien ryhmien varianssit (varianssi on keskihajonnan toinen potenssi) ovat likimain yhtäsuuret.
  • Erisuurten varianssien testiä taas voidaan käyttää tilanteisiin, joissa verrattavien ryhmien varianssien yhtäsuuruutta ei voida olettaa.

Kysymys: Mistä tiedän pitääkö käyttää yhtäsuurten vai erisuurten varianssien testiä?

Vastaus: Jos olet epävarma, niin käytä erisuurten varianssien testiä. Jos tiedät perusjoukoissa varianssien olevan likimain yhtäsuuret ja otosten varianssitkin tukevat tätä käsitystä, niin voit käyttää yhtäsuurten varianssien testiä.

Jos olet epävarma, niin käytä erisuurten varianssien testiä.

Kaksisuuntainen vai yksisuuntainen testi?

Jos etukäteen ajateltuna kumman tahansa ryhmän keskiarvo voi olla toista suurempi, niin käytän kaksisuuntaista testiä.

Jos etukäteen ajateltuna vain toisen ryhmän keskiarvo voi olla suurempi tai olen yksinomaan kiinnostunut toisen ryhmän keskiarvon suuremmuudesta, niin voin käyttää yksisuuntaista testiä. Yksisuuntaisessa testauksessa keskiarvojen tilastollisesti merkitsevä ero saavutetaan pienemmällä keskiarvojen erolla.

Testin käyttöedellytykset

Ensiksi tarkasteltavan muuttujan täytyy olla sellainen, että keskiarvon laskeminen on mielekästä.

Jos otoskoot ovat vähintään 30, niin voin käyttää testiä. Tätä pienempien otosten tapauksessa edellytetään, että tarkasteltava muuttuja on perusjoukossaan likimain normaalisti jakautunut. Jotkin muuttujat ovat luonnostaan sellaisia, että normaalijakautuneisuus voidaan olettaa. Reaktioaika on tällainen muuttuja (useimmat ihmisen fyysisistä ja psyykkisistä ominaisuuksista noudattavat normaalijakaumaa). Epäselvissä tapauksissa voin yrittää arvioida normaalijakautuneisuutta otoksen arvojen jakauman perusteella (voin käyttää esimerkiksi histogrammia tai ruutu- ja janakaaviota).

Testin p-arvon laskeminen Excelillä

Voin laskea testin p-arvon Excelin funktiolla =T.TEST(otos1;otos2;suuntaisuus;tyyppi)

  • otos1: viittaus ensimmäiseen otokseen
  • otos2: viittaus toiseen otokseen
  • suuntaisuus: 2 kaksisuuntaiselle testille, 1 yksisuuntaiselle testille
  • tyyppi: 2 yhtäsuurten varianssien testille, 3 erisuurten varianssien testille

Suomenkielisessä Excelissä funktion nimi on T.TESTI.

Funktion nimeä vaihdettiin Excelin versioon 2010. Aikasemmissa versioissa funktion nimi on TTEST (TTESTI). Vanha funktion nimi toimii edelleen uudemmissa Excelin versioissa.

Esimerkki. Tiedostossa reaktioajat.xlsx on kuvitteellinen esimerkkiaineisto reaktioajoista. Ensimmäisen otoksen reaktioajat ovat soluissa C2:C16 ja toisen otoksen reaktioajat soluissa C17:C31. P-arvon laskemiseen (kaksisuuntainen, erisuurten varianssien testi) voin käyttää funktiota =T.TEST(C2:C16;C17:C31;2;3)

Esimerkkiaineiston p-arvo on noin 0,006 (0,6 %), mikä tarkoittaa tilastollisesti merkitsevää keskiarvojen eroa.

Testin tulosten raportointi

Tuloksen voin raportoida monellakin tavalla. Tärkeintä on, että otosten keskiarvot, keskihajonnat, otoskoot ja testin p-arvo ovat näkyvillä. Esimerkiksi:

Alkoholia nauttineiden reaktioaikojen keskiarvo 0,237 sekuntia (keskihajonta = 0,035, n=15) poikkesi raittiiden reaktioaikojen keskiarvosta 0,205 sekuntia (keskihajonta = 0,020, n=15). Ero osoittautui riippumattomien otosten t-testillä merkitseväksi: t(22) = -3,045, p = 0,006, 2-suuntainen.

Tieteellisessä tekstissä t-testimuuttujan arvo täytyy ilmoittaa yhdessä vapausasteluvun df kanssa: t(22) = -3,045. Testimuuttujan arvon ja vapausasteluvun saat Excelin analyysityökaluilla (katso reaktioajat.xlsx) tai käyttämällä valmista laskentapohjaa tiedostossa otantavirhe.xlsx.

SPSS

Jos haluat suorittaa testauksen SPSS:llä, niin lue artikkelini SPSS: Kahden riippumattoman otoksen vertailu.

Muita menetelmiä kahden riippumattoman otoksen vertailuun

Kahden riippumattoman otoksen t-testi soveltuu kokeelliseen tutkimusasetelmaan, jossa vertaillaan kahta riippumatonta otosta, kuten tämän artikkelin reaktioaika-esimerkissä. Testiä voidaan käyttää myös ei-kokeellisissa tutkimusasetelmissa. Esimerkiksi kyselytutkimusainestossa voidaan verrata eläkeläisten ja työssäkäyvien TV:n katseluun käytettyä aikaa.

Jos kahden riippumattoman otoksen t-testi ei tule kysymykseen, niin tarjolla on monia muita menetelmiä ryhmien välisen eron testaamiseen. Lue lisää artikkelistani Onko ryhmien välinen ero tilastollisesti merkitsevä?

Kahden riippuvan otoksen vertailu

Miesten reaktioaikaa voin tutkia myös toisenlaisella tutkimusasetelmalla:

  • valitsen otoksen miehiä
  • mittaan otoksen miehille reaktioajan ilman alkoholin vaikutusta
  • mittaan otoksen miehille reaktioajan sen jälkeen kun he ovat nauttineet tarkoin mitatun määrän alkoholia
  • lasken kullekin miehelle reaktioaikojen eron
  • lasken reaktioaikojen erojen keskiarvon.

Kumpaakin mittausta voin pitää omana otoksenaan, mutta kyseessä ovat toisistaan riippuvat otokset (kyseessähän ovat samat miehet). Tällaisessa asetelmassa otosten vertailuun täytyy käyttää riippuvien otosten t-testiä.

Usein kysyttyä

Kysymys: Olen laskenut keskiarvot ja keskihajonnat, mutta alkuperäinen aineisto ei ole Excelissä. Voinko silti laskea kahden otoksen t-testin.

Vastaus: Voit. Käytä Exceliin laatimaani laskentapohjaa otantavirhe.xlsx. Syötä laskentapohjaan molempien otosten otoskoot, keskiarvot ja keskihajonnat.

Kysymys: Millä tavoin erisuurten ja yhtäsuurten varianssien t-testien laskentatavat eroavat toisistaan?

Vastaus: Lue lisätietoa.

Kysymys: Voinko laskea virhemarginaalin otoskeskiarvojen erolle?

Vastaus: Kyllä. Lue lisätietoa ja käytä Exceliin laatimaani laskentapohjaa otantavirhe.xlsx. Syötä laskentapohjaan molempien otosten otoskoot, keskiarvot ja keskihajonnat.

10 Korrelaatio ja sen merkitsevyys

Päivitetty 17.4.2019. Tämä on Akin menetelmäblogin luetuin artikkeli!

Hallitset jo toivottavasti ristiintaulukoinnin. Ristiintaulukointi on sopiva menetelmä kahden kategorisen muuttujan riippuvuuden tarkasteluun. Kahden määrällisen muuttujan riippuvuutta puolestaan tarkastellaan hajontakaavion ja korrelaatiokertoimen avulla.

Hajontakaavio

Käytän esimerkkinä tiedostosta korrelaatio.xlsx löytyvää dataa, jossa on kolme muuttujaa: opiskelijan läsnäolo lähiopetustunneilla, suoritettujen harjoitustehtävien lukumäärä ja tentin pistemäärä. Haluan selvittää onko lähiopetustunneille osallistumisella ja suoritettujen harjoitustehtävien lukumäärällä yhteyttä tenttipistemäärään.

Saan havainnollisen kuvan asiasta tekemällä hajontakaaviot. Excelissä hajontakaavio on nimeltään Scatter (Piste). Läsnäolon ja tenttipisteiden välisessä hajontakaaviossa en näe merkittävää yhteyttä, vaan havaintopisteet ovat melko satunnaisesti jakautuneet.

Suoritetut harjoitustehtävät sen sijaan näyttävät olevan positiivisessa yhteydessä tenttipistemäärään. Hajontakaaviossa tämä näkyy selvästi nousevana pisteparvena. Alhaiset harjoitustehtävien määrät näyttävät liittyvän alhaisiin tenttipistemääriin ja korkeat harjoitustehtävien määrät näyttävät liittyvän korkeisiin tenttipistemääriin.

Korrelaatiokerroin

Korrelaatiokerroin on tunnusluku suoraviivaisen riippuvuuden voimakkuudelle. Excelissä voin laskea korrelaation funktiolla CORREL (KORRELAATIO). Funktion ensimmäiseksi lähtötiedoksi annetaan viittaus ensimmäisen muuttujan arvoihin ja toiseksi lähtötiedoksi viittaus toisen muuttujan arvoihin.

Korrelaatiokertoimen arvo voi olla mitä tahansa -1 ja +1 väliltä. Lähellä nollaa olevat kertoimet liittyvät tilanteisiin, joissa ei ole suoraviivaista riippuvuutta. Lähellä +1 olevat kertoimet viittaavaat positiiviseen riippuvuuteen (nouseva pisteparvi hajontakaaviossa) ja lähellä -1 olevat kertoimet viittaavat negatiiviseen riippuvuuteen (laskeva pisteparvi hajontakaaviossa).

korre

Esimerkkidatassa läsnäolon ja tenttipistemäärän välinen korrelaatiokerroin on 0,27 ja harjoitusten ja tenttipistemäärän välinen korrelaatiokerroin on 0,84. Korrelaatiokertoimet siis kertovat samaa kuin hajontakaaviot.

Korrelaation merkitsevyys

Jos data pohjautuu laajemmasta perusjoukosta satunnaisesti valittuun otokseen, niin tietyin edellytyksin voin yleistää otoksen tuloksia perusjoukkoon. Korrelaation tapauksessa tämä tarkoittaa muuttujien välisen korrelaation yleistämistä perusjoukkoon.

Pienet korrelaatiot voin selittää otantavirheellä. Otoksessa havaitun korrelaation täytyy olla riittävän suuri, jotta voin yleistää sen perusjoukkoon. Suuruutta testaan vertaamalla korrelaatiokerrointa hypoteettiseen tilanteeseen, jossa ei ole lainkaan korrelaatiota (korrelaatiokerroin on 0). Jos otoksesta laskettu korrelaatiokerroin poikkeaa riittävästi nollasta, niin voin kutsua korrelaatiota tilastollisesti merkitseväksi.

Korrelaatiokertoimen merkitsevyyden testaamiseksi lasketaan niin kutsuttu p-arvo, joka vastaa seuraavaan kysymykseen: kuinka todennäköistä on saada havaitun suuruinen tai vielä kauempana nollasta oleva korrelaatiokertoimen arvo ilman että korrelaatiota on perusjoukossa? Mitä pienempi p-arvo on sitä enemmän korrelaation yleistäminen perusjoukkoon saa tukea.

Vakiintuneen tavan mukaisesti alle 0,05 (5 %) suuruista p-arvoa pidetään riittävänä näyttönä perusjoukossa esiintyvän korrelaation puolesta.

Jos haluat tietää p-arvon laskentaperusteesta, niin lue artikkeli Korrelaatio – lisätietoa.

Voit käyttää p-arvon laskemiseen valmista laskentapohjaa testaa_korrelaatio.xlsx. Kirjoita laskentapohjaan otoskoko ja korrelaatiokerroin, jonka jälkeen voit lukea p-arvon. Käytä 2-suuntaista p-arvoa, jos testaat sitä onko korrelaatio nollasta poikkeava. Käytä 1-suuntaista p-arvoa, jos testaat pelkästään korrelaation positiivisuutta tai pelkästään korrelaation negatiivisuutta.

Jos testaan läsnäolotuntien ja tenttipistemäärän välisen korrelaation positiivisuutta, niin saan 1-suuntaiseksi p-arvoksi 0,143 (otoskoko 17, korrelaatiokerroin 0,2746). Tuloksen voin raportoida esimerkiksi seuraavasti (yleisesti käytössä oleva merkintä korrelaatiokertoimelle on r):

Läsnäolotuntien ja tenttipistemäärän välillä ei ole tilastollisesti merkitsevää positiivista korrelaatiota (r=0,27; n=17; 1-suuntaisen testin p-arvo=0,143).

Jos testaan suoritettujen harjoitusten ja tenttipistemäärän välisen korrelaation positiivisuutta, niin saan 1-suuntaiseksi p-arvoksi 0,000 (otoskoko 17, korrelaatiokerroin 0,8438). Tuloksen voin raportoida esimerkiksi seuraavasti:

Suoritettujen harjoitusten ja tenttipistemäärän välillä on positiivinen korrelaatio (r=0,84; n=17; 1-suuntaisen testin p-arvo<0,001).

Tilastollisen merkitsevyyden ohella kannattaa pohtia myös käytännön merkitsevyyttä. Korrelaatiokerroin voi olla tilastollisesti merkitsevä ja silti vailla käytännön merkitsevyyttä. Yksinkertainen tapa käytännön merkitsevyyden arviointiin on hajontakaavion tarkastelu. Jos et näe hajontakaavion pisteparvessa merkittävää säännönmukaisuutta niin saattaa olla että korrelaatiolla ei ole käytännön merkitsevyyttä.

Poikkeavat arvot

Hajontakaaviossa selvästi muista poikkeavat pisteet ovat ongelmallisia korrelaatiokerrointa käytettäessä. Lue lisää artikkelista Poikkeavat arvot.

Lisätietoa

Artikkelissa Korrelaatiokerroin – lisätietoa on yksityiskohtaisempaa tietoa korrelaatiokertoimen laskennasta, p-arvon laskennasta ja ohje korrelaatiokertoimen luottamusvälin laskentaan.

SPSS

SPSS tulostaa korrelaatiokerrointen yhteyteen automaattisesti p-arvot. Lue lisää SPSS monisteesta spss19.pdf.

9 Keskiarvon virhemarginaali

Päivitetty 19.4.2019.

Otoksen keskiarvo on otoksen keskiarvo. Jos yleistän otoskeskiarvon laajempaan perusjoukkoon, niin minun täytyy huomoida otantavirheen aiheuttama epävarmuus. Otantavirheen aiheuttaman epävarmuuden ilmaisen virhemarginaalin avulla.

Virhemarginaalin laskeminen ja tulkinta

Funktiolla CONFIDENCE.T (LUOTTAMUSVÄLI.T) voin laskea virhemarginaalin. Funktiolle annan kolme lähtötietoa:

  1. 5 % (jos lasken 95 % virhemarginaalin)
  2. otoksen keskihajonta
  3. otoskoko.

Esimerkki.  Eräästä ammattiryhmästä valittiin 200 henkilön satunnaisotos. Henkilöiltä kysyttiin kesän aikana lomamatkoihin käytettyä rahamäärää. Otoksen keskiarvoksi laskettiin 562 € ja keskihajonnaksi 119 €. Virhemarginaaliksi saan funktiolla =CONFIDENCE.T(5 %;119;200) noin 17 €. Virhemarginaalin avulla voin laskea luottamusvälin alarajan 562-17=545 ja ylärajan 562+17=579. Tämä tarkoittaa sitä, että 95 % varmuudella perusjoukon keskiarvo on välillä 545 € – 579 €. Tuloksen voin raportoida esimerkiksi seuraavasti:

Ammattiryhmän jäsenet (n=200) käyttivät kesän aikana lomamatkoihin keskimäärin 562 € (keskiarvo). Keskiarvon 95 % luottamusväli on 545 € – 579 €.

Voit laskea virhemarginaalin ja luottamusvälin myös valmista laskuria käyttäen: virhemarginaali.xlsx.

Tärkeää

Virhemarginaalin arvo on luotettava ainoastaan jos otos on valittu perusjoukosta asianmukaista otantamenetelmää käyttäen.

Usein kysyttyä

Kysymys: Millä laskentakaavalla Excel laskee virhemarginaalin?

Vastaus: CONFIDENCE.T laskee virhemarginaalin kaavalla

virhemarg

Kriittinen arvo kerrotaan otoksesta lasketulla keskihajonnalla ja jaetaan otoskoon neliöjuurella. Kriittinen arvo on t-jakaumasta peräisin oleva otoskoosta riippuva arvo. Mitä isompi otos sitä enemmän t-jakauma alkaa muistuttaa normaalijakaumaa. Tähän perustuen joissain lähteissä kriittisenä arvona käytetään normaalijakauman kriittistä arvoa 1,96. Jos haluat tietää enemmän, niin lue lisätietoa.

Kysymys: Miten menetellään, jos perusjoukon keskihajonta on tiedossa?

Vastaus: Tällöin on aivan oikein käyttää laskennassa normaalijakauman kriittistä arvoa 1,96. Tätä varten on oma funktio CONFIDENCE.NORM (LUOTTAMUSVÄLI.NORM), jonka toisena lähtötietona on perusjoukon keskihajonta.

8 Tunnuslukuja

Päivitetty 21.4.2019.

Määrällisten muuttujien tapauksessa ei kannata pihtailla tunnuslukujen kanssa. Määrälliselle muuttujalla kannattaa laskea ainakin

  • keskiarvo ja keskihajonta
  • viiden luvun yhteenveto (pienin, alaneljännes eli alakvartiili, mediaani, yläneljännes eli yläkvartiili, suurin)
  • havaintojen lukumäärä (n).

Keskiarvo ja mediaani

Keskiarvo (arvojen summa jaettuna arvojen lukumäärällä) ja mediaani (suuruusjärjestykseen järjestettyjen arvojen keskimmäinen tai kahden keskimmäisen keskiarvo) pyrkivät mittaamaan jakauman keskikohtaa. Jos keskiarvo ja mediaani ovat lähellä toisiaan, niin tämä viittaa jakauman symmetrisyyteen. Muista arvoista selvästi poikkeavat arvot vaikuttavat voimakkaasti keskiarvoon:

  • Jos keskiarvo on mediaania suurempi, niin tämä viittaa oikealle vinoon jakaumaan.
  • Jos keskiarvo on mediaania pienempi, niin tämä viittaa vasemmalle vinoon jakaumaan.

Poikkeavista arvoista ja niihin suhtautumisesta voit lukea lisää artikkelista Poikkeavat arvot.

Jos keskiarvo ja mediaani poikkeavat selvästi toisistaan, niin mediaani on yleensä paremmin jakauman keskikohtaa kuvaava luku.

Keskihajonta

Keskihajonta pyrkii mittaamaan arvojen vaihtelua keskiarvon molemmin puolin. Keskihajonta ilmaisee havaintojen keskimääräisen poikkeaman keskiarvosta. Pelkästään keskihajonnan lukuarvon perusteella on vaikeaa muodostaa mielikuvaa arvojen vaihtelusta. Keskihajonta on kuitenkin tilastollisessa mielessä tärkeä tunnusluku, jota käytetään muun muassa keskiarvon virhemarginaalin laskemiseen.

Viiden luvun yhteenveto

Viiden luvun yhteenveto antaa hyvän kuvan arvojen vaihtelusta. Viiden luvun yhteenvedon avulla arvojen vaihteluväli pienimmästä suurimpaan jaetaan neljään osaan:

  • pienimmän ja alanejänneksen välinen osa sisältää 25 % arvoista
  • alaneljänneksen ja mediaanin välinen osa sisältää 25 % arvoista
  • mediaanin ja yläneljänneksen välinen osa sisältää 25 % arvoista
  • yläneljänneksen ja suurimman välinen osa sisältää 25 % arvoista.

Laskenta Excelin funktioilla

Voin laskea tunnuslukuja datan yläpuolelle, alapuolelle, viereen, toiseen taulukkoon  tai jopa  toiseen työkirjaan. Minulla on tapana laskea tunnuslukuja datan yläpuolelle. Tätä varten lisään datan yläpuolelle riittävän määrän tyhjiä rivejä (yhden enemmän kuin laskettavia tunnuslukuja, jotta tunnuslukujen ja datan väliin jää tyhjä rivi). Jollen tarvitse ensimmäiseen sarakkeeseen tunnuslukuja, niin kirjoitan siihen itseäni varten laskettavien tunnuslukujen nimet (keskiarvo, keskihajonta jne.). Tunnuslukujen laskennan suoritan Excelin funktioilla:

  • =AVERAGE(alue) (KESKIARVO)
  • =STDEV.S(alue) (KESKIHAJONTA.S)
  • =MIN(alue) (MIN)
  • =PERCENTILE.EXC(alue;25 %) (PROSENTTIPISTE.ULK)
  • =MEDIAN(alue) (MEDIAANI)
  • =PERCENTILE.EXC(alue;75 %) (PROSENTTIPISTE.ULK)
  • =MAX(alue) (MAKS)
  • =COUNT(alue) (LASKE)

Funktioiden vaatima lähtötieto ’alue’ on viittaus arvoihin, joista tunnusluku lasketaan. Alaneljännes ja yläneljännes lasketaan samalla funktiolla PERCENTILE.EXC, jolle pitää ylimääräisenä lähtötietona antaa 25 % (alaneljännes) tai 75 % (yläneljännes). Huomaa, että lähtötietojen väliin kirjoitetaan puolipiste.

Vanhempien Excel-versioiden käyttäjille: Excel 2010:een tuli joitain uudistuksia funktioihin. Excel 2007 ja sitä vanhemmissa käytetään STDEV.S sijasta funktiota STDEV (KESKIHAJONTA) ja PERCENTILE.EXC sijasta funktiota PERCENTILE (PROSENTTIPISTE). PERCENTILE.EXC saattaa antaa hieman PERCENTILE-funktiosta poikkeavan tuloksen, mutta erolla ei yleensä ole käytännön merkitystä (lisätietoa). Vanhat funkiot toimivat edelleen uudemmissa versioissa.

Seuraavassa olen lisännyt 9 tyhjää riviä datan data1.xlsx yläpuolelle. Esimerkiksi keskiarvon olen laskenut funktiolla =AVERAGE(B11:B92) ja alaneljänneksen funktiolla =PERCENTILE.EXC(B11:B92;25 %). Sarakkeeseen B laskemani funktiot olen kopioinut muihin sarakkeisiin: Valitsin solut B1:B8, tartuin hiirellä kiinni valittujen solujen oikean alakulman neliöstä ja vedin oikealle.

Kuvaamallani menettelyllä tulen laskeneeksi tarpeettomiakin tunnuslukuja. Esimerkiksi sukupuolelle ainoastaan vastausten lukumäärä (n) on käyttökelpoinen tunnusluku. Tarpeettomia tunnuslukuja en tietenkään raportoi.

Raportointia varten tunnuslukuja kannattaa kopioida uuteen taulukkoon. Liittäminen täytyy tehdä arvoina käyttäen Paste Values (Liitä arvot) -toimintoa. Desimaalien määrä täytyy säätää tilanteeseen sopivaksi. Esimerkiksi palkkaan liittyvät tunnusluvut voin esittää seuraavasti:

Taulukosta näen keskiarvoa ja mediaania vertaamalla, että aineistossa on joitain erityisen suuria palkkoja. Tämä käsitys vahvistuu, kun katson suurinta arvoa. Viiden luvun yhteenveto antaa hyvän mielikuvan siitä miten palkat ovat jakaantuneet. Voin esimerkiksi todeta, että puolella työntekijöistä palkka on välillä 2027 euroa – 2817 euroa.

Tunnuslukuja ryhmittäin

Jos haluan vertailla miesten ja naisten palkkajakaumaa, niin lasken palkan tunnuslukuja sukupuolen määräämissä ryhmissä. Voin tehdä tämän esimerkiksi seuraavasti:

  • Lasken tunnusluvut koko aineistolle.
  • Lajittelen (järjestän) aineiston ryhmittelevän muuttujan (esimerkiksi sukupuoli) mukaan.
  • Teen aineistosta kopioita (pidän  ctrl-näppäintä alhaalla ja raahan alareunan taulukonvalitsinta hieman oikealle).
  • Poistan kopioista ne rivit, jotka eivät kuulu haluamaani osa-aineistoon.
  • Osa-aineiston tunnusluvut voin kopioida uuteen taulukkoon vierekkäin, jolloin vertailu käy mahdolliseksi.

Toinen mahdollisuus on käyttää AGGREGATE (KOOSTE) -funktiota yhdessä aineiston suodatuksen kanssa.

 Aggregate-funktio

Voin laskea tunnusluvut siten, että tunnusluvun arvo vaihtuu aineiston suodatuksen (Filter) mukana. Jos suodatus ei ole sinulle tuttua, niin lue artikkeli 2 Excel Table (Taulukko). Laskennan toteutan käärimällä tunnuslukufunktion AGGREGATE (KOOSTE) -funktion sisään.

  • Aloitan funktion rakentamisen kirjoittamalla suoraan tyhjään soluun funktion nimen alkua =AG, jonka jälkeen Excel jo ehdottaakin AGGREGATE-funktiota. Jos hyväksyn Excelin ehdotuksen tab/sarkain-näppäimellä, niin Excel täydentää funktion nimen ja lisää sulkumerkin =AGGREGATE(.
  • Sulkumerkin jälkeen Excel tarjoaa luetteloa tilastollisia tunnuslukuja laskevista funktioista. Valitsen luettelosta haluamani funktion. Voin liikkua luettelossa nuolilla ja valita tab/sarkain-näppäimellä tai hiiren kaksoisnapsauksella.
  • Seuraavaksi kirjoitan lähtötietojen väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen Excel tarjoaa monenlaisia oudonnäköisiä vaihtoehtoja, joista valitsen vaihtoehdon 5 (Ignore hidden rows), jonka ansiosta funktio reagoi suodatuksiin.
  • Seuraavaksi kirjoitan lähtötietojen väliin erotinmerkiksi puolipisteen ;
  • Puolipisteen jälkeen näytän hiirellä ne arvot, joista lasken tunnuslukua.
  • Jos en ole laskemassa ala- tai yläneljännestä, niin kirjoitan sulkumerkin ) ja napsautan enter-painiketta. Jos olen laskemassa ala- tai yläneljännestä, niin kirjoitan puolipisteen ; ja viimeiseksi argumentiksi 25 % (alaneljännes) tai 75 % (yläneljännes).

Voin tämän jälkeen todeta, miten funktion tulos vaihtuu suodatusten mukana. Voin helposti esimerkiksi suodattaa näkyville miehet ja kopioida miesten tunnusluvut jonnekin. Tämän jälkeen voin suodattaa näkyville naiset ja kopioida naisten tunnusluvut miesten tunnuslukujen viereen. Muistan tietysti käyttää liittämiseen Paste Values (Liitä arvot) -toimintoa.

Pienin palkka näyttää olevan miehellä. Miesten ja naisten alaneljännekset eivät poikkea paljoa toisistaan. Mediaani ja yläneljännes ovat miehillä selvästi suuremmat. Naisten joukossa ei ole suuripalkkaisia lainkaan.

Graafinen esittäminen

Graafiseen esittämiseen ruutu- ja janakaavio on erinomainen valinta. Ruutu- ja janakaavio havainnollistaa viiden luvun yhteenvedon.

Seuraavaksi

Katso Excel-esimerkkejä tunnuslukuja.xlsx.

Otoskesta lasketut tunnusluvut kuvailevat lähtökohtaisesti otosta. Jos otoksesta laskettuja tunnuslukuja yleistetään laajempaan perusjoukkoon, niin yleistämiseen liittyy otantavirheen aiheuttamaa epävarmuutta. Keskiarvon kohdalla epävarmuuden suuruus voidaan ilmaista virhemarginaalin avulla. Tästä enemmän artikkelissa 9 Keskiarvon virhemarginaali.

7 Mielipideasteikon keskiarvo

Päivitetty 17.4.2019.

Datassa data1.xlsx on muiden muassa vastauksia kysymyksiin, joissa on kysytty tyytyväisyyttä eri asioihin. Asteikkona on viisiportainen mielipideasteikko:

  • 1 erittäin tyytymätön
  • 2 tyytymätön
  • 3 ei tyytymätön eikä tyytyväinen
  • 4 tyytyväinen
  • 5 erittäin tyytyväinen

Mielipiteiden jakauman voin esittää yhteenvetotaulukkona, jossa on eri mielipiteiden lukumäärät (ja/tai prosentit). Tästä voit lukea aiemmasta artikkelistani 3 Taulukointi. Jos haluan esittää pikayhteenvedon tyytyväisyyksistä eri asioihin, niin voin laskea mielipiteiden keskiarvot:

Keskiarvon perusteella voin muodostaa mielikuvan vastaajien keskimääräisestä mielipiteestä. Erityisesti tarkastan kaksi asiaa:

  • Onko keskiarvo tyytymättömän vai tyytyväisen puolella eli alle vai yli 3?
  • Kuinka kaukana asteikon keskikohdasta keskiarvo on?

Keskihajonta ilmaisee, kuinka paljon mielipiteet keskimäärin poikkeavat keskiarvosta? Keskihajonnan perusteella voin muodostaa mielikuvan mielipiteiden vaihtelusta. Mitä suurempi keskihajonta, sitä enemmän mielipiteet ovat vaihdelleet.

On tärkeää ilmoittaa myös keskiarvon taustalla olevien mielipiteiden eli vastausten lukumäärä (n).

Voinko käyttää keskiarvoja?

Joissain menetelmäoppaissa kielletään, toisissa taas sallitaan keskiarvon käyttö mielipideasteikon yhteydessä. Keskiarvon käyttökieltoa perustellaan sillä, että mielipide on kategorinen (tarkemmin ottaen järjestysasteikollinen) muuttuja, jolle ei ole mielekästä laskea keskiarvoa. Tällöin ajatellaan, että mielipeasteikko ei mittaa tasavälisesti mielipiteen määrää. Keskiarvon käyttöä taas perustellaan sillä, että mielipideasteikkoa voidaan pitää kuta kuinkin tasavälisenä asteikkona, joka mittaa mielipiteen määrää. Tätä perustelua ei kuitenkaan voida vastaansanomattomasti osoittaa oikeaksi.

Käytäntö on osoittanut, että keskiarvot antavat useimmissa tapauksissa oikeansuuntaisen ja käyttökelpoisen arvion keskimääräisestä mielipiteestä. Keskiarvon käytössä kannattaa kuitenkin huomoida seuraavat seikat:

  • Mielipiteiden jakauma pitää aina tarkistaa lukumäärä/prosentti-taulukosta. Erikoisten jakaumien kohdalla keskiarvoihin pitää suhtautua varoen. Äärimmäinen esimerkki: Viisiportaisen mielipideasteikon keskiarvoksi saadaan 3, jos kaikki mieliteet ovat 3; samaan keskiarvoon päädytään jos puolet mielipiteistä on 1 ja puolet 5.
  • Keskiarvon lisäksi kannattaa laskea keskihajonta, joka mittaa mielipiteiden vaihtelua.
  • Jos vastaajille on tarjottu muitakin vaihtoehtoja kuin varsinaisen mielipideasteikon arvoja (esimerkiksi ’En tiedä asiasta’), niin nämä täytyy jättää keskiarvon laskennan ulkopuolelle. Tämän voin käytännössä toteuttaa tekemällä aineistostani keskiarvojen laskentaa varten kopion, jossa korvaan laskennan ulkopuolelle jätettävät arvot tyhjillä soluilla tai tekstimuotoisella tiedolla Excelin Home (Aloitus) -välilehden Find&Select – Replace (Etsi ja valitse – Korvaa) -toiminnolla.
  • Lukumäärät ja/tai prosentit sisältävä yhteenvetotaulukko on tyhjentävä esitys mielipiteiden jakaumasta ja näin ollen aina tarkempi kuin keskiarvo.

Kukin tehköön oman ratkaisunsa keskiarvojen käyttämisestä tai käyttämättä jättämisestä.

Keskiarvojen laskenta pivot-taulukkoon

Jos haluan laskea keskiarvot datan data1.xlsx tyytyväisyysmuuttujille, niin toimin seuraavasti:

  • Valitsen täsmälleen yhden solun datan alueelta.
  • Valitsen Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).
  • Raahaan tyytyväisyysmuuttujat yksi kerrallaan kenttäluettelon (PivotTable Field List) Values (Arvot) -ruutuun.
  • Vaihdan kunkin Values (Arvot) -ruudun kentän laskentaperusteeksi Average (Keskiarvo). Laskentaperusteen vaihtoon pääsen napsauttamalla kenttää ja valitsemalla avautuvasta valikosta Value Field Settings (Arvokentän asetukset).
  • Lopuksi raahaan sarakeotsikoiden (Column Labels)  Values (Arvot) -palikan riviotsikoihin (Row Labels), jotta saan keskiarvot allekkain.

Pivot-taulukko pitkine otsikoineen ja liikoine desimaaleineen kaipaa jonkin verran viimeistelyä.

Keskihajonnat saan laskettua vastaavalla tavalla:

  • Valitsen täsmälleen yhden solun datan alueelta.
  • Valitsen Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).
  • Raahaan tyytyväisyysmuuttujat yksi kerrallaan kenttäluettelon (PivotTable Field List) Values (Arvot) -ruutuun.
  • Vaihdan kunkin Values (Arvot) -ruudun kentän laskentaperusteeksi StdDev (Keskihajonta). Laskentaperuteen vaihtoon pääsen napsauttamalla kenttää ja valitsemalla avautuvasta valikosta Value Field Settings (Arvokentän asetukset).
  • Lopuksi raahaan sarakeotsikoiden (Column Labels)  Values (Arvot) -palikan riviotsikoihin (Row Labels), jotta saan keskihajonnat allekkain.

Tämän jälkeen teen vielä kolmannen pivot taulukon, johon lasken vastausten määrät (Count).

Voin kopioida keskiarvot, keskihajonnat ja vastausten määrät uuteen taulukkoon vierekkäin.

Jos tarkasteltavilla asioilla ei ole mitää luontaista järjestystä, niin tunnuslukuja sisältävä taulukko kannattaa järjestää keskiarvojen mukaiseen järjestykseen.

Järjestämisen voin tehdä valitsemalla taulukon sisällön sarakeotsikoita lukuunottamatta. Tämän jälkeen valitsen Home (Aloitus) -välilehdeltä Sort&Filter – Custom Sort (Lajittele ja suodata – Mukautettu lajittelu). Lajitteluperusteeksi (Sort by) valitsen keskiarvon.

Taulukosta nähdään, että kaikkein tyytymättömimpiä oltiin palkkaan (keskiarvo=2,1) ja kaikkein tyytyväisimpiä työtovereihin (keskiarvo=4,1). Muiden asioiden kohdalla keskiarvot ovat lähellä mielipideasteikon keskikohtaa. Tyytyväisyys työympäristöön jakoi mielipiteitä eniten (keskihajonta=1,2). Tyytyväisyys palkkaan jakoi mielipiteitä vähiten (keskihajonta=0,8).

Graafinen esittäminen

Huolellisesti viimeistelty keskiarvot, keskihajonnat ja n-arvot sisältävä taulukko on havainnollinen ja  täsmällinen esitystapa. Näin ollen graafista esittämistä ei tarvita. Jos kuitenkin haluat havainnollistaa keskiarvoja graafisesti, niin voit käyttää pylväskaaviota.

On tärkeää katkaista arvoakseli alkamaan mielipideasteikon pienimmän arvon kohdalta (tässä 1). Myös arvoakselin otsikointiin on kiinnitettävä erityistä huomiota. Jos haluat kerrata/opetella kaavioiden tekemistä ja muotoilua, niin voit hyödyntää itseopiskelupakettiani kaavio.xlsx.

Keskiarvoja ryhmissä

Jos olen laskenut tunnuslukuja pivot-taulukkoon, niin voin tarkastella tunnuslukuja ryhmittäin raahaamalla ryhmittelevän muuttujan sarakeotsikoihin (Column Labels). Siistimisen jälkeen tyytyväisyys-muuttujien keskiarvot sukupuolittain näyttävät seuraavalta:

On tärkeää, että näkyvillä on n-arvo, josta nähdään kuinka monesta havainnosta keskiarvot on laskettu. Jos n-arvoissa on vaihtelua puuttuvien vastausten takia, niin riittää ilmoittaa n pienimmillään. Esimerkkimme tapauksessa n-arvoista paljastuu, että naisia ei ole aineistossa kuin 19 kpl. Näin pienen otoksen kohdalla keskiarvoihin täytyy suhtautua varoen. Myös keskihajontojen esittäminen sukupuolittain voisi olla paikallaan. Keskihajonnat voi liittää omiin sarakkeisiinsa samaan taulukkoon keskiarvojen kanssa, mutta tämä luonnollisesti heikentää taulukon luettavuutta. Toinen vaihtoehto on esittää keskihajonnat kokonaan omana taulukkonaan.

Jos haluan graafista havainnollistusta, niin voin käyttää pylväskaaviota:

On tärkeää katkaista arvoakseli alkamaan mielipideasteikon pienimmän arvon kohdalta (tässä 1). Myös arvoakselin otsikointiin on kiinnitettävä erityistä huomiota. Jos haluat kerrata/opetella kaavioiden tekemistä ja muotoilua, niin voit hyödyntää itseopiskelupakettiani kaavio.xlsx.

Seuraavaksi

Voin laskea tilastollisia tunnuslukuja Excelin funktioilla. Tämä on monessa mielessä jopa kätevämpää kuin tunnuslukujen laskenta pivot-taulukkoon. Lisäksi tällöin käytössäni on sellaisiakin tunnuslukuja, joita ei ole mahdollista laskea pivot-taulukkoon. Funktioiden käytöstä lisää artikkelissa 8 Tunnuslukja.

6 Ristiintaulukointi ja khiin neliö -testi

Päivitetty 17.4.2019.

Jos datani pohjautuu laajemmasta perusjoukosta satunnaisesti valittuun otokseen, niin tietyin edellytyksin voin yleistää otoksen tuloksia perusjoukkoon. Ristiintaulukoinnin tapauksessa tämä tarkoittaa taulukossa havaitun riippuvuuden tai ryhmien välisen eron yleistämistä perusjoukkoon.

Otoksessa havaitun riippuvuuden tai ryhmien välisen eron täytyy olla riittävän suuri, jotta voin yleistää sen perusjoukkoon. Jos riippuvuus tai ryhmien välinen ero on pieni, niin tämän voin selittää otantavirheellä. Riippuvuuden tai eron suuruutta testaan vertaamalla hypoteettiseen tilanteeseen, jossa ei ole lainkaan riippuvuutta tai lainkaan eroja ryhmien välillä. Vertailun toteuttamiseksi lasken ristiintaulukoinnin rinnalle toisen ristiintaulukoinnin, joka vastaa hypoteettista tilannetta.

Tärkeää: Vaikka ristiintaulukoinnissa on havainnollisempaa esittää prosentit kuin lukumäärät, niin khiin neliö -testauksen lähtökohtana käytetään aina lukumääriä.

Hypoteettisen ristiintaulukoinnin laskeminen

Käytän seuraavassa esimerkkidataa data1.xlsx. Datasta laskettu sukupuolen ja tyytyväisyys työympäristöön välinen ristiintaulukointi näyttää seuraavalta:

Taulukossa on havaittavissa ero miesten ja naisten mielipiteissä (naiset tyytyväisempiä). Eron suuruuden selville saamiseksi lasken hypoteettisen ristiintaulukoinnin, jossa eroa ei ole. Hypoteettisessa taulukossa miesten ja naisten yhteismäärien pitää olla havaitun taulukon mukaiset samoin eri mielipiteitä omaavien yhteismäärät.

Hypoteettisen taulukon lukumäärät saan kertomalla havaitun taulukon rivi- ja sarakesummat keskenään ja jakamalla kokonaissummalla (82). Esimerkiksi erittäin tyytymättömien miesten lukumääräksi saan  (9*63)/82 eli noin 6,9. Laskentamenetelmä perustuu todennäköisyyslaskentaan:

  • Jos erittäin tyytymättömiä on 9, niin todennäköisyys sille että otoksesta sattumanvaraisesti valittu on erittäin tyytymätön on 9/82.
  • Jos miehiä on 63, niin todennäköisyys sille että otoksesta sattumanvaraisesti valittu on mies on 63/82.
  • Todennäköisyyden sille että otoksesta sattumanvaraisesti valittu on erittäin tyytymätön mies saan kertomalla todennäköisyydet 9/82 ja 63/82 keskenään. Kyseinen todennäköisyys kertoo samalla erittäin tyytymättömien miesten prosenttiosuuden siinä tapauksessa että miesten ja naisten mielipiteillä ei ole eroa.
  • Laskemalla erittäin tyytymättömien miesten lukumäärä erittäin tyytymättömien miesten prosenttiosuutta käyttäen saan (9/82)*(63/82)*82. Sievennyksen jälkeen tästä tulee (9*63)/82.

Jos lasken taulukon muihin soluihin lukumäärät vastaavalla tavalla (rivisumman ja sarakesumman tulo jaettuna kokonaissummalla), niin saan seuraavan taulukon:

Taulukon lukumääriä kutsutaan odotetuiksi lukumääriksi tai odotetuiksi frekvensseiksi (expected frequencies) ja ne siis vastaavat hypoteettista tilannetta, jossa sukupuolen ja mielipiteen välillä ei ole riippuvuutta (miesten ja naisten mielipiteissä ei ole eroa).

Testin käyttöedellytykset

Havaitun taulukon ja hypoteettisen taulukon eron testaaminen ei ole luotettavaa, jos hypoteettisen taulukon lukumäärät eli odotetut frekvenssit ovat liian pieniä. Kirjallisuudessa annetaan hieman toisistaan poikkeavia rajoja sille, milloin testaaminen muuttuu epäluotettavaksi. Monissa lähteissä esitetään seuraavat kriteerit testaamisen luotettavuudelle:

  • Taulukossa, jossa on kaksi riviä ja kaksi saraketta (2×2 taulukko) ei saa olla yhtään alle viiden (5) suuruista odotettua frekvenssiä.
  • Suuremmissa taulukoissa alle viiden (5) suuruisia odotettuja frekvenssejä saa olla viidesosa (20 %) kaikista odotetuista frekvensseistä. Alle yhden (1) suuruisia odotettuja frekvenssejä ei saa olla lainkaan.

Edellä lasketussa taulukossa on kolme alle viiden suuruista odotettua frekvenssiä eli 3/10=30 % kaikista. Tämä on liikaa.

Esimerkissäni voin luontevasti yhdistää mielipiteitä (erittäin tyytymätön ja tyytymätön yhteen sekä erittäin tyytyväinen ja tyytyväinen yhteen). Näin taulukko pienenee 5×2 taulukosta 3×2 taulukoksi, jolloin taulukon lukumäärät kasvavat. Esimerkissäni mielipiteiden yhdistäminen korjaa tilanteen eikä alle viiden suuruisia odotettuja frekvenssejä ole kuin 1 (1/6 eli 17 % kaikista).

Khiin neliö Χ²

Havaitun ja hypoteettisen taulukon eroa voin mitata khiin neliö -testimuuttujalla. Khiin neliön merkkinä käytetään kreikkalaista isoa khi-kirjainta varustettuna yläindeksillä 2 (Χ²). Khi-kirjaimen sijasta voin käyttää myös isoa X-kirjainta. En selitä tässä khiin neliö -testimuuttujan laskemista, mutta halutessasi voit lukea testimuuttujan laskemisesta ja khiin neliö -jakaumasta artikkelista Khiin neliö -testi – lisätietoa.

Khiin neliö -testimuuttujan tiedetään noudattavan likimain khiin neliö -todennäköisyysjakaumaa, jonka tarkka muoto riippuu vapausasteluvusta df (degrees of freedom). Vapausasteita on (rivien määrä-1)×(sarakkeiden määrä-1). Esimerkiksi 2×2 taulukossa df=(2-1)×(2-1)=1. Tämän voi ymmärtää helposti: Jos taulukon rivi- ja sarakesummat ovat tiedossa, niin ainoastaan yhden arvon voi asettaa 2×2 taulukkoon vapaasti; muut arvot määräytyvät tämän perusteella.

Khiin neliö -testi

Khiin neliö -testissä määritetään khiin neliö -todennäköisyysjakaumasta niin kutsuttu p-arvo, joka vastaa seuraavaan kysymykseen: Kuinka todennäköistä on saada havaitun suuruinen tai vielä suurempi khiin neliö -testimuuttujan arvo ilman riippuvuutta tai eroa perusjoukossa? Mitä pienempi p-arvo on, sitä enemmän riippuvuuden tai eron yleistäminen perusjoukkoon saa tukea. Toisaalta, mitä suurempi p-arvo on, sitä todennäköisemmin havaitut erot johtuvat otantavirheestä.

Vakiintuneen tavan mukaan alle 0,050 (5,0 %) suuruista p-arvoa pidetään riittävänä näyttönä perusjoukossa olevan riippuvuuden tai eron puolesta.

Excelissä voin laskea p-arvon CHISQ.TEST (CHINELIÖ.TESTI) -funktiolla. Funktiolle annetaan kaksi argumenttia: viittaus havaittuihin frekvensseihin ja viittaus odotettuihin frekvensseihin. Excel 2007 ja vanhemmissa versioissa funktion nimi on CHITEST (CHITESTI). Vanha funktion nimi toimii edelleen myös uudemmissa versioissa.

Khiin neliö -testin raportointi

Esimerkissäni mielipiteiden yhdistämisen jälkeen laskettu khiin neliö -testi antaa p-arvoksi 0,005. Tuloksen voin raportoida esimerkiksi seuraavasti: Miesten ja naisten mielipiteissä on merkitsevää eroa (khiin neliö -testin p-arvo 0,005). Tieteellisessä tekstissä tulos on hyvä raportoida vieläkin täsmällisemmin ilmoittamalla vapausasteiden lukumäärä (df) ja khiin neliö -testimuuttujan arvo: Khiin neliö -testin mukaan miesten (n=63) ja naisten (n=19) mielipiteissä on eroa: df=2; Χ²(2)=10,59; p=0,005.

Excel laskee puolestasi

Onneksi jaksoit lukea tänne asti. Kaikkea ei tarvitse laskea alusta alkaen. Voit käyttää rakentamiani taulukkopohjia otantavirhe.xlsx, joihin voit kirjoittaa tai kopioida oman taulukkosi lukumäärät. Tämän jälkeen näet suoraan odotetut frekvenssit, khiin neliön Χ², vapausasteiden lukumäärän df ja p-arvon. Sinun tehtäväksesi jää tulosten raportointi.

Jos haluat laskea khiin neliö -testin SPSS:llä, niin lue artikkeli SPSS: Khiin neliö -testi.

Yhteenveto

Jos otoksesta lasketussa ristiintaulukoinnissa näkyy ryhmien välisiä eroja, niin

  • Mitä pienempi p-arvo, sitä enemmän saan tukea väitteelle, että myös perusjoukossa on ryhmien välisiä eroja. Yleensä alle 0,050 (5,0 %) suuruista p-arvoa pidetään varsin hyvänä tukena väitteelle, että myös perusjoukossa on ryhmien välisiä eroja.
  • mitä isompi p-arvo, sitä todennäköisemmin otoksessa havaitut erot johtuvat pelkästään otantavirheestä.

Vaihtoehtoja khiin neliö -testille

Khiin neliö -testi soveltuu käytettäväksi erityisesti kahden kategorisen muuttujan tapauksessa. Jos toinen muuttujista on mielipideasteikollinen, niin Mann-Whitney U -testi (kahden ryhmän vertailu) tai Kruskal-Wallis -testi (useamman ryhmän vertailu) ovat suositeltavampia testimenetelmiä. Tämän artikkelin esimerkissä toisena muuttujana on mielipideasteikollinen muuttuja. Esimerkissä tuleekin ongelmia khiin neliö -testin käyttöedellytysten kanssa. Mann-Whitney U -testissä ei tule ongelmia käyttöedellytysten kanssa. Valitettavasti Excelissä ei ole toimintoa Mann-Whitney U -testin tai Kurskal-Wallis -testin laskemiseen.

5 Ristiintaulukointi

Päivitetty 17.4.2019.

Ristiintaulukoinnin laatiminen

Hallitsethan varmasti artikkelin 3 Taulukointi asiat sillä muutoin ei kannata lukea tätä artikkelia.

Käytän seuraavassa esimerkkidataa data1.xlsx, joka sisältää erään yrityksen työntekijöiden vastauksia. Selvitän onko miesten tyytyväisyys työympäristön suhteen erilainen kuin naisten. Kyseessä on siis ryhmien, miesten ja naisten, vertailu. Voin myös sanoa, että selvitän sukupuolen ja mielipiteen välistä riippuvuutta.

Aloitan valitsemalla yhden ja vain yhden solun datan alueelta (tärkeää!). Tämän jälkeen valitsen Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).

Aukeavasta ikkunasta tarkastan, että Excel on arvannut datani oikein. Voin myös määrittää luotavan pivot-taulukon sijainnin, mutta yleensä oletus (New Worksheet) kelpaa minulle.

OK:n jälkeen raahaan ’tyytyväisyys työympäristöön’ -muuttujan riviotsikoihin (Row Lables) ja arvoihin (Values). Tämän jälkeen on tärkeää tarkastaa laskentaperuste ja vaihtaa se tarvittaessa. Jos Excel ehdottaa summaa niin vaihdan sen määräksi (Count). Vaihtaminen tapahtuu napsauttamalla Arvot (Values) -ruudun kenttää ja valitsemalla esiin tulevasta valikosta Value Field Settings (Arvokentän asetukset).

Seuraavaksi lisään ryhmittelyn miehiin ja naisiin raahaamalla ’sukupuoli’-muuttujan sarakeotsikohin (Column Labels). Tuloksena on jotain seuraavan kaltaista:

Taulukon sisältö selvenee, kun korvaan sarakeotsikoiden arvot 1 ja 2 sanoilla mies ja nainen sekä korvaan riviotsikoiden arvot 1, 2, 3, 4 ja 5 mielipiteiden nimillä.

Pienen viimeistlyn jälkeen sain taulukon näyttämään seuraavalta:

Miesten ja naisten lukumäärien vertailu eri mielipiteiden kohdalla on ongelmallista, koska miesten ja naisten yhteismäärät eivät ole samat. Prosenttien vertailu on valaisevampaa. Jos lisään alkuperäiseen taulukkoon prosentit lukumäärien lisäksi, niin taulukosta tulee vaikeasti luettava, varsinkin henkilöille, jotka eivät pidä numeroista. En siis lisää uutta kenttää prosentteja varten, vaan vaihdan arvokentän tiedon näyttötavaksi prosenttia sarakkeen summasta (Percent of Column Total). Vaihtaminen tapahtuu napsauttamalla Values (Arvot) -ruudun kenttää, valitsemalla esiin tulevasta valikosta Value Field Settings (Arvokentän asetukset) ja siirtymällä edelleen Show Values As (Näytä arvot muodossa) -välilehdelle.

Julkaistavaan prosenttitaulukkoon täytyy aina liittää n-arvot, joista prosentit on laskettu. Prosenttitaulukko voisi viimeistelyn jälkeen näyttää seuraavalta:

Raportointi

Jos selität ristiintaulukoinnin sisältöä tutkimusraportissa, niin liitä taulukko samaan yhteyteen. Lukija voi taulukosta varmistaa selityksesi oikeellisuuden ja saada tarkennusta yksityiskohtiin.

Kun selitän ristiintaulukoinnin sisältöä tutkimusraportissa, niin aloitan kuvailemalla mielipiteiden jakaumaa koko otoksessa (Kaikki-sarake). Tämän jälkeen voin kertoa miesten ja naisten mielipiteiden eroista. Kaikkia taulukon prosentteja ei ole tarkoituksenmukaista luetella tekstissä. Esimerkki-taulukkoa voin selittää esimerkiksi seuraavasti:

Suurin osa vastaajista on tyytyväisiä työympäristöön. Tyytymättömiä tai erittäin tyytymättömiä on noin viidesosa (22 %) vastaajista. Naiset ovat miehiä tyytyväisempiä. Naisista 74 % on tyytyväisiä tai erittäin tyytyväisiä. Vastaava luku miehillä on 32 %. Naisista yksikään ei ollut erittäin tyytymätön työympäristöön. Kannattaa panna merkille miesten suuri osuus (43 %) vastausasteikon keskimmäisen mielipiteen kohdalla (ei tyytymätön eikä tyytyväinen).

Graafinen esittäminen

Siisti ristiintaulukointi on havainnollinen ja selkeä tapa esittää riippuvuus/ryhmien ero, joten graafista esittämistä ei välttämättä tarvita. Jos kuitenkin haluat havainnollistaa tilannetta graafisesti, niin mahdollisuuksia on monia. Kaaviolajiksi voit valita pylväät, pinotut pylväät tai 100 % pinotut pylväät. Kaavion voit tehdä suoraan pivot-taulukon pohjalta pivot-taulukkotyökalujen Analyze (Analysoi) -välilehden PivotChart (Pivot-kaavio) -toiminnolla. Seuraavassa muutamia mahdollisa tapoja graafiseen esittämiseen. Jos haluat kerrata kaavioiden muotoiluun liittyviä asioita, niin voit käyttää itseopiskelupakettia kaavio.xlsx.

Yllä olevassa kaaviossa havainnollistuu miesten ja naisten ero pylväiden pituuksien eroina. Pystyakselin täsmällinen otsikointi on tärkeää, jotta vastaaja ei kuvittele pylväiden esittävän lukumääriä.

Yllä olevassa kaaviossa havainnollistuu koko otoksen mielipiteiden jakauma pylväiden kokonaispituuksina. Samalla havainnollistuu myös ero naisten ja miesten välillä. Kaavio on tehty pivot-taulukosta, jossa on lukumääriä.

Yllä olevassa kaaviossa havainnollistuu mielipiteiden jakauma naisten joukossa ja miesten joukossa. Samalla on helppo tehdä vertailua naisten ja miesten mielipidejakaumien välillä.  Tätä kaaviota varten sukupuolen täytyy olla pivot-taulukon riviotsikoissa (Row Labels) ja tyytyväisyyden sarakeotsikoissa (Column Labels). Tällöin pivot-taulukon prosentit täytyy laskea rivin summasta (Percent of Row Total).

Useampitasoinen ryhmittely

Voit porautua aineistoosi syvemminkin ryhmittelemällä useamman muuttujan mukaan. Riviotsikoihin (Row Labels) ja sarakeotsikoihin (Column Labels) voit raahata useampiakin muuttujia. Monitasoisten taulukoiden ymmärtäminen vaatii huolellista perehtymistä.

Voit myös hyödyntää raporttisuodatinta (Report Filter). Muuttujan lisääminen raporttisuodattimeen lisää pivot-taulukon yläpuolelle alasvetovalikon, josta pääset valitsemaan ne raporttisuodatinmuuttujan arvot, joita haluat tarkastella. Pivot-taulukko päivittyy raporttisuodattimen valintojen perusteella.

Seuraavaksi

Lue myös artikkeli Pivot-kaaviot, jossa lähestyn pivot-taulukoita pivot-kaavioiden näkökulmasta.

Jos data on otos (kiinnostuksen kohteena olevaa perusjoukkoa ei ole kokonaisuudessaan tutkittu), niin tulokset koskevat otosta. Otoksen tuloksia ei muitta mutkitta voi yleistää otoksesta perusjoukkoon. Jos havaitsen ristiintaulukoinnissa ryhmien välisiä eroja, niin eroja ei välttämättä ole otosta laajemmassa perusjoukossa. Tämä on seurausta niin kutsutusta otantavirheestä. Mitä pienempää otosta käytän sitä enemmän otos voi otantavirheen takia poiketa perusjoukosta.

Otoksessa havaitun eron/riippuvuuden voin kuitenkin yleistää perusjoukkoon, jos ero/riippuvuus on riittävän suuri. Riittävän suurta eroa/riippuvuutta kutsutaan tilastollisesti merkitseväksi. Artikkelissa 6 Ristiintaulukointi ja khiin neliö -testi kirjoitan tilastollisesta merkitsevyydestä ristiintaulukoinnin tapauksessa.

4 Muuttujan arvojen luokittelu ja muuttaminen

Päivitetty 16.4.2019.

Muuttujan arvojen luokittelua tai muuttamista tarvitsen esimerkiksi seuraavissa tilanteissa:

  • Haluan luokitella iän, joka on mitattu vuosina, ikäluokkiin.
  • Haluan yhdistellä mielipideasteikon vastausvaihtoehtoja esimerkiksi siten että viisiportaisesta asteikosta tulee kolmiportainen. Tämän teen yhdistämällä arvot 1 ja 2 arvoksi 1, muuttamalla arvon 3 arvoksi 2 ja yhdistämällä arvot 4 ja 5 arvoksi 3.
  • Haluan korvata mielipideasteikkoon kuulumattoman arvon (esimerkiksi viisiportaisen asteikon perässä ollut arvo 6=ei kokemusta asiasta) tekstimuotoisella tiedolla, jolloin se ei sotke keskiarvon laskentaa.
  • Haluan kääntää mielipideasteikon päin vastaiseksi. Esimerkiksi viisiportaisen asteikon voin kääntää siten, että arvosta 1 tulee arvo 5, arvosta 2 arvo 4, arvo 3 pysyy ennallaan, arvosta 4 tulee arvo 2 ja arvosta 5 tulee arvo 1.

Seuraavassa esitän neljä tapaa tehdä luokitteluita ja arvojen muuttamista Excelissä:

  • korvaaminen suoraan alkuperäiseen dataan Replace (Korvaa) -toimintoa käyttäen
  • korvaaminen suoraan alkuperäisen datan päälle kirjoittamalla
  • tasavälinen luokittelu pivot-taulukossa
  • epätasavälinen luokittelu pivot-taulukossa.

Ennen kuin teet muutoksia dataan niin huolehdi, että sinulla on varmuuskopio alkuperäisestä datasta kaiken varalta.

Korvaaminen suoraan alkuperäiseen dataan

  • Valitsen korvaamisen kohteena olevien muuttujien kaikki arvot.
  • Valitsen Home (Aloitus) -välilehdeltä Find&Select – Replace (Etsi ja valitse – Korvaa).
  • Teen tarvittavat korvaukset.

Korvaaminen suoraan alkuperäisen datan päälle kirjoittamalla

  • Lajittelen (järjestä) datan luokiteltavan muuttujan mukaan. Lisätietoa lajittelusta artikkelissa 2 Excel Table (Taulukko).
  • Valitsen arvot, jotka haluan samaan luokkaan.
  • Kirjoitan uuden arvon ja kuittaan sen ctrl-enter -näppäinyhdistelmällä. Näppäinyhdistelmän ctrl-enter ansiosta kirjoitettu arvo menee kaikkiin valittuihin soluihin.

Tasavälinen luokittelu pivot-taulukossa

Oletan, että hallitset artikkelin 3 Taulukointi asiat, koska ilman niitä seuraavaa ei kannata lukea.

Käytän seuraavassa esimerkkidataa data1.xlsx. Jos pivot-taulukoin Ikä-muuttujan siten että raahaan Ikä-muuttujan riviotsikoihin (Row Labels) ja arvoihin (Values) sekä määritän laskentamenetelmäksi Määrä (Count), niin tuloksena on pitkä taulukko. Pitkä taulukko ei ole havainnollinen esitys ikäjakaumasta. Taulukko muuttuu käyttökelpoiseksi, jos luokittelen iät sopiviin ikäluokkiin.

Valitsen yhden ja vain yhden iän pivot-taulukon riviotsikoista. Tämän jälkeen valitsen pivot-taulukkotyökaluista Analyze (Analysoi) -välilehdeltä Group Field (Ryhmän kenttä). Excel ehdottaa luokittelua, mutta voin tarvittaessa vaihtaa ehdotettua luokittelua. Viereisessä esimerkissä luokittelu aloitetaan iästä 20 ja edetään 10 vuoden luokissa niin pitkälle, että aineiston iäkkäinkin henkilö (61 vuotta) löytää luokkansa. Luokittelun jälkeen lukumäärät esittävä pivot-taulukko näyttää seuraavalta:

Voin palata luokittelun määrittelyihin myöhemmin pivot-taulukkotyökalujen Analyze (Analysoi) -välilehden Group Field (Ryhmän kenttä) -toiminnolla. Voin poistaa luokittelun Analyze (Analysoi) -välilehden Ungroup (Pura ryhmittely) -toiminnolla.

Luokittelu on voimassa myös muissa saman tiedoston pivot-taulukoissa. Jos siis olen luokitellut iän, niin ikä esiintyy luokiteltuna kaikissa saman tiedoston pivot-taulukoissa.

Luokitellun jakauman graafiseen esittämiseen sopii histogrammi. Histogrammi on pystypylväskaavio, jossa pylväät ovat kiinni toisissaan.

Jos haluat kerrata kuvioiden muotoiluun liittyviä asioita, niin voit käyttää itseopiskelupakettia kaavio.xlsx.

Epätasavälinen luokittelu pivot-taulukossa

Aina tasavälinen luokittelu ei ole se mitä tavoittelen. Esimerkiksi seuraavan taulukon tapauksessa saatan haluta yhdistää erittäin tyytymättömät (1) ja tyytymättömät (2) yhteen ryhmään samoin kuin tyytyväiset (4) ja erittäin tyytyväiset (5).

Valitsen pivot-taulukosta ne solut, jotka sisältävät 1 ja 2. Tämän jälkeen valitsen pivot-taulukkotyökalujen Analyze (Analysoi) -välilehdeltä Group Selection (Valittu ryhmä).  Pivot-taulukko voi näyttää tämän jälkeen sekavalta. Excel muodostaa arvoista 1 ja 2 ryhmän, mutta arvotkin ovat vielä näkyvillä ryhmän nimen alapuolella. Ryhmän arvot saan piiloon napsauttamalla ryhmän nimen vasemmalla puolella olevaa miinus-painiketta. Ryhmän nimen tilalle voin kirjoittaa haluamani nimen.

Vastaavalla tavalla voin valita solut, jotka sisältävät arvot 4 ja 5 ja määrittää ne ryhmäksi Analyze (Analysoi) -välilehden Group Selection (Valittu ryhmä) -toiminnolla.

Seuraavassa olen ryhmitellyt muuttujan arvot 1 ja 2 ryhmään, jolle olen kirjoittanut nimeksi ’Tyytymätön’. Olen piilottanut ryhmän jäsenet miinus-painikkeella (voin ottaa ryhmän jäsenet tarvittaessa näkyviin plus-painikkeella). Muuttujan arvon 3 tilalle olen kirjoittanut ’Ei tyytymätön eikä tyytyväinen’. Olen ryhmitellyt muuttujan arvot 4 ja 5 samaan ryhmään. En ole vielä kirjoittanut tälle ryhmälle nimeä. Excel on nimennyt ryhmän nimellä ’Group2’.

Seuraavaksi

Voin analysoida dataa tarkastelemalla lukumääriä ja/tai prosentteja ryhmittäin. Voin esimerkiksi tarkastella tyytyväisyyttä työtovereihin sukupuolen mukaan. Tällaista taulukointia kutsutaan ristiintaulukoinniksi. Ristiintaulukoinnista enemmän artikkelissa 5 Ristiintaulukointi.

3 Frekvenssijakauma

Päivitetty 14.4.2020.

Dataan kätkeytyvä tieto täytyy esittää jollain tavalla. Ainakin minulle nousee ensimmäisenä mieleen kysymys: kuinka monta mitäkin on (frekvenssijakauma)? Excelillä voin laskea frekvenssijakaumia pivot-taulukoina.

Varmista ennen pivot-taulukointia, että datasi on tallennettu aiemmassa artikkelissa 1 Datan tallentaminen kuvatulla tavalla. Datan täytyy olla yhtenäinen kokonaisuus, jonka sisällä ei ole tyhjiä rivejä tai sarakkeita. Pivot-taulukoinnin kannalta ei ole merkitystä sillä onko data määritelty Taulukoksi (Table) vai ei.

Tarkastelen seuraavassa esimerkkidataa data1.xlsx, joka sisältää vastauksia kuvitteellisen yrityksen työntekijöiltä.

Aloitan pivot-taulukoinnin valitsemalla täsmälleen yhden solun datan alueelta (tärkeää!). Seuraavaksi valitset Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).

Aukeavasta ikkunasta tarkastan, että Excel on tunnistanut datani oikein. Voin myös määrittää luotavan pivot-taulukon sijainnin, mutta yleensä oletus (New Worksheet) kelpaa minulle.

OK:n jälkeen Excel luo tyhjän pivot-taulukon ja näyttää kenttäluettelon (Field List). Kenttäluettelon yläosasta löydän aineistoni muuttujat. Kenttäluettelon alaosassa on paikat riviotsikoita (Row Labels) ja laskettuja arvoja (Values) varten. Lukumäärät lasken seuraavasti:

  • Raahaan tarkasteltavan muuttujan kenttäluettelon yläosasta riviotsikoihin (Row Labels).
  • Raahaan tarkasteltavan muuttujan myös Arvot (Values) -ruutuun.
  • Tilanteesta riippuen Excel laskee oletuksena joko arvojen summan (Sum) tai määrän (Count). Minun täytyy olla tarkkana ja vaihtaa tarvittaessa laskentaperusteeksi määrä: Napsautan Arvot (Values) -ruudun kenttää ja valitsen aukeavasta valikosta Value Field Settings (Arvokentän asetukset). Tämän jälkeen valitsen haluamani laskentaperusteen ja napsautan OK.

Taulukon muotoilu

Jos muuttuja sisältää puuttuvia tietoja (tyhjiä soluja), niin tämä näkyy pivot-taulukossa tarpeettomana rivinä. Voin helposti poistaa tyhjän (blank) -rivin: Pivot-taulukon riviotsikoista (Row Labels) aukeaa alasvetovalikokko, josta voin valita taulukossa näytettävät arvot. Poistan valinnan tyhjien (blank) arvojen kohdalta.

Yllä näet vierekkäin alkuperäisen pivot-taulukon ja vieressä tyylitellyn julkaistavaksi kelpaavan taulukon.

Prosentit

Lukumäärien viereen voin laskea prosentit. Lisään prosentit pivot-taulukkoon raahaamalla tarkasteltavan muuttujan toistamiseen Values (Arvot) -ruutuun. Napsautan uutta Values (Arvot) -ruudun muuttujaa ja valitsen aukeavasta valikosta Value Field Settings (Arvokentän asetukset). Laskentaperusteen täytyy olla Count (Määrä). Lisäksi valitsen esitystavaksi Show Values As (Näytä arvot muodossa) -välilehdeltä % of Column Total (Prosenttia sarakkeen summasta).

Lisäksi voin muuttaa desimaalien määrää Number Format (Lukumuotoilu) -painikkeella. Excel käyttää prosenttimuotoiluissa oletuksena kahta desimaalia, mutta usein 1 tai ei yhtään desimaalia riittää käytännön sovelluksiin.

Tutkimusraportissa taulukot ja kuviot pistävät ensimmäisenä silmään raporttia selailtaessa. Tämän takia taulukot kannattaa viimeistellä huolellisesti. Pienen viimeistelyn jälkeen valmis taulukko voisi näyttää seuraavalta:

Tällaista taulukkoa kutsutaan frekvenssitaulukoksi.

Graafinen esittäminen

Lukumäärät ja prosentit sisältävä taulukko on selkeä ja havainnollinen tapa frekvenssijakauman esittämiseen eikä vaadi graafista havainnollistamista. Jos kuitenkin haluan graafisen esityksen, niin voin toteuttaa sen Pivot-kaaviona (PivotChart). Jos olet pivot-taulukon alueella, niin työkalunauhassa on Pivot-taulukkotyökalut (PivotTable tools). Pivot-taulukkotyökalujen Analyze (Analysoi) -välilehdellä on PivotChart (Pivot-kaavio) -toiminto. Huomaa, että pivot-kaavio on pivot-taulukon graafinen esitystapa, jossa on mukana kaikki pivot-taulukon arvokentät. Koska kaaviossa ei saa olla yhtäaikaa lukumääriä ja prosentteja, niin PivotChart täytyy tehdä pivot-taulukosta, jossa on ainoastaan lukumäärät tai ainoastaan prosentit.

Pienen viilauksen jälkeen saan tässa artikkelissa esitetystä ensimmäisestä pivot-taulukosta seuraavan pivot-kaavion:

Numeroarvojen tilalle olen pivot-taulukkoon kirjoittanut vastausvaihtoehdot ’Tyytymätön’ jne. Kaaviosta olen poistanut selitteen (Legend) ja kaavion otsikon (Chart Title). Kaavioon olen lisännyt vaaka-akselin otsikon. Pivot-kaavion reunoilla on kenttäpainikkeita. Jos haluan kenttäpainikkeet pois kaaviosta, niin valitsen pivot-kaaviotyökaluista Analyze (Analysoi) -välilehdeltä Field Buttons -Hide All (Kenttäpainikkeet – Piilota kaikki).

Jos haluat oppia/kerrata Excel-kaavioiden luomiseen ja muotoiluun liittyvät perustaidot, niin käy läpi itseopiskelupaketti kaavio.xlsx.

Usein kysyttyä

Kysymys: Haluaisin vielä työstää pivot-taulukkoani, muta en näe kenttäluetteloa (Field List)?

Vastaus: Kenttäluettelo on näkyvillä vain jos valittuna on pivot-taulukon alueella oleva solu. Jos pivot-taulukon alueella olevan solun valitseminenkaan ei auta, niin valitse PivotTable Tools  – Analyze – Field List (Pivot-taulukkotyökalut – Analysoi – Kenttäluettelo).

Kysymys: Olen tehnyt muutoksia dataan, mutta muutokset eivät näy pivot-taulukossa. Mitä minun pitäisi tehdä?

Vastaus: Valitse pivot-taulukkotyökalujen Analyze (Analysoi) -välilehdeltä Refresh (Päivitä). Jos tämäkään ei auta, niin määrittele pivot-taulukon pohjana oleva aineisto uudelleen Analyze (Analysoi) -välilehden Change Data Source (Muuta tietolähde) -toiminnolla.

Kysymys: Kyselylomakkeellani oli monivalintakysymys (vastaaja sai valita tarjotuista vaihtoehdoista useampiakin). Miten saan valintojen määrät taulukoitua samaan taulukkoon?

Vastaus: Oletan, että olet tallentanut monivalintakysymyksen vastaukset neuvomallani tavalla (1 Datan tallentaminen). Tee pivot-taulukko. Raahaa monivalintakysymykseen liittyvät muuttujat yksi kerrallaan Values (Arvot) -ruutuun. Jos aineistossa valintoja on merkitty ykkösillä ja muut solut ovat tyhjiä, niin on saman tekevää käytätkö laskentaperusteena summaa (Sum) vai määrää (Count). Näin saat taulukon, jossa on koottuna eri vaihtoehtojen valintojen lukumäärät. Voit vielä valita näytetäänkö lukumäärät vierekkäin vai allekkain vaihtamalla rivi/sarakeotsikoiden Values (Arvot) -palikan paikkaa.

Kysymys: Olen kysynyt samaa mielipideasteikkoa käyttäen mielipidettä moneen eri asiaan. Miten saan eri asioihin liittyvien mielipiteiden lukumäärät tai prosentit samaan taulukkoon?

Vastaus: Jokaisesta asiasta täytyy tehdä oma pivot-taulukkonsa. Tulokset voit kopioida ja yhdistää uuteen taulukkoon. Liittäminen pitää tehdä arvoina (Values). Parhaiten liittäminen sujuu Office-leikepöytää käyttäen. Lisätietoa liittämismuodoista ja Office-leikepöydästä blogissani Olennaiset Excel-taidotUusi taulukko voi pienen tyylittelyn jälkeen näyttää esimerkiksi seuraavalta:

koonti

Huomaa, että prosentteja esitettäessä täytyy myös ilmoittaa kokonaismäärä (n), josta prosentit on laskettu.

Kysymys: Miksi taulukossa ei näy tyhjien (blank) arvojen lukumäärää?

Vastaus: Taulukkoon lasketaan Values (Arvot) -ruudun muuttujan arvojen lukumäärä niissä soluissa, jotka vastaavat vastaavalla rivillä riviotsikoissa olevaa arvoa. Tyhjien kohdalla ei ole arvoja, joten taulukossa ei näy mitään lukumäärää. Jos haluat taulukon, jossa on laskettu puuttuvien arvojen lukumäärä, niin käytä Values (Arvot) -muuttujana sellaista muuttujaa, jolla ei ole puuttuvia arvoja (esimerkiksi ensimmäisen sarakkeen juokseva numerointi).

Kysymys: Miten voin laskea prosenttiosuuden luottamusvälin?

Vastaus: Lue artikkeli Prosenttiosuuden luottamusväli.

Seuraavaksi

Muuttujalla voi olla liikaa arvoja siinä mielessä, että edellä kuvattu taulukointi tuottaa liian pitkän tai epähavainnollisen taulukon. Esimerkiksi ikä-muuttujan taulukointi sellaisenaan ei liene tarkoituksenmukaista. Ikä-muuttujan arvot kannattaakin luokitella sopiviin ikäluokkiin taulukon luettavuuden parantamiseksi. Artikkelista 4 Muuttujan arvojen luokittelu voit lukea lisää.

Lue myös artikkelini Pivot-kaaviot, jossa käsittelen pivot-taulukoita lähtien liikkeelle pivot-kaavioista.

1 Datan tallentaminen

Päivitetty 20.5.2020

Data voi olla jossain muodossa olemassa. Tällöin edessä on datan siivoamista tässä artikkelissa kuvattuun muotoon. Jos tallennat datan itse, niin kannattaa heti tallentaa se tässä artikkelissa kuvattuun muotoon.

Jos haluan laskea datasta yhteenvetoja tai muulla tavalla analysoida sitä, niin tallennan sen taulukkomuotoon. Taulukkolaskentaohjelma Excel on kuin luotu tähän tarkoitukseen. Muilla ohjelmilla tallennettuja datoja voin avata/tuoda Exceliin vaihtelevalla menestyksellä:

  • Nettikyselyohjelmistot, esimerkiksi Webropol, mahdollistavat datan viennin Excel-muotoon.
  • Tietokantakyselyt on yleensä mahdollista viedä Excel-muotoon.
  • Tekstimuotoiset .csv (pilkkueroteltu muoto) ja .tsv (sarkaineroteltu muoto) -tiedostot aukeavat Exceliin.
  • Pdf-muotoisen tai kuvakaappauksena otetun datan tuonti Exceliin on hankalampaa.

Jos tallennan datan Exceliin, niin ennen datan tallentamista minun täytyy päättää mitä tietoja sijoitan riveille ja mitä tietoja sarakkeisiin. Muutama esimerkki valaisee asiaa:

  • Jos kyseessä on asiakastyytyväisyyskyselyyn vastanneiden vastaukset, niin sijoitan kullekin riville yhden vastaajan vastaukset. Kukin sarake sisältää yhden kysymyksen vastaukset.
  • Jos kyseessä on data, joka sisältää eri automallien keskeisiä tietoja, niin sijoitan kullekin riville yhden auton tiedot. Kukin sarake sisältää yhteen ominaisuuteen, esimerkiksi polttoaineen kulutukseen, liittyvät tiedot.
  • Jos kyse on datasta, joka sisältää asiakkaiden tekemiä tilauksia, niin sijoitan kullekin riville yhden tilauksen. Kukin sarake sisältää yhteen tilauksen ominaisuuteen liittyvät tiedot; esimerkiksi tilauspäivät.
  • Jos data sisältää pörssiosakkeiden hintoja viimeisen kuukauden ajalta, niin sijoitan kullekin riville yhden pörssipäivän. Ensimmäiseen sarakkeeseen sijoittaisin päivämäärän. Toiseen sarakkeeseen sijoittaisin ensimmäisen, esimerkiksi Fortumin, osakkeen hinnat jne.

Datan rivejä kutsutaan tilastoyksiköiksi. Myös nimityksiä havaintoyksikkö ja tutkimusyksikkö käytetään. Datan sarakkeita kutsutaan muuttujiksi. Muuttujan arvo on tilastoyksikköön liittyvä ominaisuus, joka vaihtelee tilastoyksiköstä toiseen.  Esimerkiksi kyselytutkimuksessa voi olla muuttujana ikä, joka muuttuu vastaajasta toiseen.

Data voi näyttää esimerkiksi seuraavalta:

Tilastoaineisto

Ensimmäisen rivin otsikoista ei kannata ottaa turhaa stressiä. Riittää kunhan minä datan käyttäjänä tunnistan muuttujat otsikoiden perusteella. Pidän otsikot lyhyinä, jotta datan käsittely on sujuvaa.

Datassa on hyvä olla muuttuja, jolla on jokaisella rivillä eri arvo eikä yhtään puuttuvaa arvoa. Yllä olevassa esimerkissä juokseva numerointi nro on on tällainen muuttuja. Tällaisesta muuttujasta on monenlaista hyötyä:

  • Jos esimerkiksi järjestän datan, niin juoksevan numeroinnin perusteella voin aina palauttaa alkuperäisen järjestyksen.
  • Jos numeroin kyselytutkimuksen vastauslomakkeet juoksevan numeron mukaisesti, niin voin myöhemmin tarkistaa epäilyttävän näköisen tiedon alkuperäiseltä vastauslomakkeelta.
  • Excelin pivot-taulukoinneissa tällaista muuttujaa voi hyödyntää lukumäärien ja prosenttien laskentaan.

Kategorisia muuttujia

Sukupuolet (sukup) olen tallentanut numeroina (1=mies, 2=nainen). Näin datan tallentaminen on nopeampaa. Perhesuhteet (perhe) olen tallentanut sukupuolten tapaan numeroina (1=perheetön, 2=perheellinen). Myös koulutuksen kohdalla olen käyttänyt numeroita (1=peruskoulu, 2=toinen aste, 3=korkeakoulu, 4=ylempi korkeakoulu).

Määrällisiä muuttujia

Määrälliset muuttujat (ikä, palveluvuodet, palkka) olen tallentanut sellaisenaan.

Mielipideasteikollisia muuttujia

Tyytyväisyys johtoon (johto) ja tyytyväisyys työtovereihin (työtov) on mitattu viisiportaisella mielipideasteikolla (1=erittäin tyytymätön, 2=tyytymätön, 3=ei tyytymätön eikä tyytyväinen, 4=tyytyväinen, 5=erittäin tyytyväinen). Mielipideasteikot tallennan aina numeroina, jotta voin myöhemmin laskea keskiarvot ja keskihajonnat.

Jos unohdan millä numerolla olen mitäkin merkinnyt, niin datani muuttuu arvottomaksi. Kirjaan siis aineiston tallentamisessa käyttämieni numeroarvojen merkitykset jonnekin, josta voin tarkistaa ne myöhemmin.

Puuttuva arvo

Jos arvo puuttuu, niin jätän taulukkoon tyhjän solun. Muualta tuoduissa datoissa puuttuvien arvojen tilalla voi olla joitain merkintöjä. Excelin Home (Aloitus) -välilehden Find&Select – Replace (Etsi ja valitse – Korvaa) -toiminnolla nämä ovat helposti korvattavissa tyhjillä solulla.

Monivalinta

Valintakysymyksessä vastaaja voi valita yhden useasta vaihtoehdosta. Monivalinnassa vastaaja voi valita useampiakin tarjotuista vaihtoehdoista. Ole tarkkana, koska valintakysymyksiäkin näkee usein kutsuttavan virheellisesti monivalinnaksi.

Monivalinta koostuu itse asiassa useasta kysymyksestä. Jokainen vaihtoehto on oma kysymyksensä. Tämän huomioin datan tallentamisessa siten, että varaan taulukosta oman sarakkeen jokaista monivalinnan vaihtoehtoa varten.

Seuraavassa työntekijältä on kysytty onko hän käyttänyt työnantajan tarjoamaa työterveyshuoltoa, lomaosaketta, kuntosalia tai hierojaa. Muuttujat ovat sarakkeissa M (työterv), N (lomaosa), O (kuntosa) ja P (hieroja). Ensimmäiset kaksi vastaajaa eivät ole käyttäneet yhtäkään kyseisistä etuisuuksista, kolme seuraavaa vastaajaa ovat käyttäneet työterveyshuoltoa ja viimeisin näkyvillä oleva vastaaja on käyttänyt sekä työterveyshuoltoa että lomaosaketta.

Monivalinta

Avoin vastaus

Avoimet vastaukset (vastaajan kirjoittama teksti) jätän yleensä tallentamatta dataan. Jos kuitenkin vastauksia selattuani pystyn ryhmittelelmään (luokittelemaan) avoimet vastaukset käyttökelpoisella tavalla, niin saatan antaa ryhmille numerot ja tallentaa ne muuttujan arvoiksi.

Seuraavaksi

Voit halutessasi tutustua esimerkkidataan data1.xlsx

Excelin Table (Taulukko) -toimintoa en missään tapauksessa jätä hyödyntämättä. Voit lukea lisää artikkelista 2 Excel Table (Taulukko).