Avainsana-arkisto: anova

SPSS: Yksisuuntainen varianssianalyysi

Päivitetty 29.1.2013

Tarkastelen seuraavassa esimerkkiaineistoa, jossa on testipistemääriä neljän eri koulutusohjelman suorittaneille (8 henkilöä kussakin koulutusohjelmassa). Aineiston tarkempi kuvaus artikkelissani Yksisuuntainen varianssianalyysi.

Aluksi on syytä huomauttaa, että aineisto täytyy tallentaa alla näkyvän mukaisesti (näkyvillä vain aineiston alkuosa). Ryhmää varten oma sarake ja testattavaa muuttujaa varten oma sarake.

Jos epäilen käyttöedellytyksenä olevan normaalijakautuneisuuden toteutumista, niin voin käyttää Explore-toimintoa normaalijakautuneisuuden testaamiseen. Samalla kannattaa laatia boxplot-kaavio. Lue lisää artikkelistani SPSS: Explore.

Varianssianalyysiin pääsen valitsemalla  Analyze – Compare Means – One-Way ANOVA:

  • Määrittelyikkunassa valitsen ryhmittelevän muuttujan Factor-ruutuun (koulutusohjelma) ja riippuvan muuttujan Dependent List -ruutuun (testipistemäärä).
  • Valitsen Options-painikkeen takaa Descriptive, jotta saan ryhmien keskiarvot ja muita tunnuslukuja.
  • Valitsen Options-painikkeen takaa Homogeneity of variance test, jotta pääsen testaamaan varianssien yhtäsuuruutta.

Descriptives taulukosta löydän muiden muassa ryhmien keskiarvot ja keskihajonnat (Std. Deviation).

Test of Homogeneity of Variances -taulukosta voin tarkistaa, voinko olettaa ryhmien varianssit yhtäsuuriksi (tämähän on varianssianalyysin käyttöedellytys). Testitaulukon Sig. -sarakkeesta näen että p-arvo on 0,984, joka on suurempi kuin 0,05. Näin ollen tässä tapauksessa voin olettaa varianssit yhtä suuriksi (Levene-testin nollahypoteesina on, että varianssit ovat yhtäsuuret).

ANOVA-taulukosta löydän muiden muassa ryhmien välisen (356,042) ja ryhmien sisäisen varianssin (84,348). Sig.-sarakkeesta löydän p-arvon 0,014. Koska p-arvo on pienempi kuin 0,05, niin ryhmien välillä on merkitseviä eroja.

Parivertailut

Jos varianssianalyysin p-arvo on pienempi kuin 0,05, niin tiedän ainakin joidenkin ryhmiän välillä olevan merkitsevä ero. Jos haluan tarkemman tiedon, niin suoritan parivertailuja. Parivertailujen tekemiseen SPSS tarjoaa lukuisia menetelmiä. Löydän menetelmät varianssianalyysin määrittelyikkunan (Analyze – Compare Means – One-Way ANOVA) Post Hoc -painikkeen takaa. Jos et ole perehtynyt eri menetelmien eroihin, niin voit valita Bonferroni-menetelmän. Jos menetelmän valinta askarruttaa, niin netistä löydät loputtomasti artikkeleita ja keskustelua eri menetelmistä. Voit esimerkiksi aloittaa Wikipedian Bonferroni artikkelista.

Tuloksena saan Multiple Comparisons -taulukon. Taulukon Sig.-sarakkeesta näen minkä ryhmien välillä on merkitsevä ero.

Erot ovat merkitseviä koulutusohjelmien 1 ja 2 (p-arvo 0,037) sekä 1 ja 3 välillä (p-arvo 0,021).

Yksisuuntainen varianssianalyysi

Päivitetty 25.10.2013

Varianssianalyysi on lähinnä kokeellisissa tutkimusasetelmissa käytettävä menetelmä. Varianssianalyysillä voin testata onko ryhmien (kolme tai useampia ryhmiä) keskiarvojen välillä merkitseviä eroja.

Esimerkki. Hiljakkoin työllistetyt 32 vastavalmistunutta jaetaan satunnaisesti neljään erilaiseen myyntikoulutusohjelmaan. Kuukauden koulutuksen jälkeen koulutetuille järjestetään testi, jonka pistemäärät ovat:

Onko koutusohjelmien välillä eroja? Voin tarkastella asiaa alustavasti kaavion avulla. Laadin Excelissä Scatter (Piste) -kaavion, jonka jälkeen valitsin Design (Rakenne) -välilehdeltä Switch Row/Column (Vaihda rivi tai sarake):

Huomautus: Jos ryhmien koot ovat suurempia, niin yllä olevan kaltainen kaavio ei ole havainnollinen, koska pisteet menevät liikaa päällekkäin. Vaihtoehtoisesti voin laatia viivakaavion ryhmien keskiarvoista. Isompien ryhmien kohdalla laatikkokaavio eli boxplot on havainnollinen.

Kaavion perusteella kolutusohjelmien välillä näyttää olevan eroja. Kaaviossa havaittavat erot voivat kuitenkin johtua satunnaisvaihtelusta. Varianssianalyysin avulla voin selvittää ovatko erot merkitseviä.

Excelin analyysityökalujen avulla voin laskea varianssianalyysin. Jos en ole aiemmin ottanut analyysityökaluja käyttöön, niin voit tehdä sen seuraavasti:

  • Valitsen File – Options (Tiedosto – Asetukset). Excel 2007: File (Tiedosto) sijalla on Office-painike.
  • Valitsen Add Ins (Apuohjelmat) ja valitsen alhaalta Manage (Hallinta) -ruudusta Excel Add Ins (Excel-apuohjelmat).
  • Valitsen Go (Siirry).
  • Valitsen luettelosta Analysis Toolpak (Analyysityökalut) ja valitsen OK.
  • Tämän jälkeen löydän Data (Tiedot) -välilehdeltä analyysityökalut (Data Analysis).

Analyysityökaluista löydän Anova: Single Factor (Anova: yksisuuntainen). Täytän Anova-ikkunaan syöttöalueen (Input Range). Syöttöalueeksi valitsen kaikki testipistemäärät otsikoineen (esimerkkini tapauksessa otsikot ovat 1,2,3,4). Varmistan, että Excel hakee tiedot sarakkeittain (Columns). Lisäksi määritän, että otsikot huomioidaan (Labels in First Row).

Excelin laskemat tulostaulukot näyttävät seuraavilta:

Ylemmästä taulukosta voin lukea eri koulutusohjelmiin liittyvien testipistemäärien keskiarvot ja varianssit (keskihajonnan toinen potenssi). Ensimmäisen koulutusohjelman keskiarvo (79) on selvästi muita korkeampi.

Alemmassa ANOVA-taulukossa vaihtelu on jaettu kahteen osaan: ryhmien väliseen vaihteluun (356,0417) ja ryhmien sisäiseen vaihteluun (84,34821). Mitä suurempi ryhmien välinen vaihtelu on ryhmien sisäiseen vaihteluun verrattuna, sitä merkitsevämpiä eroja ryhmien välillä on. Tämä testataan F-testillä, jonka p-arvon voin lukea taulukosta.

Esimerkin tapauksessa ryhmien välillä on merkiseviä eroja, koska p-arvo 0,014 on pienempi kuin 0,05.

On hyvä tutustua ANOVA-taulukon johtamiseen ja erityisesti vaihtelua mittaavien neliösummien (SS, sum of squares) laskemiseen. Voit tutustua ANOVA-taulukon johtamiseen Excel-tiedoston anovakaavat.xlsx avulla. Olen laskenut tiedostoon Excelin kaavoilla kaikki ANOVA-taulukossa oleva luvut.

Käyttöedellytykset

1. Vertailtavien ryhmien täytyy olla toisistaan riippumattomat.

2. Otoskeskiarvojen täytyy olla peräisin likimain normaalijakaumasta. Jos ryhmät ovat isoja (vähintään 30), niin normaalijakautuneisuus ei yleensä ole ongelma. Jos ryhmät ovat pieniä, voin arvioida normaalijakautuneisuutta otoksen arvojen jakauman perusteella (histogrammi, laatikkokaavio). Epäselvissä tapauksissa kannattaa testata normaalijakautuneisuus SPSS:llä. Ohjeet laatikkokaavion tekemiseen ja normaalijakautuneisuuden testaamiseen löydät artikkelistani SPSS: Explore.

3. Ryhmien varianssien täytyy olla likimain saman suuruisia. Jos käytössä on klassinen koeasetelma, jossa tutkittavat on jaettu satunnaisesti koeryhmään ja vertailuryhmään, niin varianssien pitäisi olla likimain saman suuruisia. Varianssien yhtäsuuruuden tarkistamiseen sopii laatikkokaavio. Epäselvissä tapauksissa voin testata varianssien yhtäsuuruuden SPSS:n varianssianalyysin laskennan yhteydessä. Lue lisää artikkelistani SPSS: Yksisuuntainen varianssianalyysi.

Jos käyttöedellytykset eivät täyty, niin voin käyttää SPSS:n Kruskal-Wallis -testiä.

Parivertailut

Varianssianalyysi kertoo onko ryhmien keskiarvojen välillä merkitseviä eroja. Sen sijaan varianssianalyysi ei kerro minkä ryhmien välillä on merkitseviä eroja. Arvailuja voin tehdä ryhmien keskiarvojen ja kaavion perusteella. Esimerkkini tapauksessa ei ole vaikeaa arvata, että ainakin koulutusohjelmien 1 (keskiarvo 79)  ja 3 (keskiarvo 64,375) välillä on merkitsevä ero. Olisi kuitenkin hyvä tehdä parivertailuja myös muista pareista. Excel ei tarjoa valmiita työkaluja parivertailujen tekemiseen. Kahden riippumattoman otoksen t-testiä ei voi sellaisenaan käyttää, koska testin toistaminen usealle parille lisää hylkäämisvirheen todennäköisyyttä. SPSS sisältää menetelmiä parivertailujen tekemiseen. Lue lisää artikkelistani SPSS: Yksisuuntainen varianssianalyysi.