Avainsana-arkisto: Ei-parametriset testit

McNemar-testi

Päivitetty 26.1.2013

Kahden riippuvan otoksen McNemar-testi sopii käytettäväksi kaksiarvoisten (dikotomisten) muuttujien kanssa.

Esimerkki. Asiakkailta kysyttiin valitsisivatko he tietyn pesuainemerkin (kyllä/ei). Promootion jälkeen samoilta asiakkailta kysyttiin valitsisivatko he esitellyn pesuainemerkin. McNemar-testillä voidaan testata onko promootio saanut aikaan muutosta mielipiteissä.

Excelissä ei ole valmista toimintoa McNemar-testin laskemiseen. Onneksi versiosta 18 lähtien SPSS on sisältänyt erittäin helppokäyttöisen ja havainnollisen tavan testin laskemiseen. Vaikka suorittaisitkin muut analyysit Excelissä, niin tämän testin osalta kannattaa piipahtaa SPSS:n puolella. Tämä on helppoa vaikka et olisi aiemmin SPSS:ää käyttänytkään. Jos SPSS ei ole sinulle entuudestaan tuttu, niin haluat ehkä tutustua monisteeseeni spss19.pdf.

Excel-aineiston avaaminen

Jos aineisto on tallennettu Excel-muotoon artikkelini Tilastoaineiston tallentaminen ohjeiden mukaisesti, niin voit avata sen SPSS-ohjelmaan:

  • Valitse SPSS:n käynnistyksen yhteydessä avautuvasta ikkunasta Open an existing data source ja napsauta OK. Jos olit jo ohittanut kyseisen ikkunan, niin valitse valikosta File-Open-Data.
  • Valitse avaamisen määrittelyikkunassa tiedostomuodoksi Excel.
  • Valitse avattava tiedosto.
  • Napsauta Open-painiketta, jolloin avautuu Opening Excel Data Source -valintaikkuna.
  • Valitse valintaruutu Read variable names
  • Tarkista ja vaihda tarvittaessa Worksheet ja Range -määrittelyt, jotka määrittelevät mistä taulukosta ja miltä solualueelta aineisto löytyy.
  • OK.

Testin suorittaminen

  • Valitse valikosta Analyze – Nonparametric Tests – Related Samples. Avautuvan Nonparametric Tests: Two or More Related Samples -ikkunan yläreunassa on kolme välilehteä: Objective, Fields ja Settings.
  • Valitse Objective-välilehdeltä Automatically compare observed data to hypothesized.
  • Valitse Fields-välilehdeltä vaihtoehto Use custom field assignments, valitse tarkasteltavat kaksi muuttujaa Test Fields: -ruutuun.
  • Napsauta Run-painiketta.

Testin tulkinta

Käytän yllä kuvailemaani esimerkkiä. Havainnot löytyvät SPSS-muotoisesta aineistosta promootio.sav (tallenna aineisto tietokoneellesi ja avaa sen jälkeen SPSS-ohjelmaan).

Testin tulosteena saan havainnollisen tulosteen. Tulosteesta voin lukea testatun hypoteesin, testin p-arvon ja testin johtopäätöksen. Johtopäätöksen kriteerinä SPSS käyttää oletusarvoisesti merkitsevyystasoa 0,05 (nollahypoteesi hylätään, jos p-arvo on alle 0,05). Merkitsevyystason voit halutessasi vaihtaa Settings-välilehden Test Options -kohdasta.

Testattavana on nollahypoteesi: Mielipiteiden jakaumat ennen ja jälkeen promootion ovat samat. McNemar-testin p-arvo on 0,015 (<0,05), joten nollahypoteesi hylätään. SPSS tarjoaa lisätietoa Model Viewer -ikkunassa, jos kaksoisnapsautan tulostaulukkoa.

Kruskal-Wallis -testi

Päivitetty 2.5.2013

Useamman kuin kahden riippumattoman otoksen välisen eron merkitsevyyttä voin testata yksisuuntaisella varianssianalyysillä. Varianssianalyysin käyttökelpoisuus on kyseenalaista ainakin seuraavissa tapauksissa:

  • Otoskoot ovat pieniä (alle 30) eikä ole varma ovatko tarkasteltavat muuttujat normaalijakautuneet perusjoukossa.
  • Tarkasteltavat muuttujat ovat mielipideasteikollisia. Jos olen sitä mieltä, että keskiarvo ei ole sopiva tunnusluku mielipideasteikolle, niin varianssianalyysi ei tule kyseeseen.

Varianssianalyysin sijasta voin käyttää Kruskal-Wallis -testiä, jonka kohdalla ei tarvitse olettaa normaalijakautuneisuutta. Kruskal-Wallis -testi soveltuu hyvin mielipideasteikoille.

Excelissä ei ole valmista toimintoa Kruskal-Wallis -testin laskemiseen. Onneksi versiosta 18 lähtien SPSS on sisältänyt erittäin helppokäyttöisen ja havainnollisen tavan testin laskemiseen. Vaikka suorittaisitkin muut analyysit Excelissä, niin tämän testin osalta kannattaa piipahtaa SPSS:n puolella. Tämä on helppoa vaikka et olisi aiemmin SPSS:ää käyttänytkään. Jos SPSS ei ole sinulle entuudestaan tuttu, niin haluat ehkä tutustua monisteeseeni spss19.pdf.

Excel-aineiston avaaminen

Jos aineisto on tallennettu Excel-muotoon artikkelini Tilastoaineiston tallentaminen ohjeiden mukaisesti, niin voit avata sen SPSS-ohjelmaan:

  • Valitse SPSS:n käynnistyksen yhteydessä avautuvasta ikkunasta Open an existing data source ja napsauta OK. Jos olit jo ohittanut kyseisen ikkunan, niin valitse valikosta File-Open-Data.
  • Valitse avaamisen määrittelyikkunassa tiedostomuodoksi Excel.
  • Valitse avattava tiedosto.
  • Napsauta Open-painiketta, jolloin avautuu Opening Excel Data Source -valintaikkuna.
  • Valitse valintaruutu Read variable names
  • Tarkista ja vaihda tarvittaessa Worksheet ja Range -määrittelyt, jotka määrittelevät mistä taulukosta ja miltä solualueelta aineisto löytyy.
  • OK.

Muuttujien mitta-asteikon tarkistaminen

Siirry Variable View -näkymään napsauttamalla vastaavaa välilehteä SPSS-ikkunan alareunassa. Tarkista tarkasteltavien muuttujien mitta-asteikko Measure-sarakkeesta. Jos mitta-asteikko on Nominal tai Ordinal, niin vaihda asteikoksi Scale. Ryhmittelevän muuttujan mitta-asteikon täytyy olla Nominal tai Ordinal.

Miksi tarkasteltavien muuttujien mitta-asteikon täytyy olla Scale? Testin taustaoletuksena on, että muuttuja on perimmiltään jatkuvaluonteinen. Esimerkiksi 5-portaisen tyytyväisyys-asteikon arvot eivät sellaisenaan ole jatkuvaluonteisia. Tässä kuitenkin riittää se, että oletetaan tyytyväisyys jatkuvaluonteiseksi muuttujaksi, vaikka sitä mitataankin tarkkuudella 1, 2, 3, 4, 5.

Testin suorittaminen

  • Valitse valikosta Analyze – Nonparametric Tests – Independent Samples. Avautuvan Nonparametric Tests: Two or More Independent Samples -ikkunan yläreunassa on kolme välilehteä: Objective, Fields ja Settings.
  • Valitse Objective-välilehdeltä Automatically compare distributions accross groups.
  • Valitse Fields-välilehdeltä vaihtoehto Use custom field assignments, valitse ryhmittelevä muuttuja Groups: -ruutuun ja tarkasteltavat muuttujat Test Fields: -ruutuun.
  • Napsauta Run-painiketta.

Testin tulkinta

Testin tulosteena saat havainnollisen tulostaulukon. Seuraavassa on käytetty SPSS-muotoista maku.sav -aineistoa (tallenna aineisto tietokoneellesi ja avaa se sen jälkeen SPSS-ohjelmaan). Aineistossa on muuttujina marjojen kasvualusta  (punainen, sininen ja musta) ja marjojen maku (5-portaisella asteikolla mitatttuna: 1=selvästi keskimääräistä parempi, 5=selvästi keskimääräistä huonompi).

Taulukosta löytyy testattu nollahypoteesi, testimenetelmän nimi, p-arvo ja testin johtopäätös. Johtopäätöksen kriteerinä SPSS käyttää oletusarvoisesti merkitsevyystasoa 0,05 (nollahypoteesi hylätään, jos p-arvo on alle 0,05). Merkitsevyystason voit halutessasi vaihtaa Settings-välilehden Test Options -kohdasta.

Testattavana on nollahypoteesi: Makuarvioiden jakauma on samanlainen kaikilla kasvualustoilla. Testin mukaan ainakin joidenkin kasvualustojen välillä on eroa makuarvioiden jakaumassa (p-arvo 0,008).

SPSS tarjoaa lisätietoa jos kaksoisnapsautat tulostaulukkoa. SPSS näyttää jakaumien erot havainnollisena laatikkokaaviona (boxplot).

Kaavion alapuolelle SPSS tulostaa taulukon, joka sisältää testiin liittyviä tunnuslukuja. Voit tarvita joitain näistä luvuista, jos organisaatiosi raportointiohje niin vaatii.

Kokeile myös kaavion alapuolelta valittavissa olevia erilaisia näkymiä (View). Erityisen hyödyllinen on Pairwise Comparisons -näkymä. Kruskal-Wallis -testin tulos kertoo ainoastaan sen, että joidenkin ryhmien välillä on merkitsevä ero. Pairwise Comparisons -näkymästä saat selville minkä ryhmien välillä on merkitseviä eroja.

Pairwise Comparisons

Esimerkkimme tapauksessa punaisen (0) ja mustan (2) kasvualustan välillä on merkitsevä ero.

Wilcoxon merkittyjen sijalukujen testi

Päivitetty 26.1.2013

Kahden riippuvan otoksen välisen eron merkitsevyyttä voin testata kahden riippuvan otoksen t-testillä. T-testin käyttökelpoisuus on kuitenkin kyseenalaista seuraavissa tapauksissa:

  • Otoskoko on pieni (alle 30) enkä ole varma ovatko tarkasteltavat muuttujat normaalijakautuneet perusjoukossa.
  • Tarkasteltavat muuttujat ovat mielipideasteikollisia. Jos olen sitä mieltä, että keskiarvo ei ole sopiva tunnusluku mielipideasteikolle, niin kahden riippuvan otoksen t-testi ei tule kyseeseen.

Kahden riippuvan otoksen t-testin sijasta voin käyttää Wilcoxon merkittyjen sijalukujen testiä (Wilcoxon signed rank test), jonka kohdalla ei tarvitse olettaa normaalijakautuneisuutta.

Excelissä ei ole valmista toimintoa Wilcoxon merkittyjen sijalukujen testin laskemiseen. Onneksi versiosta 18 lähtien SPSS on sisältänyt erittäin helppokäyttöisen ja havainnollisen tavan testin laskemiseen. Vaikka suorittaisitkin muut analyysit Excelissä, niin tämän testin osalta kannattaa piipahtaa SPSS:n puolella. Tämä on helppoa vaikka et olisi aiemmin SPSS:ää käyttänytkään. Jos SPSS ei ole sinulle entuudestaan tuttu, niin haluat ehkä tutustua monisteeseeni spss19.pdf.

Excel-aineiston avaaminen

Jos aineisto on tallennettu Excel-muotoon artikkelini Tilastoaineiston tallentaminen ohjeiden mukaisesti, niin voit avata sen SPSS-ohjelmaan:

  • Valitse SPSS:n käynnistyksen yhteydessä avautuvasta ikkunasta Open an existing data source ja napsauta OK. Jos olit jo ohittanut kyseisen ikkunan, niin valitse valikosta File-Open-Data.
  • Valitse avaamisen määrittelyikkunassa tiedostomuodoksi Excel.
  • Valitse avattava tiedosto.
  • Napsauta Open-painiketta, jolloin avautuu Opening Excel Data Source -valintaikkuna.
  • Valitse valintaruutu Read variable names
  • Tarkista ja vaihda tarvittaessa Worksheet ja Range -määrittelyt, jotka määrittelevät mistä taulukosta ja miltä solualueelta aineisto löytyy.
  • OK.

Muuttujien mitta-asteikon tarkistaminen

Siirry Variable View -näkymään napsauttamalla vastaavaa välilehteä SPSS-ikkunan alareunassa. Tarkista tarkasteltavien muuttujien mitta-asteikko Measure-sarakkeesta. Jos mitta-asteikko on Nominal tai Ordinal, niin vaihda asteikoksi Scale.  Testin taustaoletuksena on, että muuttuja on perimmiltään jatkuvaluonteinen. Testi sopii siitä huolimatta myös mielipideasteikoille. Esimerkiksi 5-portaisen mielipide-asteikon arvot eivät sellaisenaan ole jatkuvaluonteisia. Tässä kuitenkin riittää se, että oletetaan mielipide jatkuvavaluonteiseksi muuttujaksi, vaikka sitä mitataankin tarkkuudella 1, 2, 3, 4, 5.

Testin suorittaminen

  • Valitse valikosta Analyze – Nonparametric Tests – Related Samples. Avautuvan Nonparametric Tests: Two or More Related Samples -ikkunan yläreunassa on kolme välilehteä: Objective, Fields ja Settings.
  • Valitse Objective-välilehdeltä Automatically compare observed data to hypothesized.
  • Valitse Fields-välilehdeltä vaihtoehto Use custom field assignments, valitse tarkasteltavat kaksi muuttujaa Test Fields: -ruutuun.
  • Napsauta Run-painiketta.

Testin tulkinta

Esimerkki. Tietokoneohjelmien testaaja halusi tutkia onko uusi ohjelma nopeampi kuin vanha. Koska tietokoneohjelmalla suoritetaan erilaisia tehtäviä, niin testaaja arpoi ohjelman tyypillisten tehtävien joukosta 10 tehtävää. Kyseiset tehtävät suoritettiin kummallakin ohjelmalla ja suoritusajat mitattiin. Mittaukset löytyvät aineistosta  ohjelmat.sav (tallenna aineisto tietokoneellesi ja avaa se sen jälkeen SPSS-ohjelmaan).

Testin tulosteena saan havainnollisen tulosteen. Tulosteesta voin lukea testatun hypoteesin, testin p-arvon ja testin johtopäätöksen. Johtopäätöksen kriteerinä SPSS käyttää oletusarvoisesti merkitsevyystasoa 0,05 (nollahypoteesi hylätään, jos p-arvo on alle 0,05). Merkitsevyystason voit halutessasi vaihtaa Settings-välilehden Test Options -kohdasta.

Testattavana on nollahypoteesi: Uuden ja vanhan ohjelman suoritusaikojen erojen mediaani on 0. Kaksisuuntaisen Wilcoxon merkittyjen sijalukujen testin p-arvo on 0,011 (<0,05), joten nollahypoteesi hylätään. SPSS tarjoaa lisätietoa jos kaksoisnapsautan tulostaulukkoa. SPSS näyttää parien erotukset (Uusi-Vanha) histogrammina. Esimerkin tapauksessa yhdellä parilla on positiivinen erotus (uusi ohjelma hitaampi) ja kahdeksalla parilla on negatiivinen erotus (uusi ohjelma nopeampi). Lisäksi yhdessä parissa suoritusajat ovat samat.

Kuvion alapuolelle SPSS tulostaa taulukon, joka sisältää testiin liittyviä tunnuslukuja. Voit tarvita joitain näistä luvuista, jos organisaatiosi raportointiohje niin vaatii.

Mann-Whitney U -testi

Päivitetty 22.1.2013

Kahden riippumattoman otoksen välisen eron merkitsevyyttä voin testata kahden riippumattoman otoksen t-testillä. T-testin käyttökelpoisuus on kyseenalaista ainakin seuraavissa tapauksissa:

  • Otoskoko on pieni (alle 30) eikä olla varmoja ovatko tarkasteltavat muuttujat normaalijakautuneet perusjoukossa.
  • Tarkasteltavat muuttujat ovat mielipideasteikollisia. Jos olet sitä mieltä, että keskiarvo ei ole sopiva tunnusluku mielipideasteikolle, niin kahden riippumattoman otoksen t-testi ei tule kyseeseen.

Kahden riippumattoman otoksen t-testin sijasta voin käyttää Mann-Whitney U -testiä, jonka kohdalla ei tarvitse olettaa normaalijakautuneisuutta. Mann-Whitney U -testi soveltuu hyvin mielipideasteikoille.

Excelissä ei ole valmista toimintoa Mann-Whitney U -testin laskemiseen. Onneksi versiosta 18 lähtien SPSS on sisältänyt erittäin helppokäyttöisen ja havainnollisen tavan testin laskemiseen. Vaikka suorittaisitkin muut analyysit Excelissä, niin tämän testin osalta kannattaa piipahtaa SPSS:n puolella. Tämä on helppoa vaikka et olisi aiemmin SPSS:ää käyttänytkään. Jos SPSS ei ole sinulle entuudestaan tuttu, niin haluat ehkä tutustua monisteeseeni spss19.pdf.

Excel-aineiston avaaminen

Jos aineisto on tallennettu Excel-muotoon artikkelini Tilastoaineiston tallentaminen ohjeiden mukaisesti, niin voit avata sen SPSS-ohjelmaan:

  • Valitse SPSS:n käynnistyksen yhteydessä avautuvasta ikkunasta Open an existing data source ja napsauta OK. Jos olit jo ohittanut kyseisen ikkunan, niin valitse valikosta File-Open-Data.
  • Valitse avaamisen määrittelyikkunassa tiedostomuodoksi Excel.
  • Valitse avattava tiedosto.
  • Napsauta Open-painiketta, jolloin avautuu Opening Excel Data Source -valintaikkuna.
  • Valitse valintaruutu Read variable names
  • Tarkista ja vaihda tarvittaessa Worksheet ja Range -määrittelyt, jotka määrittelevät mistä taulukosta ja miltä solualueelta aineisto löytyy.
  • OK.

Muuttujien mitta-asteikon tarkistaminen

Siirry Variable View -näkymään napsauttamalla vastaavaa välilehteä SPSS-ikkunan alareunassa. Tarkista tarkasteltavien muuttujien mitta-asteikko Measure-sarakkeesta. Jos mitta-asteikko on Nominal tai Ordinal, niin vaihda asteikoksi Scale. Ryhmittelevän muuttujan mitta-asteikon täytyy olla Nominal tai Ordinal.

Miksi tarkasteltavien muuttujien mitta-asteikon täytyy olla Scale? Testin taustaoletuksena on, että muuttuja on perimmiltään jatkuvaluonteinen. Esimerkiksi 5-portaisen tyytyväisyys-asteikon arvot eivät sellaisenaan ole jatkuvaluonteisia. Tässä kuitenkin riittää se, että oletetaan tyytyväisyys jatkuvaluonteiseksi muuttujaksi, vaikka sitä mitataankin tarkkuudella 1, 2, 3, 4, 5.

Testin suorittaminen

  • Valitse valikosta Analyze – Nonparametric Tests – Independent Samples. Avautuvan Nonparametric Tests: Two or More Independent Samples -ikkunan yläreunassa on kolme välilehteä: Objective, Fields ja Settings.
  • Valitse Objective-välilehdeltä Automatically compare distributions accross groups.
  • Valitse Fields-välilehdeltä vaihtoehto Use custom field assignments, valitse ryhmittelevä muuttuja Groups: -ruutuun ja tarkasteltavat muuttujat Test Fields: -ruutuun.
  • Napsauta Run-painiketta.

Testin tulkinta

Seuraavassa on testattu data1.xlsx -aineistolle miesten ja naisten tyytyväisyyksien eroja (avatessasi aineistoa SPSS:llä valitse Worksheet-asetukseksi Data). Ryhmittelevänä muuttujana (Groups) on ’Sukupuoli’ ja testattavina muuttujina (Testi Fields) ’Tyytyväisyys johtoon’, ’Tyytyväisyys työtovereihin’ jne. Testin tulosteena saat havainnollisen tulostaulukon.Taulukosta löytyy kullekin muuttujalle testattu nollahypoteesi, testimenetelmän nimi, p-arvo ja testin johtopäätös. Johtopäätöksen kriteerinä SPSS käyttää oletusarvoisesti merkitsevyystasoa 0,05 (nollahypoteesi hylätään, jos p-arvo on alle 0,05). Merkitsevyystason voit halutessasi vaihtaa Settings-välilehden Test Options -kohdasta.

Testattavana on nollahypoteesi: Tarkasteltavan muuttujan jakauma on sama molemmissa ryhmissä. Esimerkiksi muuttujan ”Tyytyväisyys johtoon” tapauksessa miesten ja naisten mielipidejakaumien välillä on merkitsevä ero (kaksisuuntaisen Mann-Whitney U -testin p-arvo=0,003). SPSS tarjoaa lisätietoa jos kaksoisnapsautat tulostaulukkoa. SPSS näyttää jakaumien eron havainnollisena kuviona:

Kuvion alapuolelle SPSS tulostaa taulukon, joka sisältää testiin liittyviä tunnuslukuja. Voit tarvita joitain näistä luvuista, jos organisaatiosi raportointiohje niin vaatii.

Mitä Mann-Whitney U -testillä itse asiassa testataan?

Kirjallisuudessa Mann-Whitney U -testissä testattavat hypoteesit esitetään monin eri tavoin. Usein hypoteesit on muotoiltu siten, että testataan mediaanien yhtäsuuruutta. Tällöin edellytetään, että muuttujien jakaumat ovat likimain samanmuotoiset.

Mann-Whitney U -testi perustuu sijalukuihin. Tarkasteltavan muuttujan arvot laitetaan suuruusjärjestykseen ja niille annetaan suuruusjärjestykseen pohjautuvat sijaluvut. Sijalukujen summa on T=n(n+1)/2. Jos jakaumat ovat samankaltaiset, niin ryhmän sijalukujen summan pitäisi olla (n1/n)×T (ryhmän kokoa n1 vastaava osuus sijalukujen summasta T). P-arvo kertoo todennäköisyyden sille, että ryhmän sijalukujen summa poikkeaa otoksessa havaitun verran tai enemmän odotetusta, jos oletetaan nollahypoteesin pitävän paikkansa. Mitä pienempi p-arvo sitä enemmän vaihtoehtoinen hypoteesi saa tukea.