Aihearkisto: SPSS

SPSS tilastoaineiston analysoinnissa

Logistinen regressio 2

Päivitetty 5.6.2014

Tämä artikkeli on jatkoa artikkeliin Logistinen regressio.

Askeltava (Stepwise) menetelmä

Selittäviä muuttujia ei pidä ottaa logistiseen regressiomalliin enempää kuin on tarpeellista. Paras tilanne on, jos tiedän mukaan otettavat selittävät muuttujat aiempien aineistojen tai teorian kautta. Jos aiempaa tietoa tai teoriaa ei ole, niin voin käyttää apuna askeltavaa (Stepwise) menetelmää.

SPSS tarjoaa askellukseen Forward– ja Backward-menetelmiä.

Forward-menetelmässä SPSS aloittaa mallista, joka sisältää pelkästään vakiotermin. SPSS lisää malliin selittäviä muuttujia yksi kerrallaan. Lisättävä muuttuja on se, joka lisää eniten mallin selitysvoimaa. Uuden muuttujan lisäämisen jälkeen SPSS tarkistaa, pitäisikö jokin malliin jo lisätyistä muuttujista poistaa. Forward LR -menetelmässä poistamisen kriteerinä käytetään log-likelihoodia. Jos muuttujan poistaminen ei muuta merkitsevästi mallin log-likelihoodia, niin SPSS poistaa muuttujan mallista. Muuttujien lisääminen lopetetaan, kun mikään uusi muuttuja ei enää merkittävästi paranna mallin selitysvoimaa.

Backward-menetelmässä otetaan ensimmäiseen malliin mukaan kaikki ehdokkaat. Tämän jälkeen selittäviä muuttujia poistetaan mallista yksi kerrallaan. Backward LR -menetelmässä poistamisen kriteerinä käytetään log-likelihoodia. Jos muuttujan poistaminen ei muuta merkitsevästi mallin log-likelihoodia, niin SPSS poistaa muuttujan mallista. Muuttujien poistaminen lopetetaan, kun minkä tahansa muuttujan poistaminen heikentää merkittävästi mallin selitysvoimaa.

Käytännössä Forward– ja Backward-menetelmien tuottamat mallit usein poikkeavat toisistaan. Menetelmän ja lopullisen mallin valinnassa kannattaa käyttää tapauskohtaista harkintaa.

Esimerkki

Käytän seuraavassa SPSS-muotoista aineistoa logit2.sav. Aineiston lähde ja tarkempi kuvaus: http://logisticregressionanalysis.com/303-what-a-logistic-regression-data-set-looks-like-an-example/

Suoritan laskennan SPSS:llä:

  • Valitsen Analyze – Regression – Binary Logistic.
  • Siirrän selitettävän muuttujan Dependent-ruutuun.
  • Siirrän selittävät muuttujat Covariates-ruutuun.
  • Valitsen Method-alasvetovalikosta menetelmän; tässä esimerkissä Forward LR.
  • Valitsen OK.

logit4

SPSS:n tulosteissa otsikon Block 0 alla on tiedot mallista, jossa on mukana pelkästään vakiotermi. Askeltavan menetelmän vaiheet ja lopullisen mallin löydän otsikon Block 1 alta.

Omnibus-taulukon Model-rivin Chi-square-sarake kertoo kuinka paljon -2 Log likelihood (-2 Log likelihoodista lisää artikkelissa Log likelihood) on muuttunut verrattuna edeltävään malliin. Tämä muutos noudattaa khiin neliö -jakaumaa, jonka perusteella saadaan muutoksen merkitsevyys (Sig.). Esimerkissämme jokainen malliin lisätyistä viidestä selittävästä muuttujasta on parantanut mallia merkitsevästi (Sig.<0,001).

logit5

Variables in the Equation -taulukosta näen malliin lisätyt muuttujat.

logit6

Osa aineistosta testiaineistona

Data mining -tyyppisessä analyysissä analysoidaan usein isoja aineistoja. Ison aineiston tapauksessa mallin sopivuutta voidaan testata laskemalla malli osalle aineistosta ja testaamalla kuinka hyvin malli sopii lopulle aineistolle. Tätä varten voin lisätä SPSS-aineistoon ylimääräisen muuttujan, joka erottelee aineiston kahteen osaan:

  • osa, jonka perusteella lasketaan malli
  • osa, jolla testataan lasketun mallin sopivuutta.

Voin lisätä ylimääräisen muuttujan SPSS:n Transform – Compute Variable -toiminnolla:

  • Valitsen Transform – Compute Variable.
  • Kirjoitan uudelle muuttujalle nimen Target Variable -ruutuun.
  • Kirjoitan Numeric Expression -ruutuun funktion RV.BERNOULLI(0.5).
  • Valitsen OK.

Näin laskettu uusi muuttuja saa satunnaisesti arvoja 0 ja 1 siten, että puolet on nollia ja puolet ykkösiä. Voin lisätä tämän muuttujan Logistic Regression -määrittelyikkunassa Selection Variable -ruutuun (olen antanut muuttujalle nimeksi Random). SPSS:lle täytyy kertoa Rule-painikkeella, mille muuttujan arvoille lasketaan logistinen regressio. Seuraavassa olen laskemassa logistista regressiota niiden rivien pohjalta, joissa Random-muuttujan arvo on 1.

logit7

Tulosteiden joukossa on muiden muassa Classification Table, josta näen kuinka hyvin malli ennustaa Buy-muuttujan arvoja. Lopullisessa mallissa (Step 4) malli ennustaa ostaneista (Buy=1) 75 % oikein. Aineiston toisessa puolikkaassa malli ennustaa ostaneista (Buy=1) 80,5 % oikein. Ainakin tässä mielessä malli näyttäisi toimivan hyvin.

logit8

Jos kokeilet yllä kuvattua esimerkkiaineistolla, niin voit hyvinkin päätyä erilaiseen malliin, koska aineisto voi olla eri tavalla jaettu kahteen osaan.

Kaiken kaikkiaan on kiusallista ja hämmentävää, koska samalla aineistolla voin päätyä eri menetelmillä erilaisiin malleihin. Mallin valinnassa täytyy käyttää tilannekohtaista harkintaa.

 

 

 

Mainokset

Logistinen regressio

Päivitetty 5.6.2014

Mistä on kyse?

Esimerkki. Lomaosakkeita myyvä yritys tarjoaa huippuhalvan viikonlopun kylpylässä lomaosakkeen esittelyyn osallistuville. Tarjous kannattaa kohdistaa henkilöille, joiden todennäköisyys lomaosakkeen ostoon on tavanomaista suurempi. Aiempien esittelyiden ja toteutuneiden kauppojen perusteella voidaan laatia malli, jolla lasketaan taustatietojen perusteella henkilön todennäköisyys lomaosakkeen ostoon.

Esimerkki. Luottoriskin arvioimiseksi pankin on hyvä tietää kuinka todennäköisesti luotonottajalle tulee maksuhäiriöitä. Aiempien maksuhäiriöiden perusteella voidaan laatia malli, jolla lasketaan taustatietojen perusteella luotonottajan todennäköisyys maksuhäiriöille.

Esimerkki. Lääkäri diagnosoi sairauden. Aiempien potilaiden potilastietojen perusteella voidaan laatia malli, jolla lasketaan potilaan parantumisen todennäköisyys.

Edellä kuvatuissa esimerkeissä voidaan käyttää todennäköisyyden arviointiin logistista regressiota. Logistista regressiota voidaan käyttää, jos ennustettavana on kategorinen muuttuja: ostaa tai ei osta, tulee maksuhäiriöitä tai ei tule, paranee tai ei parane. Selittävinä muuttujina voi olla sekä määrällisiä että kategorisia muuttujia.

Ilman käsitteiden odds ja logit ymmärtämistä logistista regressiota ei voi ymmärtää, joten aloitan niistä.

Odds

Odds-käsitteelle ei valitettavasti ole vakiintunutta suomennosta. Monet sanakirjat antavat suomennokseksi todennäköisyys, mutta odds on tarkkaan ottaen todennäköisyyksien suhde. Suomennoksia veto, vedonlyöntisuhde ja riski näkyy käytettävän. Minä käytän seuraavassa sekaannuksien välttämiseksi englanninkielistä termiä odds.

Jos tapahtuman todennäköisyys on p, niin odds tapahtuman puolesta:

odds = p / (1-p)

Jos odds on tiedossa, niin yllä olevasta kaavasta voin ratkaista todennäköisyyden:

p = odds / (odds+1)

Esimerkki. Nopanheitossa todennäköisyys saadaa kuutonen on yksi kuudesta (1/6) ja todennäköisyys olla saamatta kuutosta on viisi kuudesta (5/6). Odds on todennäköisyyksien suhde:

  • Odds kuutosen puolesta = (1/6)/(5/6)=1/5=0,2
  • Odds kuutosta vastaan = (5/6)/(1/6)=5

Logit

Edellisen nopanheittoesimerkin odds 0,2 kuutosen puolesta ja 5 kuutosta vastaan kuvaavat samaa tilannetta eri näkökulmista. Tämä ilmenee jännästi, jos otan logaritmit:

  • ln(0,2) ≈ -1,609
  • ln(5) ≈ 1,609

Jatketaan nopanheitolla ja tarkastellaan todennäköisyyttä saada parillinen silmäluku. Todennäköisyys on 1/2 ja odds on (1/2)/(1/2)=1. Tässä tapauksessa logaritmi on ln(1)=0.

ln(odds) on niin hyödyllinen, että sille on annettu oma nimi logit:

logit = ln (odds)

Logitilla on muiden muassa seuraavat ominaisuudet:

  • Jos todennäköisyys on 50 %, niin logit = 0.
  • Jos todennäköisyys on alle 50 %, logit on negatiivinen. Logit on sitä enemmän negatiivinen mitä pienempi todennäköisyys.
  • Jos todennäköisyys on yli 50 %, niin logit on positiivinen. Logit on sitä enemmän positiivinen mitä isompi todennäköisyys.

Jatkoa ajatellen on hyvä oppia miten logitista päästään takaisin oddsiin. Tässä tarvitaan luonnollisen logaritmin käänteistoimitusta (e on luonnollisen logaritmin kantaluku eli Neperin luku):

odds=eln(odds)=elogit

Edellä jo totesin, että oddsista saadaa todennäköisyys laskemalla odds/(odds+1). Yhdistämällä tämä tulos äskeiseen, saadaan muunnoskaava logitista todennäköisyyteen:

p = elogit/(1+elogit)

Logistinen regressio

Seuraavassa esimerkkinä käytettävä aineisto SPSS-muodossa logit1.sav (aukeaa vain SPSS:llä) ja Excel-muodossa logit1.xlsx. Kiinnostuksen kohteena on Buy (1=osti, 2=ei ostanut). Seuraavassa on näkyvillä aineiston ensimmäiset rivit:

likelihood1

Selittävinä muuttujina ovat income (tulot), isfemale (1=nainen, 0=mies) ja ismarried (1=naimisissa, 0=naimaton). Otetaan tavoitteeksi laatia malli, jonka avulla voidaan ennustaa oston todennäköisyys muuttujien income, isfemale ja ismarried perusteella.

Logistinen regressiomalli on lineaarinen regressiomalli, jossa selitettävänä muuttujana on logit (todennäköisyyttä ei sellaisenaan saada sovitettua lineaariseen malliin). Esimerkkiaineiston tapauksessa pyrimme muodostamaan mallin

logit = b0+b1*income + b2*isfemale + b3*ismarried

Mallin parametrit (b0, b1, b2, b3) määritetään maximum likelihood eli suurimman uskottavuuden -menetelmällä. Mallin käyttäjän ei välttämättä tarvitse ymmärtää maximum likelihood -menetelmän yksityiskohtia, mutta seuraavat perusideat on hyvä tuntea:

  • Parametreille annetaan arvauksena alkuarvot.
  • Lasketaan todennäköisyys sille, että havaittu data saataisiin näillä parametrien arvoilla.
  • Korjataan parametreja siten että päästään parempaan tulokseen.
  • Korjauksia tehdään, kunnes päästään parhaaseen mahdolliseen tulokseen. Paras mahdollinen tulos on se, johon liittyy suurin mahdollinen todennäköisyys sille, että havaittu data saataisiin valituilla parametrien arvoilla.

Esimerkkiaineisto maximum likelihood -menetelmä antaa malliksi:

logit = -12,033 + 0,00016742*income + 1,3653*isfemale + 1,3804*ismarried

Esimerkiksi 50000 ansaitsevan naimattoman naisen logit:

logit = -12,033 + 0,00016742*50000+1,3653*1+1,3804*0 ≈ -2,2967

Edellä jo opimme, että logit voidaan muuntaa todennäköisyydeksi p = elogit/(1+elogit). Näin esimerkiksi 50000 ansaitsevan naimattoman naisen todennäköisyys ostolle:

p = e-2,2967/(1+e-2,2967) ≈ 0,09 = 9 %

SPSS ja logistinen regressio

Voin suorittaa laskennan SPSS:llä seuraavasti:

  • Valitsen Analyze – Regression – Binary Logistic.
  • Siirrän selitettävän muuttujan Dependent-ruutuun.
  • Siirrän selittävät muuttujat Covariates-ruutuun.

logisticregression1

SPSS:n tulosteissa on kaksi mallia. Otsikon Block 0 alta löydän tiedot mallista, jossa on ainoastaan vakiotermi b0, mutta ei lainkaan selittäviä muuttujia. Tämä malli on mukana vertailun vuoksi.

logisticregression2

Tulosteesta voin lukea, että vakiotermi on -1,478. Tämä tarkoittaa mallia logit=-1,478. Tällöin todennäköisyys p = e-1,478/(1+e-1,478) ≈ 0,1857. Tämä on sama kuin aineistossa niiden osuus, jotka ovat ostaneet (125/673≈0,1857). Pelkästään vakiotermin sisältävä malli siis antaa ostamisen todennäköisyydeksi ostaneiden osuuden. Koska ostaneiden osuus on alle 50 %, niin mallin mukaan ennuste on aina ”ei osta”. Tällainen ennuste osuu kohdalleen 81,4 prosentissa tapauksista (548/673≈0,814).

Varsinaisen selittäviä muuttujia sisältävän mallin tiedot löydän otsikon Block 1 alta. Ensiksi arvioin mallin hyvyyttä verrattuna malliin, jossa on vain vaikiotermi. Hyvyyttä voin arvioida Omnibus-taulukon Model-riviltä. Chi-square-sarake kertoo kuinka paljon -2 Log likelihood (-2 Log likelihoodista lisää artikkelissa Log likelihood) on muuttunut verrattuna pelkästään vakiotermin sisältävään malliin. Tämä muutos noudattaa khiin neliö -jakaumaa, jonka perusteella saadaan muutoksen merkitsevyys (Sig.). Esimerkissämme selittävät muuttujat sisältävä malli on merkitsevästi parempi (Sig.<0,001) kuin pelkästään vakiotermin sisältävä malli.

logit3

Model Summary -taulukosta löydän -2 Log likelihood -arvon lisäksi kaksi R2-arvoa (lisätietoa artikkelissa Log likelihood), jotka yrittävät jäljitellä lineaarisen regressiomallin selityskerrointa. Näiden lisäksi on esitetty monia muita tapoja laskea R2-arvo. Yksimielisyyttä parhaasta laskentatavasta ei ole, minkä vuoksi R2-arvojen käyttö ja tulkinta on hankalaa. Aina kuitenkin pätee seuraava: mitä lähempänä R2-arvo on ykköstä sitä parempi.

Classification-taulukosta selviää, että malli ennustaa 95,8 % ei ostaneista oikein ja 84,8 % ostaneista oikein. Tässä mielessä malli vaikuttaa onnistuneelta.

logit2

Variables in the Equation -taulukko sisältää regressiokertoimet. Income-kerroin (B) ,000 ei tarkoita, että tuloilla ei olisi mitään vaikutusta ostamiseen. Jos lisään desimaalien määrää kyseisessä solussa, niin huomaan kertoimen poikkeavan nollasta.

logit1

Varmistan aina, että regressiokertoimet poikkeavat merkitsevästi nollasta. Tämä selviää Wald’in testimuuttujan avulla. Wald’in testimuuttuja saadaan jakamalla kerroin B keskivirheellään S.E. ja korottamalla tulos toiseen potenssiin. Wald’in testimuuttujan tiedetään noudattavan khiin neliö -jakaumaa, jonka perusteella merkitsevyys (Sig.) voidaan laskea. Esimerkissämme kaikki kertoimet poikkeavat merkitsevästi nollasta (Sig.<0,001), joten kaikki selittävät muuttujat voidaan tämän perusteella pitää mallissa mukana.

Malli on siis esimerkkimme tapauksessa (olen ottanut desimaaleja hieman enemmän Variables in the Equation -taulukossa oli näkyvillä):

logit = -12,033 + 0,00016742* income + 1,3653*isfemale + 1,3804*ismarried

Mallin parametrit (kertoimet) voidaan tulkita kuten lineaarisessa mallissa yleensäkin. Esimerkiksi income-kerroin 0,00016742 kertoo, että yhden euron lisäys tuloihin merkitsee 0,00016742 kasvua logitissa. Tämä ei kuitenkaan ole kovinkaan käyttökelpoinen tieto, koska logit on hieman hankala käsite ymmärrettäväksi.

Variables in the Equation -taulukossa on hieman helpommin tulkittavat muunnetut kertoimet Exp(B)-sarakkeessa. Exp(B)-sarakkeen kertoimet kertovat kuinka moninkertaisksi odds muuttuu, kun selittävä muuttuja kasvaa yhdellä yksiköllä.

  • Jos tulot kasvat yhdellä eurolla, niin odds kasvaa 1,0001674 kertaiseksi.
  • Naisilla odds on 3,917-kertainen miehiin verrattuna.
  • Naimisissa olevilla odds on 3,976-kertainen naimattomiin verrattuna.

Selittävien muuttujien valinta

Oma kysymyksensä on selittävien muuttujien valinta, jos ehdolla on paljon mahdollisia selittäviä muuttujia. Tästä lisää artikkelissa Logistinen regressio 2.

Log-likelihood

Päivitetty 25.5.2014

Tämä artikkeli täydentää artikkelia Logistinen regressio.

Logistisen regressiomallin laskenta ja sopivuuden arviointi perustuu log-likelihood -lukuun. Yritän tässä artikkelissa valottaa log-likelihood -luvun taustaa ja laskentaa.

Suurimman uskottavuuden menetelmä ja likelihood

Logistisen regressiomallin parametrit/kertoimet määritetään maximum likelihood eli suurimman uskottavuuden menetelmällä:

  • Parametreille annetaan arvauksena alkuarvot.
  • Lasketaan todennäköisyys (likelihood) sille, että havaittu data saataisiin näillä parametrien arvoilla.
  • Korjataan parametreja siten että päästään parempaan tulokseen (suurempi likelihood).
  • Korjauksia tehdään, kunnes päästään parhaaseen mahdolliseen tulokseen. Paras mahdollinen tulos on se, johon liittyy suurin mahdollinen todennäköisyys (maximum likelihood) sille, että havaittu data saataisiin valituilla parametreilla.

Likelihood’in laskenta

Käytän seuraavassa esimerkissä Excel-aineistoa logit1.xlsx, jonka alkuosan näet seuraavassa:

likelihood1

Artikkelissa Logistinen regressio olen esittänyt, miten tälle aineistolle lasketaan logistinen regressiomalli SPSS:llä. Esitän seuraavassa, miten likelihood ja log-likelihood lasketaan SPSS:n laskemalle regressiomallille. Laskennan olen suorittanut Excel-taulukkoon käyttäen SPSS:n antamia mallin parametreja, jotka olen kopioinut Exceliin. Excel käyttää koko ajan laskennassa 15 merkitsevän numeron tarkkuutta. Seuraavassa esittämäni laskelmat näyttävät vain pyöristettyjä likiarvoja.

Ensimmäisen vastaajan logit tulee suoraan regressiomallin yhtälöstä:

logit = -12,033 + 0,00016742*24000+1,3653*1+1,3804*0 ≈ -6,649

Logitista saadaan odds=elogit=e-6,649≈0,00129493

Ostamisen todennäköisyys on probability=odds/(1+odds)≈0,00129326

Likelihood on ostamisen todennäköisyys, jos kyseinen vastaaja on ostanut. Muussa tapauksessa likelihood saadaan vähentämällä ostamisen todennäköisyys ykkösestä. Ensimmäisen vastaajan tapauksessa

likelihood≈1-0,00129326≈0,99870674

Todennäköisyys, että kaikki havainnot ennustetaan oikein saadaan (todennäköisyyksien kertolaskusääntö) kertomalla likelihood’it keskenään. Isompien aineistojen tapauksessa tällainen kertolasku ei onnistu edes tietokoneelta. Niinpä onkin matemaattisesti mielekästä siirtyä tarkastelemaan likelihood’in logaritmia. Logaritmien käyttö mahdollistaa kertolaskun korvaamisen yhteenlaskulla, koska logaritmien laskusääntöjen mukaan tulon logaritmi saadaan logaritmien summana. Näin päästään log-likelihood -lukuun.

log-likelihood≈ln(0,99870674)≈-0,001294096

Muiden vastaajien log-likelihood lasketaan samalla periaatteella.

Likelihood on todennäköisyys, joten se saa arvoja väliltä [0,1]. Tästä seuraa, että log-likelihood saa negatiivisia arvoja tai arvon 0, jos likelihood=1. Mitä lähempänä nollaa log-likelihood on, sitä sopivampi malli.

SPSS:n ja myös muiden tilasto-ohjelmien tulosteissa ilmoitetaan log-likelihood kerrottuna luvulla -2. Tätä merkitään usein -2LL. Mitä pienempi -2LL on, sitä sopivampi malli on kyseessä.

Luvulla -2 kertominen tehdään, koska näin saadaan arvo, jonka muutoksen (verrattuna toiseen malliin) tiedetään noudattavan khiin neliö -jakaumaa. Khiin neliö -jakaumasta saadaan merkitsevyystaso (Sig.), jonka avulla voidaan arvioida mallin paremmuutta toiseen malliin verrattuna. Yleensä mallia pidetään merkitsevästi toista mallia parempana, jos Sig.<0,05.

Pseudo-selityskerroin

Logistisen regressiomallin selityskertoimen (R2) laskemiseksi on esitetty useita vaihtoehtoisia tapoja. Useimpien tapojen perustana on likelihood. Selityskertoimet eivät ole tulkinnallisesti yhtä konkreettisia kuin lineaarisen regression selityskerroin, joka ilmaisee kuinka suuren osan selitettävän muuttujan valihtelusta malli selittää. Logistisen regressiomallin selityskertoimia onkin tapana kutsua pseudo-selityskertoimiksi. SPSS esittää tulosteissaan Cox & Snell ja Nagelkerke -selityskertoimet:

likelihood2

Cox & Snell – selityskertoimen ongelma on, että se ei voi koskaan saavuttaa arvoa 1. Nagelkerke -selityskerroin on Cox & Snell -kertoimen korjattu versio, joka laajentaa mahdollisen arvoalueen arvoon 1 asti. Kertoimien laskentakaavat löydät esimerkiksi osoitteesta http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm. Kertoimien arvoille ei ole mitään täsmällistä tulkintaa. Kuitenkin aina pätee: mitä lähempänä R2-arvo on ykköstä sitä parempi.

SPSS: Toistomittausten varianssianalyysi

Päivitetty 15.3.2013

Jos toistomittausten varianssianalyysi en sinulle entuudestaan tuntematon menetelmä, niin kannattaa lukea ensiksi artikkeli Toistomittausten varianssianalyysi.

Esimerkki. Autovalmistaja testaa automallin polttoaineen kulutusta kolmella erilaisella säädöllä (A, B ja C). Kokeessa käytetään kuutta eri kuljettajaa. Jokainen kuljettaja ajaa kerran kullakin säädöllä. Koska järjestyksellä saattaa olla vaikutusta ajotapaan, niin jokaisella kuljettajalle käytetään erilaista järjestystä (mahdolliset järjestykset ovat ABC, ACB, BAC, BCA, CAB, CBA).

Polttoaineen kulutukset olivat oheisen taulukon mukaiset.

toistomittausaineisto

SPSS ja toistomittausten varianssianalyysi

Kuten muissakin keskiarvoon perustuvissa menetelmissä, niin myös toistomittausten varianssianalyysissä tarkasteltavien muuttujien edellytetään olevan normaalijakautuneita. Isoilla otoksilla (yli 30) asiaa ei yleensä tarvitse murehtia, mutta pienillä otoksilla normaalijakautuneisuus on syytä testata. Testaamiseen voin käyttää Explore-toimintoa. Lue lisää artikkelistani SPSS: Explore. Esimerkkitapauksessamme Explore-toiminnon tuottamien normaalijakaumatestien p-arvot ovat suurempia kuin 0,05, joten normaalijakautuneisuus voidaan olettaa.

toistomittaus8

toistomittaus2

Toistomittausten varianssianalyysiä ei ole SPSS:n peruspaketissa. Toiminto on käytettävissä, jos käytössäsi on Advanced Statistics -lisäpaketti.

  • Valitse Analyze > General Linear Model > Repeated Measures…
  • Kirjoita Within-Subject Factor Name -ruutuun ryhmittelevän tekijän nimi (Säätö) ja Number of Levels -ruutuun ryhmien lukumäärä (3).
  • Napsauta Add-painiketta.
  • Kirjoita Measure name -ruutuun mitattavan ominaisuuden nimi (Kulutus).
  • Napsauta Add-painiketta.
  • Napsauta Define-painiketta, jolloin pääset Repeated Measures -ikkunaan.
  • Siirrä vasemman reunan muuttujat (A, B, C) yksi kerrallan Within-Subjects Variables -ruutuun.

toistomittaus3

Plots-painikkeen takaa kannattaa valita tulostettavaksi kuvio, josta nähdään havainollisesti eri säätöjen keskiarvot. Napsauta Plots, siirrä ryhmittelevä tekijä (Säätö) Horizontal Axis -ruutuun, napsauta Add ja napsauta Continue.

Options-painikkeen takaa kannattaa tehdä muutama asetus: 

toistomittaus4

  • Siirrä ryhmittelevä tekijä (Säätö) Display Means for -ruutuun.
  • Valitse Compare main effects.
  • Valitse Confidence interval adjustment -alasvetovalikosta haluamasi menetelmä parivertailujen laskemiseen. Parivertailujen tekemisessä on sama problematiikka kuin yksisuuntaisessa varianssianalyysissä. Jos et halua perehtyä asiaan syvällisemmin, niin voit valita alasvetovalikosta Bonferroni-korjauksen.
  • Valitse Descriptive statistics tunnuslukutaulukon tulostamiseksi.
  • Napsauta lopuksi Options-ikkunan Continue-painiketta.

Tulostaulukoiden lukeminen

Tuloksena saat häkellyttävän paljon taulukoita, joista kaikkia et luultavasti tarvitse. Seuraavassa käsitellään vain perustapauksessa tarvittavia taulukoita. Descriptive Statistics -taulukosta näet eri säätöihin liittyvien kulutusten keskiarvot ja keskihajonnat.

toistomittaus7

Toistomittausten varianssianalyysiin kuuluu olennaisena osana sfäärisyyden (sphericity) testaaminen. Yksinkertaistaen voisi todeta, että tässä testataan ryhmien välisten erojen varianssien yhtäsuuruutta. Lisätietoa saat englanninkielisen Wikipedian artikkelista Mauchly’s sphericity test.

mauchy

Jos Mauchlyn sfäärisyystestin p-arvo (Sig,) on yli 0,05, niin Tests of Within-Subjects Effects -taulukosta luetaan Sphericity Assumed -riviä. Muussa tapauksessa käytetään esimerkiksi Greenhouse-Geisser -korjattua testiä.

toistomittaus5

Jos Tests of Within-Subjects Effects -taulukon p-arvo (Sig.) on alle 0,05, niin voidaan päätellä, että vähintään yhden parin välillä on merkitsevä ero? Seuraavaksi pitää selvittää minkä parien välillä on merkitsevää eroa. Tämä selviää Pairwise Comparisons -taulukosta. Seuraavaan taulukkoon on laskettu parivertailut Bonferroni-korjausta käyttäen.

toistomittaus6

Säätöjen B (taulukossa 2) ja C (taulukossa 3) kohdalla on merkitsevä ero (p–arvo 0,007). Kulutusten erojen keskiarvon luottamusväli on 0,168 – 0,698 litraa. Muiden parien välillä ei ole merkitsevää eroa.

Friedman-testi

Päivitetty 13.2.2013

Useamman kuin kahden riippuvan otoksen välisen eron merkitsevyyttä voin testata toistomittausten varianssianalyysillä. Varianssianalyysin käyttökelpoisuus on kyseenalaista ainakin seuraavissa tapauksissa:

  • Otoskoot ovat pieniä (alle 30) eikä ole varma ovatko tarkasteltavat muuttujat normaalijakautuneet perusjoukossa.
  • Tarkasteltavat muuttujat ovat mielipideasteikollisia. Jos olen sitä mieltä, että keskiarvo ei ole sopiva tunnusluku mielipideasteikolle, niin varianssianalyysi ei tule kyseeseen.

Varianssianalyysin sijasta voin käyttää Friedman-testiä, jonka kohdalla ei tarvitse olettaa normaalijakautuneisuutta. Friedman-testi soveltuu hyvin mielipideasteikoille.

Excelissä ei ole valmista toimintoa Friedman-testin laskemiseen. Onneksi versiosta 18 lähtien SPSS on sisältänyt erittäin helppokäyttöisen ja havainnollisen tavan testin laskemiseen. Vaikka suorittaisitkin muut analyysit Excelissä, niin tämän testin osalta kannattaa piipahtaa SPSS:n puolella. Tämä on helppoa vaikka et olisi aiemmin SPSS:ää käyttänytkään. Jos SPSS ei ole sinulle entuudestaan tuttu, niin haluat ehkä tutustua monisteeseeni spss19.pdf.

Excel-aineiston avaaminen

Jos aineisto on tallennettu Excel-muotoon artikkelini Tilastoaineiston tallentaminen ohjeiden mukaisesti, niin voit avata sen SPSS-ohjelmaan:

  • Valitse SPSS:n käynnistyksen yhteydessä avautuvasta ikkunasta Open an existing data source ja napsauta OK. Jos olit jo ohittanut kyseisen ikkunan, niin valitse valikosta File-Open-Data.
  • Valitse avaamisen määrittelyikkunassa tiedostomuodoksi Excel.
  • Valitse avattava tiedosto.
  • Napsauta Open-painiketta, jolloin avautuu Opening Excel Data Source -valintaikkuna.
  • Valitse valintaruutu Read variable names
  • Tarkista ja vaihda tarvittaessa Worksheet ja Range -määrittelyt, jotka määrittelevät mistä taulukosta ja miltä solualueelta aineisto löytyy.
  • OK.

Muuttujien mitta-asteikon tarkistaminen

Siirry Variable View -näkymään napsauttamalla vastaavaa välilehteä SPSS-ikkunan alareunassa. Tarkista tarkasteltavien muuttujien mitta-asteikko Measure-sarakkeesta. Jos mitta-asteikko on Nominal tai Ordinal, niin vaihda asteikoksi Scale.

Miksi tarkasteltavien muuttujien mitta-asteikon täytyy olla Scale? Testin taustaoletuksena on, että muuttuja on perimmiltään jatkuvaluonteinen. Esimerkiksi 5-portaisen tyytyväisyys-asteikon arvot eivät sellaisenaan ole jatkuvaluonteisia. Tässä kuitenkin riittää se, että oletetaan tyytyväisyys jatkuvaluonteiseksi muuttujaksi, vaikka sitä mitataankin tarkkuudella 1, 2, 3, 4, 5.

Testin suorittaminen

Seuraavassa on käytetty SPSS-muotoista kahvi.sav-aineistoa (tallenna aineisto tietokoneellesi ja avaa se sen jälkeen SPSS-ohjelmaan).

friedman0

Aineistossa on yhdeksän arvioijan arviot (eri arviointikohteiden yhteispistemäärä) neljästä kahvimerkistä (A, B, C ja D). Kahvimerkkien eroja voisi testata toistomittausten varianssianalyysillä, mutta normaalijakautuneisuuden testaus osoittaa normaalijakautuneisuuden kyseenalaiseksi kahvimerkin B kohdalla (Shapiro-Wilk -testin p-arvo 0,017). Voit lukea lisää normaalijakautuneisuuden testaamisesta artikkelistani SPSS: Explore.

friedman1

Friedman-testin laskeminen sujuu seuraavasti:

  • Valitse valikosta Analyze – Nonparametric Tests – Related Samples. Avautuvan Nonparametric Tests: Two or More Related Samples -ikkunan yläreunassa on kolme välilehteä: Objective, Fields ja Settings.
  • Valitse Objective-välilehdeltä Automatically compare observed data to hypothesized.
  • Valitse Fields-välilehdeltä vaihtoehto Use custom field assignments ja siirrä tarkasteltavat muuttujat Test Fields: -ruutuun.
  • Napsauta Run-painiketta.

Testin tulkinta

Testin tulosteena saat havainnollisen tulostaulukon.

friedman2

Taulukosta löytyy testattu nollahypoteesi, testimenetelmän nimi (Friedman’s…), p-arvo ja testin johtopäätös. Johtopäätöksen kriteerinä SPSS käyttää oletusarvoisesti merkitsevyystasoa 0,05 (nollahypoteesi hylätään, jos p-arvo on alle 0,05). Merkitsevyystason voit halutessasi vaihtaa Settings-välilehden Test Options -kohdasta.

Testin mukaan ainakin joidenkin kahvimerkkien välillä on eroa (p-arvo < 0,01). SPSS tarjoaa lisätietoa ja graafisia havainnollistuksia Model Viewer -ikkunassa jos kaksoisnapsautat tulostaulukkoa. Jos valitset Model Viewer -ikkunan View-alasvetovalikosta (kahdesta View-alasvetovalikosta oikeanpuoleinen) Pairwise Comparisons, niin saat parivertailut:

friedman3

Parivertailujen korjatut p-arvot (Adj. Sig.) on laskettu jakamalla parivertailun p-arvo vertailtavien parien kokonaismäärällä (6). Korjattujen p-arvojen mukaan merkitseviä eroja on kahvimerkkien D ja A, D ja B sekä C ja B välillä.

SPSS: Yksisuuntainen varianssianalyysi

Päivitetty 29.1.2013

Tarkastelen seuraavassa esimerkkiaineistoa, jossa on testipistemääriä neljän eri koulutusohjelman suorittaneille (8 henkilöä kussakin koulutusohjelmassa). Aineiston tarkempi kuvaus artikkelissani Yksisuuntainen varianssianalyysi.

Aluksi on syytä huomauttaa, että aineisto täytyy tallentaa alla näkyvän mukaisesti (näkyvillä vain aineiston alkuosa). Ryhmää varten oma sarake ja testattavaa muuttujaa varten oma sarake.

Jos epäilen käyttöedellytyksenä olevan normaalijakautuneisuuden toteutumista, niin voin käyttää Explore-toimintoa normaalijakautuneisuuden testaamiseen. Samalla kannattaa laatia boxplot-kaavio. Lue lisää artikkelistani SPSS: Explore.

Varianssianalyysiin pääsen valitsemalla  Analyze – Compare Means – One-Way ANOVA:

  • Määrittelyikkunassa valitsen ryhmittelevän muuttujan Factor-ruutuun (koulutusohjelma) ja riippuvan muuttujan Dependent List -ruutuun (testipistemäärä).
  • Valitsen Options-painikkeen takaa Descriptive, jotta saan ryhmien keskiarvot ja muita tunnuslukuja.
  • Valitsen Options-painikkeen takaa Homogeneity of variance test, jotta pääsen testaamaan varianssien yhtäsuuruutta.

Descriptives taulukosta löydän muiden muassa ryhmien keskiarvot ja keskihajonnat (Std. Deviation).

Test of Homogeneity of Variances -taulukosta voin tarkistaa, voinko olettaa ryhmien varianssit yhtäsuuriksi (tämähän on varianssianalyysin käyttöedellytys). Testitaulukon Sig. -sarakkeesta näen että p-arvo on 0,984, joka on suurempi kuin 0,05. Näin ollen tässä tapauksessa voin olettaa varianssit yhtä suuriksi (Levene-testin nollahypoteesina on, että varianssit ovat yhtäsuuret).

ANOVA-taulukosta löydän muiden muassa ryhmien välisen (356,042) ja ryhmien sisäisen varianssin (84,348). Sig.-sarakkeesta löydän p-arvon 0,014. Koska p-arvo on pienempi kuin 0,05, niin ryhmien välillä on merkitseviä eroja.

Parivertailut

Jos varianssianalyysin p-arvo on pienempi kuin 0,05, niin tiedän ainakin joidenkin ryhmiän välillä olevan merkitsevä ero. Jos haluan tarkemman tiedon, niin suoritan parivertailuja. Parivertailujen tekemiseen SPSS tarjoaa lukuisia menetelmiä. Löydän menetelmät varianssianalyysin määrittelyikkunan (Analyze – Compare Means – One-Way ANOVA) Post Hoc -painikkeen takaa. Jos et ole perehtynyt eri menetelmien eroihin, niin voit valita Bonferroni-menetelmän. Jos menetelmän valinta askarruttaa, niin netistä löydät loputtomasti artikkeleita ja keskustelua eri menetelmistä. Voit esimerkiksi aloittaa Wikipedian Bonferroni artikkelista.

Tuloksena saan Multiple Comparisons -taulukon. Taulukon Sig.-sarakkeesta näen minkä ryhmien välillä on merkitsevä ero.

Erot ovat merkitseviä koulutusohjelmien 1 ja 2 (p-arvo 0,037) sekä 1 ja 3 välillä (p-arvo 0,021).

SPSS: Explore

Päivitetty 29.11.2015

Keskiarvoja koskevassa testauksessa oletetaan, että otoskeskiarvot ovat normaalijakautuneet. Jos otoskoko on vähintään 30, niin asiaa ei tarvitse erikseen testata. Pienillä otoksilla normaalijakautuneisuus kannattaa testata SPSS:n Exlore-toiminnolla. Itse asiassa tällöin testataan muuttujan normaalijakautuneisuus, joka takaa myös otoskeskiarvojen normaalijakautuneisuuden pienilläkin otoksilla. Explore-toiminto on muutenkin hyödyllinen määrällisen muuttujan tarkastelussa, koska samalla saadaan keskiarvon luottamusväli, histogrammi ja ruutu- ja janakaavio (boxplot).

Seuraavassa käytän esimerkkinä valmiiksi SPSS-muotoista aineistoa reaktioajat.sav.

  • Valitsen Analyze – Descriptive Statistics – Explore
  • Siirrän ryhmittelevät muuttujat Factor List -ruutuun (esimerkissäni Alkoholi).
  • Siirrän muuttujat, joita haluan tarkastella Dependent List -ruutuun (esimerkissäni Reaktioaika)
  • Napsautan Plots-painiketta
  • Valitsen oletusvalintojen lisäksi Histogram ja Normality plots with tests
  • Pääsen pois Plots-ikkunasta Continue-painikkeella
  • Valitsen OK.

Tuloksena saat muiden muassa Descriptives-taulukon, johon on laskettu keskeisiä tunnuslukuja sekä keskiarvon luottamusväli (95 % Confidence Interval for Mean). Descriptives-taulukon alapuolella on Tests of Normality -taulukko.

Kolmogorov-Smirnov -testi ja Shapiro-Wilk -testi testaavat normaalijakautuneisuutta. Nollahypoteesina on molemmissa ”Muuttuja noudattaa normaalijakaumaa”. Testien p-arvot löytyvät taulukon Sig. -sarakkeista. Molempien ryhmien (Ei-alkoholia ja Alkoholia) kohdalla nollahypoteesi jää voimaan, koska p-arvot ovat suurempia kuin 0,05. Jos Kolmogorov-Smirnov -testi ja Shapiro-Wilk -testi johtavat erilaisiin päätelmiin, niin minä olisin taipuvainen käyttämään testejä, joissa ei tarvitse olettaa normaalijakautuneisuutta.

SPSS tulostaa muuttujan jakaumia esittävät histogrammit sekä useita normaalijakautuneisuuden arviointiin tarkoitettuja kuvioita. Erityisen havainnollinen on ruutu- ja janakaavio (boxplot).

Ruutu- ja janakaavion ruudun alareuna vastaa alaneljännestä ja yläreuna yläneljännestä. Ruudun sisällä oleva vaakaviiva vastaa mediaania. Janojen päissä olevat vaakaviivat kuvaavat pienintä ja suurinta arvoa. Jos muuttujalla on arvoja, jotka sijaitsevat yli 1,5 ruudun korkeuden verran ruudun yläpuolella tai alapuolella, niin ne esitetään omina pisteinään (tällöin janojen päissä olevat vaakaviivat eivät tietenkään kuvaa pienintä ja suurinta arvoa). Yli 1,5 ruudun korkeuden verran ruudun yläpuolella tai alapuolella olevia havaintoja kutsutaan poikkeaviksi (outlier). Poikkeavien havaintojen vieressä on havainnon rivinumero aineistossa.