Avainsana-arkisto: Excel

Analyyseihin sopivat tietokoneohjelmat

Päivitetty 31.8.2017

Analyysien onnistumiseksi on tärkeää tietää mitä haluat laskea? Jollet tiedä, niin katsele tiekarttoja.

Tilasto-ohjelmat

Tilasto-ohjelmat ovat varta vasten tilastoaineistojen analysointiin tarkoitettuja ohjelmia ja näin ollen varma valinta aineiston analysointiin. Tilastolliset testit (khiin neliö -testi, t-testit, korrelaation merkitsevyys, Mann-Whitney -testi jne.) saat vaivattomimmin tilasto-ohjelmalla. Tilasto-ohjelmista käytetyin lienee SPSS.

Pienen opettelun jälkeen SPSS on helppokäyttöinen ohjelma, jolla voit analysoida myös alunperin Excel-muotoon tallennettuja aineistoja. Graafisten esitysten laatiminen vaatii hieman enemmän opettelua.

Lisätietoa SPSS-tilastohjelmasta.

Excel

Excelillä voit laskea yhteenvetotaulukot, ristiintaulukoinnit ja tunnusluvut. Lasketuista taulukoista saat helposti havainnollisia graafisia esityksiä. Excelissä on monipuoliset mahdollisuudet tulostaulukoiden ja graafisten esitysten muotoiluun. Tilastollisten testien laskemiseen Excel ei ole paras mahdollinen väline eikä kaikkiin testeihin edes löydy valmista toimintoa.

Jos osaat Excelin perustaidot, niin Excel on luonteva valinta perusanalyyseihin. Tilastolliset testit voit silti käydä laskemassa SPSS:n puolella, sillä Excel-muotoisen aineiston voit avata tilasto-ohjelmaan.

Maailmalla on monenlaisia Excelin sisällä toimivia apuohjelmia aineiston analysointiin. Esimerkiksi Tilastoavulla voit laskea perusanalyysit täysin ilman kaavojen ja funktioiden kirjoittamista.

Jos käytössäsi on Excel 2016 niin kannattaa tutustua sivustooni Analysointiosaaminen.

Webropol ja muut nettikyselyohjelmistot

Webropol ja muut vastaavat ovat nettikyselyn tekemiseen sopivia ohjelmistoja. Niiden avulla saat myös joitain analyysejä nettikyselyn vastauksista. Monipuolisuudeltaan ja joustavuudeltaan ne eivät ole tilasto-ohjelman tai Excelin veroisia. Voit hyödyntää niiden tuottamia taulukoita ja graafisia esityksiä harkintasi mukaan. Useimmissa tapauksissa nettikyselyaineisto täytyy kuitenkin tuoda Exceliin tai tilasto-ohjelmaan monipuolisempien analyysien tekemiseksi.

Lisätietoa Webropolista.

Pääsääntö

Pääsääntö: Käytetty tietokoneohjelma ei ole itsetarkoitus. Olennaista on, että käytät tilanteeseen sopivia menetelmiä, olet huolellinen sekä esität tulokset selkeästi ja havainnollisesti.

Mainokset

Toistomittausten varianssianalyysi

Päivitetty 25.10.2013

Jos tarkoituksena on tutkia aiheuttavatko käsittelyt eroja tutkittavien ominaisuuksiin, niin keskeisimmät tutkimusasetelmat ovat:

Satunnaistettu koe (completely randomized design): Jokaista käsittelyä varten arvotaan oma ryhmä tutkittavia. Tällöin analyysimenetelmänä käytetään yksisuuntaista varianssianalyysiä.

Toistomittaus (repeated measures design): Käytetään samaa tutkittavien joukkoa eri käsittelyillä. Tätä kutsutaan toistomittaukseksi, koska samoja tutkittavia mitataan toistuvasti eri käsittelyillä. Tällöin analyysimenetelmäksi sopii toistomittausten varianssianalyysi. Esimerkiksi kolmen erilaisen moottorin säädön vaikutusta polttoaineen kulutukseen voidaan tutkia kuuden eri kuljettajan avulla siten, että kukin kuljettaja ajaa testilenkin jokaisella säädöllä. Mittaus toistetaan siis kullekin kuljettajalle 3 kertaa, mutta jokaisella kerralla on erilainen säätö.

Satunnaistettu lohkokoe (randomized block design): Jos tiedetään, että jokin tutkittavien ominaisuus vaikuttaa mittauksen kohteena oleviin muuttujiin, niin tutkittavat voidaan jakaa kyseisen ominaisuuden mukaan samanlaisiin lohkoihin. Esimerkiksi samaan pikaruokaketjuun kuuluvien neljän ravintolan eroja voidaan arvioida jakamalla arvioijat kokemuksen mukaan kuuteen eri lohkoon seuraavasti:

  • ensimmäiseen lohkoon otetaan vain kaikkein kokeneimmat arvioijat
  • toiseen lohkoon otetaan hieman vähemmän kokeneet arvioijat jne.
  • kuudenteen lohkoon otetaan kaikkein vähiten kokemusta omaavat arvioijat
  • kuhunkin lohkoon otetaan neljä arvioijaa, koska arvoitavia ravintoloita on neljä
  • samaan lohkoon kuuluville neljälle arvioijalle arvotaan satunnaisesti arvioitavat ravintolat.

Asetelmalla pyritään kontrolloimaan arvioijan kokemuksen vaikutusta arvioihin. Myös tähän asetelmaan sopii analyysimenetelmäksi toistomittausten varianssianalyysi.

Yksisuuntaisen varianssinalyysin ja toistomittausten varianssianalyysin keskeinen ero

anova10Yksisuuntaisessa varianssianalyysissä mittaustulosten vaihtelu jaetaan ryhmien (kutakin käsittelyä vastaa yksi ryhmä) väliseen ja ryhmien sisäiseen vaihteluun. Kyseessä on malli, jossa pyritään selittämään vaihtelu ryhmien (käsittelyjen) eroilla ja tässä mallissa kaikki muu kuin ryhmien välinen vaihtelu on luettavissa virhevaihteluksi.

Toistomittausten varianssianalyysissä erotetaan ryhmien sisäisestä vaihtelusta lohkojen välinen vaihtelu ja muu osa ryhmien sisäisestä vaihtelusta luetaan virhevaihteluksi. Kyseessä on malli, jossa pyritään selittämään vaihtelu ryhmien eroilla ja lohkojen eroilla. Muu kuin ryhmien välinen ja lohkojen välinen vaihtelu luetaan virhevaihteluksi. Virhevaihtelu jää pienemmäksi kuin yksisuuntaisessa varianssianalyysissä, koska lohkojen välinen vaihtelu otetaan malliin mukaan.
anova11
Ryhmien välisten erojen merkitsevyyttä mitataan ryhmien välisen vaihtelun ja virhevaihtelun suhteena. Jos ryhmien vaihtelu on riittävän paljon virhevaihtelua suurempi, niin sillon ryhmien välisiä eroja voidaan pitää merkitsevinä. On siis olennaista, että käytetään mallia, jossa virhevaihtelu saadaan mahdollisimman pieneksi. Näin ollen toistomittausasetelmassa ja satunnaistetussa lohkoasetelmassa kannatta aina käyttää toistomittausten varianssianalyysiä yksinkertaisen varianssianalyysin sijasta.

Toistomittausten varianssianalyysi Excelillä

anova16

Esimerkki. Auton polttoaineen kulutusta verrattin kolmella erilaisella moottorin säädöllä A, B ja C. Testikuljettajina oli 6 kuljettajaa, jotka ajoivat arvotussa järjestyksessä testilenkin kullakin säädöllä. Mitatut kulutukset (litraa sadalla kilomertrilla) olivat oheisen taulukon mukaiset.

Excelin analyysityökalujen avulla voin laskea toistomittausten varianssianalyysin. Jos et ole aiemmin ottanut analyysityökaluja käyttöön, niin voit tehdä sen seuraavasti:

  • Valitsen File – Options (Tiedosto – Asetukset). Excel 2007: File (Tiedosto) sijalla on Office-painike.
  • Valitsen Add Ins (Apuohjelmat) ja valitsen alhaalta Manage (Hallinta) -ruudusta Excel Add Ins (Excel-apuohjelmat).
  • Valitsen Go (Siirry).
  • Valitsen luettelosta Analysis Toolpak (Analyysityökalut) ja valitsen OK.
  • Tämän jälkeen löydän Data (Tiedot) -välilehdeltä analyysityökalut (Data Analysis).

Analyysityökaluista löydän toistomittausten varianssianalyysin nimellä Anova: Two-Factor Without Replication (Anova: kaksisuuntainen ilman toistoa). Nimitys kaivannee hieman selitystä: ’kaksisuuntainen’ viittaa siihen, että yhteisvaihtelua selitetään kahdella tekijällä, käsittelyllä ja tutkittavien/lohkojen eroilla; ’ilman toistoa’ viittaa siihen, että kullakin käsittelyn ja tutkittavan/lohkon yhdistelmällä on vain yksi mittaus.

Täytän Anova-ikkunaan syöttöalueen (Input Range). Syöttöalueeksi valitsen kaikki kulutukset sekä rivi- ja sarakeotsikot. Lisäksi määritän, että otsikot huomioidaan (Labels).

anova14

Excel tulostaa keskiarvot ja varianssit sekä ANOVA-taulukon, joka näyttää seuraavalta:

anova15

ANOVA-taulukossa vaihtelu on jaettu kolmeen osaan:

  • rivien eli tässä tapauksessa kuljettajien väliseen vaihteluun (SS=0,55205)
  • sarakkeiden eli tässä tapauksessa säätöjen väliseen vaihteluun (SS=0,573333)
  • muuhun vaihteluun eli virhevaihteluun (SS=0,196067).

Mitä suurempi säätöjen välinen vaihtelu on virhevaihteluun verrattuna, sitä merkitsevämpiä eroja säätöjen välillä on. Tämä testataan F-testillä, jonka p-arvon voin lukea taulukosta.

Esimerkin tapauksessa ainakin kahden säädön välillä on merkitsevä ero (p-arvo 0,001).

On opettavaista ainakin kerran tutustua ANOVA-taulukon johtamiseen ja erityisesti vaihtelua mittaavien neliösummien (SS, sum of squares) laskemiseen. Voit tutustua ANOVA-taulukon johtamiseen Excel-tiedoston anovakaavat.xlsx avulla. Olen laskenut tiedostoon Excelin kaavoilla kaikki ANOVA-taulukossa oleva luvut. Tiedostosta löytyy laskettu esimerkki myös satunnaistetusta lohkokokeesta.

Käyttöedellytykset

Toistomittausten varianssianalyysiä koskee sama käyttöedellytys kuin muitakin keskiarvon käyttöön perustuvia menetelmiä: otoskeskiarvojen täytyy olla peräisin likimain normaalijakaumasta. Jos ryhmät ovat isoja (vähintään 30), niin normaalijakautuneisuus ei yleensä ole ongelma. Jos ryhmät ovat pieniä, voin arvioida normaalijakautuneisuutta otoksen arvojen jakauman perusteella (histogrammi, laatikkokaavio). Epäselvissä tapauksissa kannattaa testata normaalijakautuneisuus SPSS:llä. Ohjeet laatikkokaavion tekemiseen ja normaalijakautuneisuuden testaamiseen löydät artikkelistani SPSS: Explore.

Toisena käyttöedellytyksenä on niin kutsuttu sfäärisyys (sphericity). Yksinkertaistaen voisi todeta, että tässä on kyse ryhmien välisten erojen varianssien yhtäsuuruudesta. Sfäärisyyden testaamiseen ei ole toimintoa Excelissä. Lue lisää artikkelista SPSS: Toistomittausten varianssianalyysi.

Jos käyttöedellytykset eivät täyty, niin voin käyttää SPSS:n Friedman-testiä.

Parivertailut

Varianssianalyysi kertoo onko ryhmien keskiarvojen välillä merkitseviä eroja. Sen sijaan varianssianalyysi ei kerro minkä ryhmien välillä on merkitseviä eroja. Arvailuja voin tehdä ryhmien keskiarvojen perusteella. Tarkempaan analyysiin tarvitsen parivertailuja. Excel ei tarjoa valmiita työkaluja parivertailujen tekemiseen. SPSS sisältää menetelmiä parivertailujen tekemiseen. Lue lisää artikkelista SPSS: Toistomittausten varianssianalyysi.

Webropolilla kerätty aineisto analysoitavaksi

En päivitä enää tätä Webropol 2.0 artikkelia. Suosittelen käyttämään uudempaa Webropol 3.0 versiota.

Päivitetty 12.3.2013

Jos et ole vielä toteuttanut Webropol-kyselyä, niin lue artikkelini Webropol: kyselyn laatiminen ja Webropol: kyselyn julkaiseminen. Jos olet jo toteuttanut kyselyn Webropolilla, niin saat aineiston kätevästi Exceliin analysoitavaksi:

  • Avaa Webropolissa kyselyn Perusraportti (Raportti ja yhteenveto -välilehdeltä).
  • Valitse ylhäältä oikealta Vie-alasvetovalikosta Excel
  • Valitse vientivaihtoehdoksi Vastaukset vastaajittain per Excel-rivi.
  • Valitse tarpeisiisi sopivat asetukset. Oletusasetuksien lisäksi suosittelen valitsemaan Advanced settings -kohdasta 0/1-arvot monivalinnoissa.
  • Napsauta Vie-painiketta ja avaa tai tallenna aineisto.

wpol7Exceliin tuotua aineistoa pitää muokata ennen analyyseja. Lisätietoa artikkelista 1 Tilastoaineiston tallentaminen. Erityisesti seuraaviin asioihin kannattaa kiinnittää huomiota:

  • Webropolista tuodun aineiston sarakeotsikot ovat liian pitkiä muuttujien nimiksi. Kannattaa lyhentää kaikki sarakeotsikot. Riittää kunhan itse tunnistat sarakeotsikosta sarakkeen sisällön.
  • Otsikoita saa olla vain yhdellä rivillä.
  • Jos sarakkeessa on pitkiä tekstimuotoisia vastauksia, niin sarake kannattaa kokonaan poistaa aineistosta. Avointen kysymysten vastauksethan analysoidaan aivan erikseen.
  • Jos mielipideasteikoissa on varsinaiseen asteikkoon kuulumaton vaihtoehto (en tunne asiaa, en halua vastata, jne.), niin korvaa vaihtoehdo kirjaimella tai lyhyellä tekstillä. Näin asteikkoon kuulumaton arvo ei osallistu keskiarvon tai muiden tunnuslukujen laskentaan. Voit suorittaa korvaamisen kätevästi Excelin Home (Aloitus) -välilehden Find&Select – Replace (Etsi ja valitse – Korvaa) -toiminnolla.

Muista tallentaa aineisto tekemiesi muutosten jälkeen!

Nopein ja helpoin tapa Excel-aineiston perusanalyyseihin on Tilastoapu.

Muita Webropol-artikkeleita

Yksisuuntainen varianssianalyysi

Päivitetty 25.10.2013

Varianssianalyysi on lähinnä kokeellisissa tutkimusasetelmissa käytettävä menetelmä. Varianssianalyysillä voin testata onko ryhmien (kolme tai useampia ryhmiä) keskiarvojen välillä merkitseviä eroja.

Esimerkki. Hiljakkoin työllistetyt 32 vastavalmistunutta jaetaan satunnaisesti neljään erilaiseen myyntikoulutusohjelmaan. Kuukauden koulutuksen jälkeen koulutetuille järjestetään testi, jonka pistemäärät ovat:

Onko koutusohjelmien välillä eroja? Voin tarkastella asiaa alustavasti kaavion avulla. Laadin Excelissä Scatter (Piste) -kaavion, jonka jälkeen valitsin Design (Rakenne) -välilehdeltä Switch Row/Column (Vaihda rivi tai sarake):

Huomautus: Jos ryhmien koot ovat suurempia, niin yllä olevan kaltainen kaavio ei ole havainnollinen, koska pisteet menevät liikaa päällekkäin. Vaihtoehtoisesti voin laatia viivakaavion ryhmien keskiarvoista. Isompien ryhmien kohdalla laatikkokaavio eli boxplot on havainnollinen.

Kaavion perusteella kolutusohjelmien välillä näyttää olevan eroja. Kaaviossa havaittavat erot voivat kuitenkin johtua satunnaisvaihtelusta. Varianssianalyysin avulla voin selvittää ovatko erot merkitseviä.

Excelin analyysityökalujen avulla voin laskea varianssianalyysin. Jos en ole aiemmin ottanut analyysityökaluja käyttöön, niin voit tehdä sen seuraavasti:

  • Valitsen File – Options (Tiedosto – Asetukset). Excel 2007: File (Tiedosto) sijalla on Office-painike.
  • Valitsen Add Ins (Apuohjelmat) ja valitsen alhaalta Manage (Hallinta) -ruudusta Excel Add Ins (Excel-apuohjelmat).
  • Valitsen Go (Siirry).
  • Valitsen luettelosta Analysis Toolpak (Analyysityökalut) ja valitsen OK.
  • Tämän jälkeen löydän Data (Tiedot) -välilehdeltä analyysityökalut (Data Analysis).

Analyysityökaluista löydän Anova: Single Factor (Anova: yksisuuntainen). Täytän Anova-ikkunaan syöttöalueen (Input Range). Syöttöalueeksi valitsen kaikki testipistemäärät otsikoineen (esimerkkini tapauksessa otsikot ovat 1,2,3,4). Varmistan, että Excel hakee tiedot sarakkeittain (Columns). Lisäksi määritän, että otsikot huomioidaan (Labels in First Row).

Excelin laskemat tulostaulukot näyttävät seuraavilta:

Ylemmästä taulukosta voin lukea eri koulutusohjelmiin liittyvien testipistemäärien keskiarvot ja varianssit (keskihajonnan toinen potenssi). Ensimmäisen koulutusohjelman keskiarvo (79) on selvästi muita korkeampi.

Alemmassa ANOVA-taulukossa vaihtelu on jaettu kahteen osaan: ryhmien väliseen vaihteluun (356,0417) ja ryhmien sisäiseen vaihteluun (84,34821). Mitä suurempi ryhmien välinen vaihtelu on ryhmien sisäiseen vaihteluun verrattuna, sitä merkitsevämpiä eroja ryhmien välillä on. Tämä testataan F-testillä, jonka p-arvon voin lukea taulukosta.

Esimerkin tapauksessa ryhmien välillä on merkiseviä eroja, koska p-arvo 0,014 on pienempi kuin 0,05.

On hyvä tutustua ANOVA-taulukon johtamiseen ja erityisesti vaihtelua mittaavien neliösummien (SS, sum of squares) laskemiseen. Voit tutustua ANOVA-taulukon johtamiseen Excel-tiedoston anovakaavat.xlsx avulla. Olen laskenut tiedostoon Excelin kaavoilla kaikki ANOVA-taulukossa oleva luvut.

Käyttöedellytykset

1. Vertailtavien ryhmien täytyy olla toisistaan riippumattomat.

2. Otoskeskiarvojen täytyy olla peräisin likimain normaalijakaumasta. Jos ryhmät ovat isoja (vähintään 30), niin normaalijakautuneisuus ei yleensä ole ongelma. Jos ryhmät ovat pieniä, voin arvioida normaalijakautuneisuutta otoksen arvojen jakauman perusteella (histogrammi, laatikkokaavio). Epäselvissä tapauksissa kannattaa testata normaalijakautuneisuus SPSS:llä. Ohjeet laatikkokaavion tekemiseen ja normaalijakautuneisuuden testaamiseen löydät artikkelistani SPSS: Explore.

3. Ryhmien varianssien täytyy olla likimain saman suuruisia. Jos käytössä on klassinen koeasetelma, jossa tutkittavat on jaettu satunnaisesti koeryhmään ja vertailuryhmään, niin varianssien pitäisi olla likimain saman suuruisia. Varianssien yhtäsuuruuden tarkistamiseen sopii laatikkokaavio. Epäselvissä tapauksissa voin testata varianssien yhtäsuuruuden SPSS:n varianssianalyysin laskennan yhteydessä. Lue lisää artikkelistani SPSS: Yksisuuntainen varianssianalyysi.

Jos käyttöedellytykset eivät täyty, niin voin käyttää SPSS:n Kruskal-Wallis -testiä.

Parivertailut

Varianssianalyysi kertoo onko ryhmien keskiarvojen välillä merkitseviä eroja. Sen sijaan varianssianalyysi ei kerro minkä ryhmien välillä on merkitseviä eroja. Arvailuja voin tehdä ryhmien keskiarvojen ja kaavion perusteella. Esimerkkini tapauksessa ei ole vaikeaa arvata, että ainakin koulutusohjelmien 1 (keskiarvo 79)  ja 3 (keskiarvo 64,375) välillä on merkitsevä ero. Olisi kuitenkin hyvä tehdä parivertailuja myös muista pareista. Excel ei tarjoa valmiita työkaluja parivertailujen tekemiseen. Kahden riippumattoman otoksen t-testiä ei voi sellaisenaan käyttää, koska testin toistaminen usealle parille lisää hylkäämisvirheen todennäköisyyttä. SPSS sisältää menetelmiä parivertailujen tekemiseen. Lue lisää artikkelistani SPSS: Yksisuuntainen varianssianalyysi.

Kahden riippuvan otoksen vertailu

Päivitetty 27.4.2016

Jos haluan tutkia vaikuttaako alkoholi miesten reaktioaikaan, niin voin toimia seuraavasti:

  • valitsen otoksen miehiä
  • mittaan otoksen miehille reaktioajan ilman alkoholin vaikutusta
  • mittaan otoksen miehille reaktioajan sen jälkeen kun he ovat nauttineet tarkoin mitatun määrän alkoholia
  • lasken kullekin miehelle reaktioaikojen eron
  • lasken reaktioaikojen erojen keskiarvon (samaan tulokseen päädyn, jos lasken reaktioaikojen keskiarvojen eron).

Kumpaakin mittausta voin pitää omana otoksenaan, mutta kyseessä ovat toisistaan riippuvat otokset (kyseessähän ovat samat miehet). Riippuvia otoksia voidaan kutsua myös parittaisiksi otoksiksi.

Mitä enemmän erojen keskiarvo poikkeaa nollasta sitä enemmän minulla on perusteita väittää, että alkoholia nauttineilla on eri suuruinen reaktioaika. Pieni poikkeama nollasta voi kuitenkin selittyä otantavirheellä. Otantavirheen osuus on sitä pienempi mitä suurempaa otosta käytän.

Kysymys: Miten voin tietää selittyykö erojen keskiarvon poikkeama nollasta pelkästään otantavirheellä vai onko taustalla myös alkoholin vaikutus reaktioaikaan?

Vastaus: Suoritan kahden riippuvan otoksen t-testin (myös nimitystä parittaisten otosten t-testi käytetään). T-testin tuloksena saan p-arvon. P-arvo on todennäköisyys sille, että erojen keskiarvon poikkeama nollasta selittyy pelkästään otantavirheellä. Mitä pienempi p-arvo sitä enemmän saan tukea sille, että erojen keskiarvo poikkeaa merkitsevästi nollasta.

Vakiintuneen tavan mukaan alle 0,050 (5,0 %) suuruista p-arvoa pidetään riittävänä näyttönä perusjoukossa olevan eron puolesta.

Testin suorittamiseksi minun täytyy valita suoritanko kaksisuuntaisen vai yksisuuntaisen testin. Lisäksi minun on syytä pohtia, onko testin suorittaminen ylipäätään luotettavaa eli täyttyvätkö testin käyttöedellytykset.

Mitä pienempi p-arvo sitä enemmän saan tukea sille, että erojen keskiarvo poikkeaa merkitsevästi nollasta.

Kaksisuuntainen vai yksisuuntainen testi

Jos etukäteen ajateltuna ei ole käsitystä siitä onko erojen keskiarvo positiivinen vai negatiivinen, niin käytän kaksisuuntaista testiä.

Jos etukäteen ajateltuna vain tietyn merkkinen erojen keskiarvo tulee kyseeseen tai olen yksinomaan kiinnostunut tietyn merkkisestä erosta, niin voin käyttää yksisuuntaista testiä. Yksisuuntaisessa testauksessa pienempi poikkeama riittää tilastollisesti merkitsevään testitulokseen.

Testin käyttöedellytykset

Ensiksi tarkasteltavan muuttujan täytyy olla sellainen, että keskiarvon laskeminen on mielekästä. Tällöin myös mittausten erojen keskiarvon laskeminen on mielekästä.

Jos otoskoko on vähintään 30, niin voin käyttää testiä. Tätä pienempien otosten tapauksessa edellytetään, että erot ovat likimain normaalisti jakautuneet. Jos mitattavat muuttujat voidaan olettaa normaalijakautuneiksi, niin sitä suuremmalla syyllä myös mittausten ero voidaan olettaa normaalijakautuneeksi. Jotkin muuttujat ovat luonnostaan sellaisia, että normaalijakautuneisuus voidaan olettaa. Reaktioaika on tällainen muuttuja (useimmat ihmisen fyysisistä ja psyykkisistä ominaisuuksista noudattavat normaalijakaumaa).  Epäselvissä tapauksissa voin yrittää arvioida normaalijakautuneisuutta otosten erojen jakauman perusteella (voin käyttää esimerkiksi histogrammia tai ruutu- ja janakaaviota).

Testin p-arvon laskeminen Excelillä

Voin laskea testin p-arvon Excelin funktiolla =T.TEST(otos1;otos2;suuntaisuus;tyyppi)

  • otos1: viittaus ensimmäiseen otokseen
  • otos2: viittaus toiseen otokseen
  • suuntaisuus: 2 kaksisuuntaiselle testille, 1 yksisuuntaiselle testille
  • tyyppi: 1 riippuvien otosten t-testille

Suomenkielisessä Excelissä funktion nimi on T.TESTI.

Funktion nimeä vaihdettiin Excelin versioon 2010. Aikasemmissa versioissa funktion nimi on TTEST (TTESTI). Vanha funktion nimi toimii edelleen uudemmissa Excelin versioissa.

Esimerkki. Tiedostossa reaktioajat.xlsx on kuvitteellinen esimerkkiaineisto reaktioajoista. Ensimmäisen mittauksen reaktioajat ovat soluissa B2:B16 ja toisen otoksen reaktioajat soluissa C2:C16. P-arvon laskemiseen (yksisuuntainen) voidaan käyttää funktiota =T.TEST(B2:B16;C2:C16;2;1)

Esimerkkiaineiston p-arvo on pienempi kuin 0,001, mikä tarkoittaa erojen keskiarvon tilastollisesti merkitsevää poikkeamaa nollasta.

Testin tulosten raportointi

Tuloksen voin raportoida monellakin tavalla. Tärkeintä on, että otosten keskiarvot, keskihajonnat, otoskoko ja testin p-arvo ovat näkyvillä. Esimerkiksi:

Reaktioaikojen keskiarvo ilman alkoholia 0,226 (keskihajonta = 0,025, n = 15) oli pienempi kuin keskiarvo alkoholin vaikutuksen alaisena 0,243 (keskihajonta = 0,023, n = 15). Ero osoittautui riippuvien otosten t-testillä merkitseväksi: t(14) = 5,621, p < 0,001, 2-suuntainen.

Tieteellisessä tekstissä t-testimuuttujan arvo täytyy ilmoittaa yhdessä vapausasteluvun df kanssa: t(14) = 5,621. Testimuuttujan arvon ja vapausasteluvun saat Excelin analyysityökaluilla (katso reaktioajat.xlsx) tai käyttämällä valmista laskentapohjaa tiedostossa otantavirhe.xlsx.

SPSS

Jos haluat suorittaa testauksen SPSS:llä, niin lue artikkelini SPSS: Kahden riippuvan otoksen vertailu.

Muita menetelmiä kahden riippuvan otoksen vertailuun

Jos keskiarvo ei sovellu tarkasteltavalle muuttujalle, niin tarjolla on kaksi hyvää vaihtoehtoa:

  1. Jos tarkasteltava muuttuja on kaksiarvoinen (joko/tai), niin voit käyttää McNemar-testiä. Voit esimerkiksi testata ostohalukkuuden eroa ennen ja jälkeen tuote-esittelyn. Excelissä ei ole valmista toimintoa testin laskemiseen. SPSS soveltuu hyvin testin laskemiseen.
  2. Jos otoskoko on alle 30 etkä ole varma normaalijakautuneisuudesta, niin riippuvien otosten t-testin sijasta voit käyttää Wilcoxon merkittyjen sijalukujen testiä. Excelissä ei ole valmista toimintoa testin laskemiseen. SPSS soveltuu hyvin testin laskemiseen.

Kahden riippumattoman otoksen vertailu

Miesten reaktioaikaa voin tutkia myös toisenlaisella tutkimusasetelmalla:

  • valitsen kaksi toisistaan riippumatonta otosta miehiä
  • ensimmäisen otoksen miehille mittaan reaktioajan ilman alkoholin vaikutusta
  • toisen otoksen miehille mittaan reaktioajan sen jälkeen kun he ovat nauttineet tarkoin mitatun määrän alkoholia
  • lasken kummallekin otokselle reaktioaikojen keskiarvon.

Tässä asetelmassa otokset ovat toisistaan riippumattomat ja vertailuun täytyy käyttää kahden riippumattoman otoksen t-testiä.

Usein kysyttyä

Kysymys: Olen laskenut keskiarvot ja keskihajonnat, mutta alkuperäinen aineisto ei ole Excelissä. Voinko silti laskea kahden otoksen t-testin.

Vastaus: Voit. Käytä Exceliin laatimaani laskentapohjaa otantavirhe.xlsx. Syötä laskentapohjaan otoskoko, erojen keskiarvo ja erojen keskihajonta.

Kysymys: Voinko laskea virhemarginaalin erojen keskiarvolle?

Vastaus: Kyllä. Käytä Exceliin laatimaani laskentapohjaa otantavirhe.xlsx. Syötä laskentapohjaan otoskoko, erojen keskiarvo ja erojen keskihajonta.

Kahden riippumattoman otoksen vertailu

Päivitetty 27.4.2016

Jos haluan tutkia vaikuttaako alkoholi miesten reaktioaikaan, niin voin toimia seuraavasti:

  • valitsen kaksi toisistaan riippumatonta otosta miehiä
  • ensimmäisen otoksen miehille mittaan reaktioajan ilman alkoholin vaikutusta
  • toisen otoksen miehille mittaan reaktioajan sen jälkeen kun he ovat nauttineet tarkoin mitatun määrän alkoholia
  • lasken kummallekin otokselle reaktioaikojen keskiarvon.

Mitä enemmän otosten keskiarvot poikkeavat toisistaan sitä enemmän minulla on perusteita väittää, että alkoholi vaikuttaa miesten reaktioaikaan. Pienet erot keskiarvoissa voivat selittyä otantavirheellä. Reaktioajoissa on luontaista vaihtelua miesten välillä ja on sattuman varassa minkälaisen reaktioajan omaavat miehet otoksiin valikoituvat. Otantavirheen osuus on sitä pienempi mitä suurempaa otosta käytän.

Kysymys: Miten voin tietää selittyykö keskiarvojen ero pelkästään otantavirheellä vai onko taustalla myös alkoholin vaikutus reaktioaikaan?

Vastaus: Suoritan kahden riippumattoman otoksen t-testin. T-testin tuloksena saan p-arvon. P-arvo on todennäköisyys sille, että keskiarvojen ero selittyy pelkästään otantavirheellä. Mitä pienempi p-arvo sitä enemmän saan tukea sille, että keskiarvojen välinen ero on merkitsevä.

Vakiintuneen tavan mukaan alle 0,050 (5,0 %) suuruista p-arvoa pidetään riittävänä näyttönä perusjoukossa olevan eron puolesta.

Testin suorittamiseksi minun täytyy valita suoritanko yhtäsuurten vai erisuurten varianssien testin sekä suoritanko kaksisuuntaisen vai yksisuuntaisen testin. Lisäksi minun on syytä pohtia, onko testin suorittaminen ylipäätään luotettavaa eli täyttyvätkö testin käyttöedellytykset.

Mitä pienempi p-arvo sitä enemmän saan tukea sille, että keskiarvojen välinen ero on merkitsevä.

Yhtäsuurten vai erisuurten varianssien testi?

Kahden riippumattoman otoksen t-testistä on kaksi versiota.

  • Yhtäsuurten varianssien testi sopii tilanteisiin, joissa verrattavien ryhmien varianssit (varianssi on keskihajonnan toinen potenssi) ovat likimain yhtäsuuret.
  • Erisuurten varianssien testiä taas voidaan käyttää tilanteisiin, joissa verrattavien ryhmien varianssien yhtäsuuruutta ei voida olettaa.

Kysymys: Mistä tiedän pitääkö käyttää yhtäsuurten vai erisuurten varianssien testiä?

Vastaus: Jos olet epävarma, niin käytä erisuurten varianssien testiä. Jos tiedät perusjoukoissa varianssien olevan likimain yhtäsuuret ja otosten varianssitkin tukevat tätä käsitystä, niin voit käyttää yhtäsuurten varianssien testiä.

Jos olet epävarma, niin käytä erisuurten varianssien testiä.

Kaksisuuntainen vai yksisuuntainen testi?

Jos etukäteen ajateltuna kumman tahansa ryhmän keskiarvo voi olla toista suurempi, niin käytän kaksisuuntaista testiä.

Jos etukäteen ajateltuna vain toisen ryhmän keskiarvo voi olla suurempi tai olen yksinomaan kiinnostunut toisen ryhmän keskiarvon suuremmuudesta, niin voin käyttää yksisuuntaista testiä. Yksisuuntaisessa testauksessa keskiarvojen tilastollisesti merkitsevä ero saavutetaan pienemmällä keskiarvojen erolla.

Testin käyttöedellytykset

Ensiksi tarkasteltavan muuttujan täytyy olla sellainen, että keskiarvon laskeminen on mielekästä.

Jos otoskoot ovat vähintään 30, niin voin käyttää testiä. Tätä pienempien otosten tapauksessa edellytetään, että tarkasteltava muuttuja on perusjoukossaan likimain normaalisti jakautunut. Jotkin muuttujat ovat luonnostaan sellaisia, että normaalijakautuneisuus voidaan olettaa. Reaktioaika on tällainen muuttuja (useimmat ihmisen fyysisistä ja psyykkisistä ominaisuuksista noudattavat normaalijakaumaa). Epäselvissä tapauksissa voin yrittää arvioida normaalijakautuneisuutta otoksen arvojen jakauman perusteella (voin käyttää esimerkiksi histogrammia tai ruutu- ja janakaaviota).

Testin p-arvon laskeminen Excelillä

Voin laskea testin p-arvon Excelin funktiolla =T.TEST(otos1;otos2;suuntaisuus;tyyppi)

  • otos1: viittaus ensimmäiseen otokseen
  • otos2: viittaus toiseen otokseen
  • suuntaisuus: 2 kaksisuuntaiselle testille, 1 yksisuuntaiselle testille
  • tyyppi: 2 yhtäsuurten varianssien testille, 3 erisuurten varianssien testille

Suomenkielisessä Excelissä funktion nimi on T.TESTI.

Funktion nimeä vaihdettiin Excelin versioon 2010. Aikasemmissa versioissa funktion nimi on TTEST (TTESTI). Vanha funktion nimi toimii edelleen uudemmissa Excelin versioissa.

Esimerkki. Tiedostossa reaktioajat.xlsx on kuvitteellinen esimerkkiaineisto reaktioajoista. Ensimmäisen otoksen reaktioajat ovat soluissa C2:C16 ja toisen otoksen reaktioajat soluissa C17:C31. P-arvon laskemiseen (kaksisuuntainen, erisuurten varianssien testi) voin käyttää funktiota =T.TEST(C2:C16;C17:C31;2;3)

Esimerkkiaineiston p-arvo on noin 0,006 (0,6 %), mikä tarkoittaa tilastollisesti merkitsevää keskiarvojen e roa.

Testin tulosten raportointi

Tuloksen voin raportoida monellakin tavalla. Tärkeintä on, että otosten keskiarvot, keskihajonnat, otoskoot ja testin p-arvo ovat näkyvillä. Esimerkiksi:

Alkoholia nauttineiden reaktioaikojen keskiarvo 0,237 sekuntia (keskihajonta = 0,035, n=15) poikkesi raittiiden reaktioaikojen keskiarvosta 0,205 sekuntia (keskihajonta = 0,020, n=15). Ero osoittautui riippumattomien otosten t-testillä merkitseväksi: t(22) = -3,045, p = 0,006, 2-suuntainen.

Tieteellisessä tekstissä t-testimuuttujan arvo täytyy ilmoittaa yhdessä vapausasteluvun df kanssa: t(22) = -3,045. Testimuuttujan arvon ja vapausasteluvun saat Excelin analyysityökaluilla (katso reaktioajat.xlsx) tai käyttämällä valmista laskentapohjaa tiedostossa otantavirhe.xlsx.

SPSS

Jos haluat suorittaa testauksen SPSS:llä, niin lue artikkelini SPSS: Kahden riippumattoman otoksen vertailu.

Muita menetelmiä kahden riippumattoman otoksen vertailuun

Kahden riippumattoman otoksen t-testi soveltuu kokeelliseen tutkimusasetelmaan, jossa vertaillaan kahta riippumatonta otosta, kuten tämän artikkelin reaktioaika-esimerkissä. Testiä voidaan käyttää myös ei-kokeellisissa tutkimusasetelmissa. Esimerkiksi kyselytutkimusainestossa voidaan verrata eläkeläisten ja työssäkäyvien TV:n katseluun käytettyä aikaa.

Jos kahden riippumattoman otoksen t-testi ei tule kysymykseen, niin tarjolla on monia muita menetelmiä ryhmien välisen eron testaamiseen. Lue lisää artikkelistani Onko ryhmien välinen ero tilastollisesti merkitsevä?

Kahden riippuvan otoksen vertailu

Miesten reaktioaikaa voin tutkia myös toisenlaisella tutkimusasetelmalla:

  • valitsen otoksen miehiä
  • mittaan otoksen miehille reaktioajan ilman alkoholin vaikutusta
  • mittaan otoksen miehille reaktioajan sen jälkeen kun he ovat nauttineet tarkoin mitatun määrän alkoholia
  • lasken kullekin miehelle reaktioaikojen eron
  • lasken reaktioaikojen erojen keskiarvon.

Kumpaakin mittausta voin pitää omana otoksenaan, mutta kyseessä ovat toisistaan riippuvat otokset (kyseessähän ovat samat miehet). Tällaisessa asetelmassa otosten vertailuun täytyy käyttää riippuvien otosten t-testiä.

Usein kysyttyä

Kysymys: Olen laskenut keskiarvot ja keskihajonnat, mutta alkuperäinen aineisto ei ole Excelissä. Voinko silti laskea kahden otoksen t-testin.

Vastaus: Voit. Käytä Exceliin laatimaani laskentapohjaa otantavirhe.xlsx. Syötä laskentapohjaan molempien otosten otoskoot, keskiarvot ja keskihajonnat.

Kysymys: Millä tavoin erisuurten ja yhtäsuurten varianssien t-testien laskentatavat eroavat toisistaan?

Vastaus: Lue lisätietoa.

Kysymys: Voinko laskea virhemarginaalin otoskeskiarvojen erolle?

Vastaus: Kyllä. Lue lisätietoa ja käytä Exceliin laatimaani laskentapohjaa otantavirhe.xlsx. Syötä laskentapohjaan molempien otosten otoskoot, keskiarvot ja keskihajonnat.