Avainsana-arkisto: Otantavirhe

Kyselytutkimuksen luotettavuus

Päivitetty 30.4.2014

…virheet vältetään luotettavalla mittaamisella, oikeilla menetelmävalinnoilla ja onnistuneella otannalla.

Kyselytutkimuksen tavoitteena on hankkia tutkimuksen tarkoitukseen sopivaa tietoa, joka on todenmukaista ja virheetöntä. Tutkimuksen toteutuksessa virheiden osuus pyritään minimoimaan. Tätä varten keskeiset virhelähteet täytyy tunnistaa. Tutkimusraportissa virhelähteet ja niiden mahdollinen vaikutus tutkimustuloksiin täytyy raportoida kattavasti ja rehellisesti, jotta raportin lukijakin pystyy arvioimaan virheiden vaikutuksen tutkimuksen luotettavuuteen.

Keskeiset virhelähteet ovat selkeästi tunnistettavissa, jos kuvaan kyselytutkimusta seuraavan kuvion mukaisella mallilla (mallin idean olen ottanut kirjasta Groves, Fowler, Couper, Lepkowski, Singer & Tourangeau. Survey Methodology. Second Edition).

Kuvion mukaisesti virheet vältetään luotettavalla mittaamisella, oikeilla menetelmävalinnoilla ja onnistuneella otannalla.

Luotettava mittaaminen

Kyselytutkimuksen tuloksia ei tarkastella yksittäisen vastaajan osalta. On kuitenkin tärkeää, että mittaaminen on suoritettu siten että vastausten perusteella vastaaja pystyttäisiin kuvailemaan todenmukaisesti tutkimuksen kannalta olennaisten ominaisuuksien osalta. Muutoinhan kaikkien vastaajien vastauksista tilastollisesti muodostettu yhteenveto ei anna todenmukaista kuvaa otoksesta. Mittaamisen luotettavuutta heikentäviä tekijöitä ovat ainakin seuraavat:

Heikko validiteetti

Jos kyselylomakkeen kysymykset eivät mittaa sitä mitä niiden on tarkoitus mitata niin seurauksena on heikko validiteetti.

Heikko reliabiliteetti

Vastauksissa esiintyvät satunnaiset virheet heikentävät mittaamisen reliabiliteettia. Esimerkiksi

  • Eri vastaajat ymmärtävät kysymykset eri tavoilla.
  • Kaikki vastaajat eivät vastaa rehellisesti.
  • Kaikki vastaajat eivät muista vastausta oikein. Tämä on ongelma erityisesti mennyttä käytöstä koskevissa kysymyksissä.
  • Vastaukset vaihtelelevat satunnaisten tekijöiden johdosta (vastaajan mielentila, vuorokaudenaika, haastattelijan käytös jne.).
  • Vastaus kirjataan vahingossa väärin.

Jos mittaamisen reliabiliteetti on heikko, niin siitä seuraa myös heikko validiteetti. Eihän virheellisillä vastauksilla voida mitata luotettavasti sitä mitä on tarkoitus mitata. Päinvastainen ei välttämättä pidä paikkansa. Mittaamisen validiteetti voi olla heikko, mutta silti vastaukset voivat olla virheettömiä ja totuuden mukaisia esitettyihin kysymyksiin nähden.

Lisätietoa ja esimerkkejä mittaamisen validiteetista ja reliabiliteetista artikkelissani Mittaamisen luotettavuus.

Oikeat menetelmävalinnat

Yksittäisten vastaajien vastauksista muodostetaan otosta kuvaileva yhteenveto käyttäen taulukoita, tunnuslukuja ja kuvioita. Virheelliset menetelmävalinnat tai laskuvirheet heikentävät luotettavuutta. Tilastollisten menetelmien opiskelulla ja huolellisella työskentelyllä tämän vaiheen virheet voidaan välttää. Jos olet epävarma menetelmävalinnoista, niin kysy asiantuntijalta.

Onnistunut otanta

Otoksen perusteella muodostetaan kuva koko perusjoukosta. Jos otos ei vastaa ominaisuuksiltaan perusjoukkoa, niin otoksen perusteella tehdään virheellisiä päätelmiä perusjoukosta. Tässä yhteydessä käytetään usein nimitystä ulkoinen validiteetti. Jos otoksen tulokset ovat heikosti yleistettävissä perusjoukkoon, niin ulkoinen validiteetti on heikko. Otoksen onnistumista uhkaavat ainakin seuraavat tekijät:

  • Peittovirhe: Otos valitaan usein todellisen perusjoukon sijasta niin kutsutusta otantakehikosta. Otantakehikko ei sisällä välttämättä koko perusjoukkoa ja toisaalta otantakehikkoon saattaa kuulua perusjoukkoon kuulumattomia. Otantakehikosta seuraavaa virhettä kutsutaan peittovirheeksi. Tästä asiasta lisää artikkelissani Otantamenetelmä.
  • Otantamenetelmä: Jos otantamenetelmä on jokin muu kuin arvonta tai systemaattinen otanta, niin seurauksena voi olla vino otos, joka ei vastaa perusjoukkoa. Tästä asiasta lisää artikkelissani Otantamenetelmä.
  • Otantavirhe: Vaikka otanta valitaan arpomalla tai systemaattisella otannalla, niin otoksen kokoonpano vaihtelee otoksesta toiseen. Tätä vahtelua kutsutaan otantavirheeksi. Otantavirhe on sitä pienempi mitä suurempaa otosta käytän. Tästä asiasta lisää artikkelissani Otoskoko. Tilastollisen päättelyn menetelmät (virhemarginaalin laskeminen, hypoteesin testaus) liittyvät otantavirheen huomioimiseen tulosten esittämisessä.
  • Kato: Vastaamatta jättäneet voivat olla erilaisia kuin vastanneet. Tällöin kadosta seuraa virhettä tuloksiin. Kyselytutkimusten vastausprosentit ovat usein valitettavan alhaisia, joten kato voi aiheuttaa merkittävän virheen tuloksiin. Tästä asiasta lisää artikkelissani Kato.

Edellä mainituista peittovirhe ja kato ovat uhkana myös kokonaistutkimuksessa, jossa tieto pyritään keräämään koko perusjoukolta.

Kannattaa huomata, että tutkimustulokset voivat olla käyttökelpoisia vaikka otanta ei olisikaan kovin onnistunut:

Esimerkki: Oleta, että asiakaskyselyssä iso joukko asiakkaita pitää myymälän siisteyttä tärkeänä, mutta arvioi myymälän epäsiistiksi. Riippumatta otannan onnistuneisuudesta nämä ovat todellisia vastaajia ja todellisia mielipiteitä, joiden pohjalta kannattaa ryhtyä toimenpiteisiin siisteyden parantamiseksi.

Otoskoko

Päivitetty 21.10.2013

Pieni otos voi sattumalta poiketa paljonkin perusjoukosta. Tämä niin kutsuttu otantavirhe on sitä suurempi mitä pienempää otosta käytän.

Kokonaistutkimuksessa tieto kerätään koko kiinnostuksen kohteena olevasta joukosta eli perusjoukosta. Jos kokonaistutkimus ei ole mahdollinen tai tarkoituksenmukainen, niin tieto voidaan kerätä vain osasta perusjoukkoa. Jos osa valitaan satunnaisuutta hyödyntäen, esimerkiksi arpomalla, niin osaa voidaan kutsua otokseksi.

Jos otoksen keräämisen tarkoituksena on saada tietoa koko perusjoukosta, niin otoskoon on oltava riittävän suuri. Pieni otos voi sattumalta poiketa paljonkin perusjoukosta. Tämä niin kutsuttu otantavirhe on sitä suurempi mitä pienempää otosta käytän.

Mitään yksiselitteistä ihanteellista otoskokoa ei ole, mutta suuntaviivoja erilaisiin tilanteisiin voin silti antaa.

Keskiarvo

Jos tutkittavan muuttujan arvojen jakauma perusjoukossa on likimain normaalijakauma ja vaihtelua on vähän, niin jo muutaman kymmenen kappaleen otoksella voin saada perusjoukon keskiarvolle riittävän tarkan arvion.

Esimerkki. Sarjatuotannossa valmistetaan ominaisuuksiltaan likimain tasalaatuisia tuotteita. Satunnaisista tekijöistä johtuvaa pientä vaihtelua esiintyy, mutta vaihtelun tiedetään noudattavan likimain normaalijakaumaa. Tilastollisella laadunvalvonnalla voidaan varmistaa, että tuotteiden ominaisuudet ovat keskiarvoltaan tavoitteiden mukaisia. Tällöin voidaan käyttää pieniä otoksia. Laadunvalvonnassa käytetään joissain tapauksissa jopa alle 10 kappaleen otoksia.

Jos ei ole varmuutta siitä, että muuttujan arvot ovat perusjoukossa likimain normaalisti jakautuneet, niin otoskoon täytyy olla suurempi. On osoitettu, että vasta noin otoskoosta 30 alkaen otosten keskiarvot alkavat käyttäytyä riittävän siististi. Otoskokoa 30 voisikin yleisessä tapauksessa pitää otoskoon alarajana.

Jos tutkittavan muuttujan arvoissa on paljon vaihtelua, niin tämä täytyy huomioida kasvattamalla otoskokoa.

Voit kokeilla otoskoon ja vaihtelun (keskihajonta) vaikutusta keskiarvon virhemarginaaliin laskentamallissa virhemarginaali.xlsx.

Jos haluan vertailla otoksen sisällä olevien ryhmien keskiarvoja, niin kustakin ryhmästä olisi hyvä olla vähintään 30 edustajaa. Jos esimerkiksi haluaisin vertailla viiden eri ikäryhmän ulkomaanmatkoihin käyttämää rahamäärää, niin tarvitsen otoksen, jossa on vähintään 30 edustajaa kustakin ikäryhmästä. Tämä tarkoittaa vähintään 150 kappaleen otosta. Jos ikäryhmät ovat eri kokoisia, niin tarvitsen vieläkin isommman otoksen, jotta saan pienimmästäkin ikäryhmästä mukaan 30 edustajaa.

Mitä isompaa otosta käytän sitä pienemmän perusjoukossa esiintyvän ryhmien välisin eron pystyn otoksellani tunnistamaan.

Ristiintaulukointi

Jos esimerkiksi ristiintaulukoin ikäryhmän mielipideasteikolla mitatun mielipiteen kanssa, niin kyseessä on  ryhmien vertailu (voin myös puhua ikäryhmän ja mielipiteen välisestä riippuvuudesta). Tässä on syytä olla mukana vähintään 30 edustajaa kustakin ryhmästä, aivan kuten ryhmien keskiarvoja vertailtaessa. Jos otoskoko on liian pieni, niin khiin neliö -testin käyttöedellytykset eivät täyty enkä pääse testaamaan erojen tilastollista merkitsevyyttä.

Mitä isompaa otosta käytän sitä pienemmän perusjoukossa esiintyvän ryhmien välisin eron pystyn otoksellani tunnistamaan.

Suunnitellessani otoskokoa ajattelen asiaa kaikkien aikomieni ristiintaulukointien kannalta. Valitsen otoskoon pahimman tapauksen mukaan. Pahin tapaus on ristiintaulukointi, joka asettaa kovimmat vaatimukset otoskoolle.

Prosenttiluku

Puolueiden kannatuksia mittaavissa mielipidekyselyissä käytetään tyypillisesti noin 1000 henkilön otoksia. Tällaisella otoksella virhemarginaali on noin kolme prosenttiyksikköä. Tästä huomaat, että prosenttiluvun tarkkaan arviointiin tarvitaan isoja otoksia. Otoskoolla 100 päästään noin kymmenen prosenttiyksikön virhemarginaaliin ja otoskoolla 10000 noin yhden prosenttiyksikön virhemarginaaliin.

Voit kokeilla otoskoon vaikutusta virhemarginaaliin laskentamallissa virhemarginaali.xlsx. Huomaa, että prosenttiluvun suuruus vaikuttaa asiaan. Virhemarginaali on suurimmillaan 50 prosentin kohdalla. Tämä on helppo ymmärtää, koska vaihtelu on 50 prosentin kohdalla suurimmillaan (puolet on yhtä mieltä ja puolet vastakkaista mieltä).

Otoskoon kasvattaminen ei paranna huonoa otosta

Yleensä suuri joukko kyselytutkimukseen valituista jättää vastaamatta. Tätä kutsutaan kadoksi. Kato vinouttaa otosta, jos vastaamatta jättäneet ovat mielipiteiltään erilaisia kuin vastanneet. Otoskoon kasvattaminen ei paranna kadon aiheuttamaa vinoutumista.

Mahdollinen kato täytyy kuitenkin huomoida otosta valittaessa. Alkuperäinen otos täytyy valita niin suureksi, että kadon jälkeenkin otoskoko jää riittävän suureksi.

Otos voi vinoutua myös silloin, jos otos valitaan joukosta joka ei täysin vastaa perusjoukkoa. Joukkoa, josta otos valitaan kutsutaan otantakehikoksi.

Esimerkki: Jos ALKOn myymälän asiakastutkimus suoritetaan ovensuukyselynä maanantaina aamupäivällä, niin vastaajat eivät luultavasti edusta myymälän koko asiakaskuntaa. Otantakehikko on tässä liian suppea ja seurauksena on todennäköisesti vinoutunut otos. Vinoutuma ei korjaannu vaikka otosta kasvatetaan maanantai-aamupäivän asiakkailla.

Otos voi olla huono myös johtuen huonosta otantamenetelmästä. Jos otoksen valinnassa ei hyödynnetä asianmukaista otantamenetelmää, niin otosta pitäisi kutsua näytteeksi. Näytteen tuloksia ei yleensä voi yleistää laajempaan perusjoukkoon.

P-arvo

Päivitetty 25.10.2013

Tilastollisen testauksen logiikka vastaa monin tavoin oikeudenkäynnin logiikkaa. Oikeudenkäynnissä oletetaan, että henkilö on syytön kunnes toisin osoitetaan. Tilastollisessa testauksessa oletetaan nollahypoteesin pitävän paikkansa kunnes toisin osoitetaan. Nollahypoteesi on usein muotoa ’ei eroa’ tai  ’ei riippuvuutta’. Esimerkiksi

  • Miehet ja naiset ovat yhtä tyytyväisiä työympäristöön.
  • Tehtyjen harjoitustehtävien määrän ja tenttimenestyksen välillä ei ole riippuvuutta.
  • Miesten reaktioaika ei muutu alkoholin nauttimisen seurauksena.

Tilastollisessa testauksessa oletetaan nollahypoteesin pitävän paikkansa kunnes toisin osoitetaan.

Todistustaakka on syyttäjällä, tilastollisessa testauksessa tutkijalla. Syyttäjä kerää oikeudenkäyntiä varten todisteita syyllisyyden puolesta. Tilastollisessa testauksessa tutkija kerää otoksen kiinnostuksen kohteena olevasta perusjoukosta.

Tutkija vertaa otoksen tulosta nollahypoteesiin. Pelkästään otantavirheen takia otoksen tulos poikkeaa enemmän tai vähemmän nollahypoteesista. Isoja poikkeamia ei kuitenkaan voida selittää pelkästään otantavirheellä.  Vastaavalla tavalla syyttäjä voi esittää niin vahvoja todisteita syyllisyyden puolesta, että niitä ei voida selittää pelkästään sattumalla. Jos syytetty on tavattu ryöstön jälkeen ryöstöpaikan läheisyydestä kädessään ryöstösaalista ja toisessa kädessä ase, niin harva uskoo tämän kaiken aiheutuneen sattumalta, ilman että syytetty olisi osallinen ryöstöön.

Pelkästään otantavirheen takia otoksen tulos poikkeaa enemmän tai vähemmän nollahypoteesista. Isoja poikkeamia ei kuitenkaan voida selittää pelkästään otantavirheellä.

Tilastollisen testauksen keskeinen kysymys on: kuinka iso poikkeama nollahypoteesista on liian iso selitettäväksi pelkällä otantavirheellä? Asian selventämiseksi tutkija laskee kuinka yllättävänä otoksessa havaittua voidaan pitää, jos oletetaan nollahypoteesin pitävän paikkansa. Tätä kutsutaan p-arvoksi.

Mitä pienempi p-arvo sitä enemmän vaihtoehtoinen hypoteesi saa tukea ja sitä enemmän todisteet puhuvat nollahypoteesia vastaan.

Jos esimerkiksi tutkija saa p-arvoksi 0,001 eli 0,1 %, niin otoksen tulos on yllättävä. P-arvoa 0,001 on tulkittava seuraavasti: Jos nollahypoteesin oletetaan pitävän paikkansa, niin otoksen kaltainen tai vielä enemmän nollahypoteesista poikkeava tulos sattuu kohdalle yhdessä otoksessa tuhannesta. Kyseessä on siis melko yllättävä tulos. Tämä jos mikä on riittävä todiste nollahypoteesia vastaan. Tuloshan ei nimittäin olekaan enää yllättävä, jos nollahypoteesi ei pidäkään paikkansa. Seuraavassa kolme näkökulmaa p-arvon ymmärtämiseksi:

  • P-arvo on todennäköisyys sille, että otoksen tulos poikkeaa havaitun verran tai vieläkin enemmän nollahypoteesista (kun oletetaan, että nollahypoteesi pitää paikkansa).
  • P-arvo on todennäköisyys sille, että havaittu poikkeama nollahypoteesista voidaan selittää pelkästään otantavirheellä.
  • Jos nollahypoteesi päätetään hylätä, niin p-arvo ilmoittaa päätökseen liittyvän erehtymisriskin.

Mitä pienempi p-arvo sitä enemmän vaihtoehtoinen hypoteesi saa tukea ja sitä enemmän todisteet puhuvat nollahypoteesia vastaan. Kuinka pieni p-arvon sitten täytyy olla, jotta nollahypoteesi voidaan hylätä? Yleisimmin käytetty raja on 0,05 eli 5 %. Tämä on kuitenkin täysin mielivaltainen raja ja tapauskohtaista harkintaa on syytä käyttää. Kovin korkealle rajaa ei kuitenkaan voi nostaa. Tämän ymmärtää hyvin vertaamalla tilannetta oikeudenkäyntiin. Tuskin henkilöä päätetään tuomita, jos päätökseen liittyvä erehtymisriski on esimerkiksi 30 %. Oikeudenkäynnissä tilanne on käytännössä hankalampi, koska p-arvon kaltaista todennäköisyyttä ei yleensä ole laskettavissa.

On tärkeää huomata, että tilastollisessa testauksessa ei koskaan osoiteta nollahypoteesia oikeaksi. Todisteet joko riittävät nollahypoteesin hylkäämiseen tai eivät riitä. Vaikka todisteet eivät riitäkään nollahypoteesin hylkäämiseen, niin käytössä ei ole todisteita, jotka osoittaisivat nollahypoteesin oikeaksi. Vähän vastaavalla tavalla voidaan ajatella oikeudenkäynnistäkin. Vaikka todisteet eivät olekaan riittävät syyllisyyden osoittamiseksi, niin eivät ne toisaalta vastaansanomattomasti todista syytetyn syyttömyyttäkään.

On tärkeää huomata, että tilastollisessa testauksessa ei koskaan osoiteta nollahypoteesia oikeaksi.

P-arvoon viittaan artikkeleissani: