Avainsana-arkisto: Prosenttiosuuden virhemarginaali

Prosenttiosuuden luottamusväli

Päivitetty 25.4.2019.

Otoksesta laskettu prosenttiosuus kertoo prosenttiosuuden otoksessa. Jos yleistän otoksesta lasketun prosenttiosuuden laajempaan perusjoukkoon, niin minun täytyy huomoida otantavirheen aiheuttama epävarmuus. Otantavirheen aiheuttaman epävarmuuden ilmaisen virhemarginaalin avulla. Voin arvioida 95 % virhemarginaalin seuraavasti:

cipros

Kaavassa n tarkoittaa otoskokoa ja p otoksesta laskettua prosenttiosuutta desimaalimuodossa. Jos np>10 ja n(1−p)>10, niin voin pitää kaavan antamaa arviota hyvänä. Jos esimerkiksi otoskoko on 100, niin kaava antaa hyviä arvioita virhemarginaalille prosenttiosuuden ollessa 10 % ja 90 % välillä. Monissa lähteissä ehdosta esitetään lievempi versio np>5 ja n(1-p)>5.

Voit käyttää virhemarginaalin laskentaan Exceliin laatimaani laskuria virhemarginaali.xlsx. Laskuri laskee prosenttiosuuden virhmarginaalin, jos annat otoksesta lasketun prosenttiosuuden ja otoskoon.

Esimerkki. Uuden ydinvoimalan kannattajien osuus oli 800 henkilön kyselytutkimuksessa 40,8 %. Virhemarginaaliksi lasken

ciproses

Usein virhemarginaalin pohjalta muodostetaan luottamusväli. Luottamusvälin alarajan saan vähentämällä otosprosenttiosuudesta virhemarginaalin ja ylärajan saan lisäämällä otosprosenttiosuuteen virhmarginaalin

Esimerkki. Edellisen esimerkin tapauksessa 95 % luottamusväli on 0,374 – 0,442. Tärmä tarkoittaa sitä että 95 % varmuudella todellinen prosenttiosuus sisältyy luottamusväliin 37,4 % – 44,2 %.

Mihin virhemarginaalin laskenta perustuu

Esimerkiksi uuden ydinvoimalan kannattajien lukumäärä otoksessa noudattaa binomijakaumaa. Binomijakauma seuraa siitä, että jokainen otokseen otettu joko kannattaa uutta ydinvoimalaa tai ei. Binomijakaumahan on nimen omaan jakauma tällaisille kaksiarvoisille tilanteille. Binomijakaumaa voidaan isoilla otoksilla approksimoida normaalijakauman avulla (edellä mainitut ehdot np>10 ja n(p-1)>10 takaavat, että approksimaatio on riittävän hyvä käytännön sovelluksiin). Voidaankin siis todeta, että isoilla otoksilla otoksesta laskettu prosenttiosuus on peräisin likimain normaalijakaumasta. Kyseisen normaalijakauman keskihajonta eli prosenttiosuuden keskivirhe on

proskeskivirhe

Normaalijakauman ominaisuuksista seuraa, että otoksesta laskettu prosenttiosuus on 95 % varmuudella korkeintaan 1,96 keskivirheen päässä jakauman keskiarvosta eli perusjoukon todellisesta prosenttiosuudesta.

normaali

Kääntäen, 95 % varmuudella perusjoukon todellinen prosenttiosuus on korkeintaan 1,96 keskivirheen päässä otosprosenttiosuudesta. Tällä perusteella prosenttiosuuden 95 % virhemarginaali on 1,96 keskivirhettä.

Normaalijakaumaan liittyvä arvo 1,96 on likiarvo. Tarkemman arvon voit laskea Excelin funktiolla

=NORM.S.INV(97,5%) (suom. NORM_JAKAUMA.KÄÄNT)

Funktion argumenttina voi käyttää myös 2,5%, mutta tällöin vastaus tulee negatiivisella etumerkillä varustettuna.

Tärkeää

Virhemarginaalin arvo on luotettava ainoastaan jos otos on valittu perusjoukosta asianmukaista otantamenetelmää käyttäen.

Muita menetelmiä virhemarginaalin arviointiin

Kuten aiemmin totesin, niin pienillä otoksilla tai pienillä/suurilla prosenttiosuuksilla edellä esitettyä approksimaatiota ei voi pitää hyvänä. On kehitetty useita vaihtoehtoisia ja parempia (ja mutkikkaampia) menetelmiä prosenttiosuuden virhemarginaalin arviointiin. Lisätietoa englanninkielisen Wikipedian artikkelista Binomial proportion confidence interval ja artikkelista The Annals of Statistics 2002, Vol. 30, No. 1, 160–201: Confidence intervals for a binomial proportion and asymptotic expansions.

SPSS ja prosenttiosuuden luottamusväli

SPSS ei sisällä yksinkertaista toimintoa prosenttiosuuden luottamusvälin laskentaan. Tämä on luonnollisesti aiheuttanut monien mielissä ihmetystä. Lue IBM:n vastaus asiasta esitettyyn kysymykseen: http://www-01.ibm.com/support/docview.wss?uid=swg21474963.