Keskiarvon virhemarginaali – lisätietoa

Päivitetty 25.4.2019.

Perusjoukon keskihajonta tiedossa

Otoksesta laskettu keskiarvo vaihtelee sattumanvaraisesti otoksesta toiseen. Voidaan kuitenkin osoittaa, että eri otoksista saatavat otoskeskiarvot noudattavat likimain normaalijakaumaa. Pienillä otoksilla ehtona otoskeskiarvon normaalijakautuneisuudelle on, että muuttujan arvot ovat perusjoukossa likimain normaalijakautuneet. Isoilla otoksilla otoskeskiarvot ovat likimain normaalijakautuneet riippumatta muuttujan arvojen jakaumasta perusjoukossa (tämä sisältyy niin kutsuttuun keskeiseen raja-arvolauseeseen; voit lukea lisää englanninkielisestä Wikipediasta Central limit theorem). Käytännössä otoskeskiarvojen normaalijakautuneisuus voidaan olettaa jo otoskoosta 30 alkaen ellei muuttujan arvojen jakauma perusjoukossa ole erityisen kummallinen.

Otoskeskiarvojen normaalijakauman keskiarvo on perusjoukon todellinen keskiarvo ja keskihajonta on perusjoukon keskihajonta jaettuna otoskoon neliöjuurella. Otoskeskiarvojen keskihajontaa (perusjoukon keskihajonta jaettuna otoskoon neliöjuurella) kutsutaan keskivirheeksi (standard error).

Otoskeskiarvojen keskivirhe tarkoittaa otoskeskiarvojen keskihajontaa

Normaalijakauman ominaisuuksista seuraa, että otoskeskiarvo on 95 % varmuudella korkeintaan 1,96 keskivirheen päässä jakauman keskiarvosta eli perusjoukon todellisesta keskiarvosta.

normaali

Kääntäen, 95 % varmuudella perusjoukon todellinen keskiarvo on korkeintaan 1,96 keskivirheen päässä otoskeskiarvosta. Tällä perusteella keskiarvon virhemarginaali on 1,96 keskivirhettä.

Normaalijakaumaan liittyvä arvo 1,96 on likiarvo. Tarkemman arvon voit laskea Excelin funktiolla

=NORM.S.INV(97,5%) (suom. NORM_JAKAUMA.KÄÄNT)

Funktion argumenttina voi käyttää myös 2,5%, mutta tällöin vastaus tulee negatiivisella etumerkillä varustettuna.

Perusjoukon keskihajonta tuntematon

Edellä olevassa oletettiin perusjoukon keskihajonta tunnetuksi (keskivirhe laskettiin sen avulla). Yleensä perusjoukon keskihajonta ei ole tiedossa vaan sen sijasta käytetään otoksesta laskettua keskihajontaa. Tämä lisää epävarmuutta ja siten kasvattaa myös keskiarvon virhemarginaalia.

Keskivirhe arvioidaan jakamalla otoksesta laskettu keskihajonta otoskoon neliöjuurella. Keskivirheeseen liittyvä epävarmuus huomioidaan käyttämällä normaalijakauman sijasta otoskoosta riippuvaa Studentin t-jakaumaa. Lisätietoa Studentin t-jakaumasta englanninkielisessä Wikipediassa Student’s t-distribution. Edellä esiintynyt 1,96 oli normaalijakaumaan liittyvä arvo. Vastaava t-jakauman arvo saadaan Excelin funktiolla

=T.INV(97,5%;n-1) (suom. T.KÄÄNT)

Toisena argumenttina on niin kutsuttu vapausasteluku n-1 (n=otoskoko).

Esimerkiksi otoskoolla 101 saadaan Excelin funktiolla =T.INV(97,5%;100) tulokseksi noin 1,98. Näin ollen otoskoolla 101 virhemarginaali on noin 1,98 keskivirhettä.

Usein virhemarginaalin sijasta ilmoitetaan luottamusväli. Luottamusvälin alaraja saadaan vähentämällä otoskeskiarvosta virhemarginaali. Luottamusvälin yläraja saadaan lisäämällä otoskeskiarvoon virhemarginaali.

Vapausasteluku

Vapausasteluku tarkoittaa vapaiden havaintojen lukumäärää. Edellä vapaiden havaintojen lukumäärä on yhtä pienempi kuin otoskoko (n-1). Tämä selittyy sillä, että keskivirheen arviointiin tarvitaan keskiarvoa, jonka laskemisessa menetetään yksi vapausaste. Keskiarvon laskemisen jälkeenhän vain n-1 havaintoa voivat vaihdella vapaasti ja viimeinen n:s havainto määräytyy keskiarvon perusteella.

Vapausasteluku liittyy läheisesti keskihajonnan laskentakaavassa jakajana käytettävään arvoon n-1.Otoksen havainnot ovat keskimäärin lähempänä otoskeskiarvoa kuin todellista perusjoukon keskiarvoa, koska otoskeskiarvo on laskettu otoksen havainnoista. Keskihajonnan ja keskivirheen laskennassa lasketaan havaintojen poikkeamia otoskeskiarvosta. Koska nämä poikkeamat ovat keskimäärin pienempiä kuin poikkeamat todellisesta perusjoukon keskiarvosta, niin keskihajonta ja keskivirhe tulee arvioiduksi liian pieneksi. Käyttämällä keskihajonnan kaavassa jakajana vapausastelukua n-1 otoskoon n sijasta saadaan parempi arvio perusjoukon keskihajonnalle.

Hypoteesin testaus

Otoksen avulla voidaan suorittaa hypoteesin testaus. Yhtä keskiarvoa koskevassa kaksisuuntaisessa testauksessa hypoteesit ovat:

Nollahypoteesi: Keskiarvo = A (A on jokin luku)
Vaihtoehtoinen hypoteesi: Keskiarvo on eri suuri kuin A.

Testaus perustuu otoskeskiarvojen todennäköisyysjakaumaan. Edellä todettiin, että otoskeskiarvojen jakauman keskihajonta eli keskivirhe voidaan arvioida jakamalla otoskeskihajonta otoskoon neliöjuurella. Jakamalla edelleen otoskeskiarvon ja nollahypoteesin mukaisen keskiarvon erotus keskivirheellä saadaan niin kutsuttu testimuuttuja. Voidaan osoittaa, että testimuuttuja noudattaa t-jakaumaa vapausastein n-1 (n=otoskoko).

Hypoteesin testauksessa lähdetään liikkeelle olettaen nollahypoteesin pitävän paikkansa. Tästä olettamuksesta seuraa, että testimuuttuja noudattaa t-jakaumaa, jonka keskikohta on 0. T-jakaumasta voidaan laskea todennäköisyys saada kyseisestä jakaumasta havaitun suuruinen tai vielä kauempana nollasta oleva testimuuttujan arvo. Tätä todennäköisyyttä kutsutaan p-arvoksi. Jos p-arvo on pieni, niin tämä on ristiriidassa nollahypoteesin kanssa. Mitä pienempi p-arvo sitä enemmän vaihtoehtoinen hypoteesi saa tukea.

Vakiintuneen tavan mukaan alle 0,05 (5 %) suuruista p-arvoa pidetään riittävänä näyttönä nollahypoteesia kumoamiseksi.

Voit laskea testimuuttujan ja p-arvon helposti käyttämällä laatimaani laskentapohjaa tiedostossa virhemarginaali.xlsx.

Luottamusvälin ja p-arvon välinen yhteys

Jos p-arvo on yli 0,05 (5 %), niin nollahypoteesin mukainen keskiarvo sisältyy 95 % luottamusväliin. Jos p-arvo on alle 0,05 (5 %), niin nollahypoteesin mukainen keskiarvo ei sisälly 95 % luottamusväliin.