10 Korrelaatio ja sen merkitsevyys

Päivitetty 30.3.2015

Hallitset jo toivottavasti ristiintaulukoinnin. Ristiintaulukointi on sopiva menetelmä kahden kategorisen muuttujan riippuvuuden tarkasteluun. Kahden määrällisen muuttujan riippuvuutta puolestaan tarkastellaan hajontakaavion ja korrelaatiokertoimen avulla.

Hajontakaavio

Käytän esimerkkinä aineistoa korrelaatio.xlsx, jossa on kolme muuttujaa: opiskelijan läsnäolo lähiopetustunneilla, suoritettujen harjoitustehtävien lukumäärä ja tentin pistemäärä. Haluan selvittää onko lähiopetustunneille osallistumisella ja suoritettujen harjoitustehtävien lukumäärällä yhteyttä tenttipistemäärään.

Saan havainnollisen kuvan asiasta tekemällä hajontakaaviot. Excelissä hajontakaavio on nimeltään Scatter (Piste). Läsnäolon ja tenttipisteiden välisessä hajontakaaviossa en näe merkittävää yhteyttä, vaan havaintopisteet ovat melko satunnaisesti jakautuneet.

Suoritetut harjoitustehtävät sen sijaan näyttävät olevan positiivisessa yhteydessä tenttipistemäärään. Hajontakaaviossa tämä näkyy selvästi nousevana pisteparvena. Alhaiset harjoitustehtävien määrät näyttävät liittyvän alhaisiin tenttipistemääriin ja korkeat harjoitustehtävien määrät näyttävät liittyvän korkeisiin tenttipistemääriin.

Korrelaatiokerroin

Korrelaatiokerroin on tunnusluku suoraviivaisen riippuvuuden voimakkuudelle. Excelissä voin laskea korrelaation funktiolla CORREL (KORRELAATIO). Funktion ensimmäiseksi argumentiksi annetaan viittaus ensimmäisen muuttujan arvoihin ja toiseksi argumentiksi viittaus toisen muuttujan arvoihin.

Korrelaatiokertoimen arvo voi olla mitä tahansa -1 ja +1 väliltä. Lähellä nollaa olevat kertoimet liittyvät tilanteisiin, joissa ei ole suoraviivaista riippuvuutta. Lähellä +1 olevat kertoimet viittaavaat positiiviseen riippuvuuteen (nouseva pisteparvi hajontakaaviossa) ja lähellä -1 olevat kertoimet viittaavat negatiiviseen riippuvuuteen (laskeva pisteparvi hajontakaaviossa).

korre

Esimerkkiaineistossa läsnäolon ja tenttipistemäärän välinen korrelaatiokerroin on 0,27 ja harjoitusten ja tenttipistemäärän välinen korrelaatiokerroin on 0,84. Korrelaatiokertoimet siis kertovat samaa kuin hajontakaaviot.

Korrelaation merkitsevyys

Jos aineisto pohjautuu laajemmasta perusjoukosta satunnaisesti valittuun otokseen, niin tietyin edellytyksin voin yleistää otoksen tuloksia perusjoukkoon. Korrelaation tapauksessa tämä tarkoittaa muuttujien välisen korrelaation yleistämistä perusjoukkoon.

Pienet korrelaatiot voin selittää otantavirheellä. Otoksessa havaitun korrelaation täytyy olla riittävän suuri, jotta voin yleistää sen perusjoukkoon. Suuruutta testaan vertaamalla korrelaatiokerrointa hypoteettiseen tilanteeseen, jossa ei ole lainkaan korrelaatiota (korrelaatiokerroin on 0). Jos otoksesta laskettu korrelaatiokerroin poikkeaa riittävästi nollasta, niin voin kutsua korrelaatiota tilastollisesti merkitseväksi.

Korrelaatiokertoimen merkitsevyyden testaamiseksi lasketaan niin kutsuttu p-arvo, joka vastaa seuraavaan kysymykseen: kuinka todennäköistä on saada havaitun suuruinen tai vielä kauempana nollasta oleva korrelaatiokertoimen arvo ilman että korrelaatiota on perusjoukossa? Mitä pienempi p-arvo on sitä enemmän korrelaation yleistäminen perusjoukkoon saa tukea.

Vakiintuneen tavan mukaisesti alle 0,05 (5 %) suuruista p-arvoa pidetään riittävänä näyttönä perusjoukossa esiintyvän korrelaation puolesta.

Jos haluat tietää p-arvon laskentaperusteesta, niin lue artikkeli Korrelaatio – lisätietoa.

Voit käyttää p-arvon laskemiseen valmista laskentapohjaa testaa_korrelaatio.xlsx. Kirjoita laskentapohjaan otoskoko ja korrelaatiokerroin, jonka jälkeen voit lukea p-arvon. Käytä 2-suuntaista p-arvoa, jos testaat sitä onko korrelaatio nollasta poikkeava. Käytä 1-suuntaista p-arvoa, jos testaat pelkästään korrelaation positiivisuutta tai pelkästään korrelaation negatiivisuutta.

Jos testaan läsnäolotuntien ja tenttipistemäärän välisen korrelaation positiivisuutta, niin saan 1-suuntaiseksi p-arvoksi 0,143 (otoskoko 17, korrelaatiokerroin 0,2746). Tuloksen voin raportoida esimerkiksi seuraavasti (yleisesti käytössä oleva merkintä korrelaatiokertoimelle on r):

Läsnäolotuntien ja tenttipistemäärän välillä ei ole tilastollisesti merkitsevää positiivista korrelaatiota (r=0,27, 1-suuntaisen testin p-arvo=0,143).

Jos testaan suoritettujen harjoitusten ja tenttipistemäärän välisen korrelaation positiivisuutta, niin saan 1-suuntaiseksi p-arvoksi 0,000 (otoskoko 17, korrelaatiokerroin 0,8438). Tuloksen voin raportoida esimerkiksi seuraavasti:

Suoritettujen harjoitusten ja tenttipistemäärän välillä on positiivinen korrelaatio (r=0,84, 1-suuntaisen testin p-arvo<0,001).

Tilastollisen merkitsevyyden ohella kannattaa pohtia myös käytännön merkitsevyyttä. Korrelaatiokerroin voi olla tilastollisesti merkitsevä ja silti vailla käytännön merkitsevyyttä. Yksinkertainen tapa käytännön merkitsevyyden arviointiin on hajontakaavion tarkastelu. Jos et näe hajontakaavion pisteparvessa merkittävää säännönmukaisuutta niin saattaa olla että korrelaatiolla ei ole käytännön merkitsevyyttä.

Poikkeavat arvot

Hajontakaaviossa selvästi muista poikkeavat pisteet ovat ongelmallisia korrelaatiokerrointa käytettäessä. Lue lisää artikkelista Poikkeavat arvot.

Lisätietoa

Artikkelissa Korrelaatiokerroin – lisätietoa on yksityiskohtaisempaa tietoa korrelaatiokertoimen laskennasta, p-arvon laskennasta ja ohje korrelaatiokertoimen luottamusvälin laskentaan.

SPSS

SPSS tulostaa korrelaatiokerrointen yhteyteen automaattisesti p-arvot. Lue lisää SPSS monisteesta spss19.pdf.

Mainokset

16 thoughts on “10 Korrelaatio ja sen merkitsevyys

  1. Paluuviite: Luovan ongelmanratkaisun ja innovaatioiden analyysia Innolukiosta | LEHMÄTKIN LENTÄIS

    1. akitaanila Kirjoittaja

      Korrelaatiokerroin mittaa kahden asian välistä riippuvuutta.
      Jos esimerkiksi kurssin aikana suoritettujen harjoitustehtävien ja tenttipistemäärän välillä on korkea positiivinen korrelaatio, niin enemmän harjoitustehtäviä suorittaneet ovat enimmäkseen saaneet parempia tenttipistemääriä.
      Jos esimerkiksi poissaolojen ja tenttimenestyksen välillä on korkea negatiivinen korrelaatio, niin enemmän poissa olleilla on enimmäkseen heikommat tenttipistemäärät.

      Vastaa
  2. Nimetön

    Excelin avulla voi piirtää korrelaatiosuoran (trendiviivan) kahdelle lukujoukolle ja excel ilmoittaa paitsi suoran kaavan niin korrelaatiokertoimen, joka on muotoa R2 (2 siis kirjoitettuna yläviittellä niinkuin toiseen potensssiin). Onko korrelaatiokerroin todellakin jotakin toiseen potenssiin, vai onko korrelaatiokerroin se pelkkä R?

    Vastaa
    1. akitaanila Kirjoittaja

      Trendiviivan yhteydessä Excel esittää selityskertoimen, joka on korrelaatiokerroin toiseen potenssiin korotettuna. Voit laskea korrelaatiokertoimen selityskertoimen neliöjuurena. Valitettavasti tilannetta sekoittaa vielä se, että suomenkielinen Excel kutsuu selityskerrointa virheellisesti korrelaatiokertoimeksi.

      Vastaa
  3. Milly

    Hei, blogistasi on ollut paljon apua 🙂
    Mietin korrelaatiokertoimen suuruutta ja merkitsevyyttä. Sain ison aineiston (N=2500) kahden muuttujan korrelaatiokertoimeksi 0,077 ja se tuntuu melko pieneltä..Sig. oli kuitenkin <.01. Tarkastelin myös hajontakaavioita, ja siinä ei ollut oikeastaan säänönmukaisuutta… Mitä tällainen tulos voisi tarkoittaa? Onko korrelaatio merkitsevää?

    Vastaa
    1. akitaanila Kirjoittaja

      Tässä kannattaa erottaa toisistaan tilastollinen merkitsevyys ja käytännön merkitsevyys. Sinun kuvaamassasi tapauksessa korrelaatiokerroin on tilastollisesti merkitsevä. On kokonaan toinen asia onko korrelaatiokertoimen ilmaisema riippuvuus käytännössä merkitsevä. Minun mielestäni hajontakaavio on tässä hyvä apuneuvo. Jos hajontakaaviosta ei pysty silmämäärin erottamaan korrelaatiota, niin korrelaatiolla tuskin on käytännön merkitystä.

      Vastaa
  4. Paluuviite: » Mistä näitä korrelaatioita oikein tulee? - Statistition

  5. Paluuviite: Mistä näitä korrelaatioita oikein tulee? | Louhia

  6. Nimetön

    Jos jokaisen pituushyppytulos on oma pituus * 3 (tai jokin muu luku, joka on sama kaikille), pituuden ja tuloksen korrelaatio on 1. Jos korrelaatio on 0, pituudella ja tuloksella ei ole mitään yhteyttä. Varmasti totuus on siltä väliltä.

    ”Tilastollisesti merkitsevä” eli ”p < 5 %" tarkoittaa, että on 5 %:n todennäköisyys saada sattumalta tuollainen tulos (jos oikeasti mitään yhteyttä ei ole). Siis jos suomalaisten pituuden ja pituushyppytuloksen välillä ei ole yhteyttä, mutta sadan testihenkilön ryhmässä on yhteys (esimerkiksi korrelaatio = 0,02), sitten noiden lukujen 100 ja 0,02 avulla voi laskea p-luvun: 42 % on todennäköisyys, että tuollaisen tuloksen olisi saanut sattumalta. Tällöin tutkija tajuaa, että ehkä se oli vain sattumaa, noin pieni korrelaatio ei 100 hengen otoksella vielä todista juuri mitään.

    Vastaa
  7. Nimetön

    Haluan selvittää onko järjestysasteikollisen muuttujan (taudin vaikeusasteen luokitteluasteikko 1-5) ja määrällisen muuttujan (tietty laboratorioarvo) välillä riippuvuutta. MIllä testillä asiaa tulisi lähestyä?

    Vastaa
  8. Jaakko

    Moi,
    Kuinka testaan kahden korrelaation eron toisistaan SPSS:llä.
    Tarkoituksena siis selvittää eroavatko miesten ja naisten korrelaatiot mitattavan muuttujan suhteen toisistaan.
    Kiitoksia!

    Vastaa
  9. Paluuviite: Oikean Median puoluekannatusanalyysi on huonosti tehtyä ja laiskaa datajournalismia – Informaatiomuotoilu.fi

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s