Poikkeavat arvot

Päivitetty 13.1.2016.

Poikkeavat arvot ovat muista arvoista selvästi poikkeavia arvoja. Tunnistan poikkeavat arvot histogrammin (katso Muuttujan arvojen luokittelu) tai ruutu- ja janakaavion avulla.

Jos tarkastelen kahden muuttujan välistä riippuvuutta, niin tunnistan poikkeavat arvot  hajontakaaviosta (katso Korrelaatio ja sen merkitsevyys).

Miksi poikkeavat arvot ovat ongelmallisia?

Poikkeavat arvot vaikuttavat voimakkaasti keskiarvoon ja korrelaatiokertoimeen kuten seuraavista esimerkeistä ilmenee.

Esimerkki. Henkilöstön kuukausipalkat euroina ovat 1500, 1500, 1500, 1500, 1500, 2500, 4500, 4500, 5500, 5500 ja 35 000. Kuukausipalkkojen keskiarvo on yli 5900 euroa. Keskiarvo kuvaa huonosti henkilöstön palkkoja. Keskiarvo on tunnetusti herkkä poikkeaville arvoille ja tässä tapauksessa 35 000 euroa on poikkeava arvo, joka nostaa palkkakeskiarvoa. Ilman 35 000 euron palkkaa keskiarvoksi saadaan 3000 euroa.

Esimerkki. Kuukausittaisista tiedoista laadittu mainontaan käytetyn rahamäärän ja myynnin välinen hajontakaavio on seuraavanlainen:

Mainonnan ja myynnin välinen korrelaatiokerroin on 0,909. Kaaviossa on yksi selvästi muista poikkeava piste. Jos se poistetaan, niin hajontakaavio näyttää seuraavalta (vertailun helpottamiseksi akselit on skaalattu samalla tavalla kuin edellisessä kaaviossa):

Korrelaatiokerroin on tässä tapauksessa 0,978. Havaintoihin voidaan sovittaa suoraviivainen malli, jonka avulla voidaan ennustaa myynnin suuruus mainonnan perusteella. Kaavioihin on piirretty parhaiten havaintoihin sopivat suoraviivaiset mallit. Alemman kaavion tapauksessa suoraviivainen malli sovittuu havaintojoukkoon huomattavasti paremmin.

Mitä poikkeaville arvoille pitäisi tehdä?

Poikkeavan arvon kohdalla yritän selvittää, onko kyseessä virheellinen arvo, esimerkiksi väärin kirjattu? Jos kyseessä on virheellinen arvo, niin pyrin oikaisemaan sen. Jos oikaistua arvoa ei ole saatavilla, niin poistan virheellisen arvon aineistosta.

Jos poikkeava arvo ei ole virheellinen, niin pyrin löytämään selityksen poikkeavuudelle. Selityksen löydettyäni teen perustellun päätöksen arvon mukana pitämisestä tai pois jättämisestä.

Esimerkki. Oletetaan, että aiemmassa esimerkissä (mainonnan ja myynnin välinen riippuvuus) poikkeava havainto selittyy sillä, että kyseessä on joulukuu, jolloin myynti on muita kuukausia suurempi. Oletetaan, että tarkoituksena on laatia ennustemalli, jolla myynnin määrää ennustetaan mainontaan käytettävän rahamäärän perusteella normaalitilanteessa. Tällöin on perusteltua pudottaa poikkeuksellinen joulukuun havainto pois tarkasteluista.

Jos poikkeavan havainnon pois jättäminen ei ole perusteltua, niin pidän sen mukana tarkasteluissa. Tällöin suhtaudun varauksella keskiarvoon ja korrelaatiokertoimiin.