Lineaarinen malli

Päivitetty 21.11.2016

Kahden määrällisen muuttujan riippuvuutta voin tarkastella hajontakaavion avulla. Lisäksi voin laskea lineaarisen (suoraviivaisen) riippuvuuden voimakkuutta mittaavan korrelaatiokertoimen. Lisätietoja artikkelissani Korrelaatio ja sen merkitsevyys.

Jos haluan selvittää tarkemmin riippuvuuden luonnetta tai hyödyntää riippuvuutta ennustamistarkoituksiin, niin voin mallintaa riippuvuutta lineaarisen mallin avulla.

Suoran yhtälö

Riippuvuudesta voin rakentaa matemaattisen mallin. Kahden muuttujan riippuvuutta kuvaava matemaattinen malli on lauseke, jonka avulla voin laskea toisen muuttujan arvoja ensimmäisen muuttujan arvojen perusteella. Jos muuttujien välinen riippuvuus on suoraviivainen eli lineaarinen, niin käytän mallina suoraa. Lineaarisesta mallista käytetään yleisesti nimeä lineaarinen regressiomalli ja mallina käytettävää suoraa kutsutaan regressiosuoraksi.

Suoraa voin kuvata lausekkeella y = bx + c. Lauseke kertoo miten saan laskettua y:n, kun tunnen x:n.

  • Termiä c kutsutaan vakiotermiksi. Vakiotermi kertoo, missä kohdassa suora leikkaa y-akselia (tämän näen asettamalla x:lle arvon 0, jolloin lausekkeesta jää jäljelle y=c).
  • Termiä b kutsutaan kulmakertoimeksi. Kulmakerroin ilmoittaa minkä verran y muuttuu, kun x kasvaa yhdellä yksiköllä. Laskevaan suoraan liittyy negatiivinen kulmakerroin ja nousevaan suoraan positiivinen kulmakerroin.

Esimerkki. Oletetaan, että konsultti perii palkkiota paikalle saapumisesta 100 euroa ja jokaiselta tehdyltä työtunnilta 80 euroa. Tällöin voin mallintaa konsultin kokonaispalkkiota lausekkeella y=80x+100, missä x on työtuntien määrä. Kyseisessä suoran yhtälössä

  • vakioterminä on 100 ja se ilmoittaa y:n arvon, kun x=0 (eli esimerkissämme palkkio ilman varsinaisia työtunteja)
  • kulmakerroin 80 ilmoittaa palkkion muutoksen, kun työtunnit lisääntyvät yhdellä.

Mallin lisääminen Excelin hajontakaavioon

Voin lisätä Excelin hajontakaavioon riippuvuutta kuvaavan mallin kuvaajan, lausekkeen ja selityskertoimen:

  1. Valitsen Design-välilehdeltä Add Chart Element – Trendline – More Trendline Options (Lisää kaavion osa – Suuntaviiva – Lisää suuntaviivavaihtoehtoja).
  2. Valitsen malliksi Linear (Lineaarinen).
  3. Valitsen tulostettavaksi mallin kaavan Display Equation on Chart (Näytä kaava kaaviossa).
  4. Valitsen tulostettavaksi mallin selityskertoimen kohdasta Display R-squared Value on Chart (Näytä korrelaatiokertoimen arvo kaaviossa). Huomaa, että Excelin suomenkielisissä versioissa puhutaan virheellisesti korrelaatiokertoimesta vaikka kyseessä on korrelaatiokertoimen neliö eli selityskerroin.

Yllä olevaan kuvioon olen lisännyt mainoskulujen ja myynnin välisen mallin. Löydät esimerkin Excel-tiedostosta regressio1.xlsx. Voin tulkita mallia seuraavasti:

  • Kulmakertoimesta 52,568 voin päätellä, että tuhat euroa mainoskuluissa merkitsee keskimäärin 52568 euroa myynnissä.
  • Vakiotermi 46,486 taas ilmoittaa myynnin olevan 46486 euroa, jos mainoskuluja ei ole lainkaan. Tässä tapauksessa vakiotermin antama tieto ei ole käyttökelpoinen eikä luotettava, koska mainoskulujen arvo 0 sijaitsee selvästi havaintoalueen ulkopuolella. Yleensäkään mallin käyttöaluetta ei voi laajentaa kovin paljon havaintoalueen ulkopuolelle.

Mallin avulla voin laskea esimerkiksi seuraavat ennusteet:

  • Jos mainontaan aiotaan käyttää 900 euroa, niin mallin mukainen myyntiennuste on 52,568*0,9+46,486≈93,8 eli 93 800 euroa.
  • Jos tavoitteena on 90 000 euron myynti, niin mallin mukaan mainontaan pitäisi käyttää (90-46,486)/52,568≈0,83 eli 830 euroa.

Käytännössä ennusteet kannattaa laskea Excelin FORECAST (ENNUSTE) -funktiolla, jolloin vältät kulmakertoimeen ja vakiotermiin liittyvät pyöristysvirheet. Katso tarkemmat tiedot Excel-tiedostosta regressio1.xlsx.

Selityskerroin

Äskeisessä esimerkissä selityskerroin on 0,7664 eli 76,64%. Tämä tulkitsen seuraavasti: 76,64% myynnin vaihtelusta voidaan selittää mainoskulujen vaihtelulla. Mallin tarkoituksena on selittää y:n arvojen vaihtelua x:n arvojen vaihtelulla. Selityskertoimella mitataan kuinka hyvin tässä onnistutaan.

Tarkastelen seuraavaksi, mihin selityskertoimen laskenta perustuu. Kunkin havainnon y-arvon kokonaispoikkeama y-arvojen keskiarvosta koostuu kahdesta osasta: mallin selittämästä poikkeamasta ja poikkeamasta, jota malli ei selitä. Seuraavassa kuviossa havaintopisteen kokonaispoikkeama on jaettu mallin selittämään poikkeamaan ja selittämättä jäävään poikkeamaan.

Jos merkitsen mallin selittämien poikkeamien neliöiden summaa SSR (sum of squares due to regression) ja selittämättömien poikkeamien neliöiden summaa SSE (sum of squares due to error), niin kokonaispoikkeamien neliöiden summa SST (total sum of squares) jakaantuu kahteen komponenttiin

SST = SSR + SSE

Selityskerroin on mallin selittämän vaihtelun osuus kokonaisvaihtelusta eli SSR/SST

Lineaarisessa mallissa voin laskea selityskertoimen  myös korrelaatiokertoimen neliönä. Regressiosuoran laskentamenetelmä liittyy sekin neliösummiin. Suora lasketaan pienimmän neliösumman menetelmää käyttäen. Kaikkien mahdollisten pistejoukon läpi kulkevien suorien joukosta valitaan se, jonka kohdalla neliösumma SSE (vaihtelu, jota malli ei selitä) saa pienimmän mahdollisen arvon.

Excelin funktioita

=FORECAST(x;tunnetut y;tunnetut x) -funktiolla (ENNUSTE) voin kätevästi laskea lineaariseen malliin liittyviä ennusteita. Funktio laskee x-arvoon liittyvän y-arvon regressiosuoran yhtälöä käyttäen (taustalla Excel laskee tunnettujen y:n arvojen ja tunnettujen x-arvojen perusteella regressiosuoran yhtälön).

=INTERCEPT(tunnetut y;tunnetut x) -funktiolla (LEIKKAUSPISTE) voin laskea regressiosuoran vakiotermin.

=SLOPE(tunnetut y;tunnetut x) -funktiolla (KULMAKERROIN) voin laskea regressiosuoran kulmakertoimen.

Mallin käyttäminen ennustamiseen

Mallin sopivuus

Mallin avulla voidaan ennustaa y, kun x tunnetaan tai x, kun y tunnetaan. Mallin soveltuvuus ennustamiseen riippuu selittämättömän vaihtelun osuudesta. Hajontakaaviosta voin arvioida selittämättömän, epäsäännöllisen vaihtelun suuruutta ja yli päätään mallin sopivuutta havaintoaineistoon. Mitä enemmän havainnot ”pomppivat” mallin molemmin puolin sitä enemmän ennusteeseen sisältyy epävarmuutta.

Poikkeavat havainnot

Mallit ovat herkkiä poikkeaville arvoille. Jos kuviosta erottuu selvästi muista poikkeavia havaintoja, niin niihin ei pidä suhtautua huolettomasti. Lue lisää artikkelistani Poikkeavat arvot.

Mallin käyttöalue

Havaintoaineistoa on käytettävissä vain tietyiltä muuttujan arvoilta ja mallin pätevyyttä voidaan arvioida vain havaintoalueella. Havaintoalueen ulkopuolella olevien muuttujan arvojen kohdalla en voi tietää, onko malli pätevä. Tämän vuoksi mallia ei ole perusteltua käyttää havaintoalueen ulkopuolella.

Seuraavaksi

Jos olet kiinnostunut malleista, joissa on useampia selittäviä muuttujia, niin kannattaa tutustua monisteeseeni Lineaariset regressiomallit.