Avainsana-arkisto: Määrällinen muuttuja

Tiekartat

Päivitetty 29.3.2015

Aineistoja jalostetaan ja analysoidaan, jotta saadaan käyttökelpoista, havainnollista ja ymmärrettävää tietoa päätöksenteon tueksi ja perusteluksi.

Analysoitavia aineistoja saadaan erilaisista lähteistä, esimerkiksi

  • kyselylomakkeella kerättyjä mielipiteitä
  • kokeellisella tutkimusasetelmalla kerättyjä havaintoja
  • verkkosivuston käyttötilastoja
  • yrityksen tietokannasta poimittuja myyntitapahtumia
  • internetin tietokannoista löytyviä tilastoja.

Aineistoja jalostetaan ja analysoidaan, jotta saadaan käyttökelpoista, havainnollista ja ymmärrettävää tietoa päätöksenteon tueksi ja perusteluksi. Analysointiin käytetään samoja menetelmiä aineiston lähteestä riippumatta. Analyysit aloitetaan muuttujakohtaisilla tarkasteluilla muuttuja kerrallaan. Joissain tapauksissa  muuttujakohtaiset tarkastelut riittävät, mutta yleensä analyyseissä edetään riippuvuuksien tarkasteluun. Perusanalyyseissa analysoidaan kahden muuttujan välisiä riippuvuuksia. Jos toinen muuttujista on kategorinen, niin riippuvuuden sijasta puhutaan ryhmien vertailusta (kategorisen muuttujan arvot määräävät ryhmät, joiden välillä toisen muuttujan arvoja vertaillaan). Muissa tapauksissa riippuvuutta voidaan kutsua korrelaatioksi ja sen voimakkuutta mitataan korrelaatiokertoimien avulla. Edellä olevan perusteella voin jaotella perusanalyysit seuraavasti:

tiekartta1

Vaativammassa analyysissä käytetään monimuuttujamenetelmiä, joissa analysoidaan useamman muuttujan välisiä riippuvuuksia samanaikaisesti. Minä en kirjoita blogissani monimuuttujamenetelmistä.

Seuraavassa luettelen kuhunkin analyysityyppiin liittyviä menetelmiä. Ryhmittelen menetelmät sen mukaan minkälaisille mitta-asteikoille ne sopivat. Käyttämäni mitta-asteikot ovat

  • Kategorinen: Muuttujan arvot luokittelevat havaintoyksiköt toisensa poissulkeviin kategorioihin/luokkiin. Tällaista mitta-asteikkoa kutsutaan myös luokitteluasteikoksi, nominaaliasteikoksi ja laatueroasteikoksi. Esimerkki: Henkilön ammatti.
  • Järjestysasteikollinen: Jos kategoriat/luokat voidaan asettaa yksikäsitteiseen suuruus, paremmuus tai muuhun järjestykseen, niin kyseessä on järjestysasteikko. Tällaista mitta-asteikkoa kutsutaan myös ordinaaliasteikoksi. Esimerkki: Hotelliluokituksessa hotellin saama tähtien määrä.
  • Määrällinen: Muuttujan arvot mittaavat mitattavan ominaisuuden määrää numeroasteikolla. Määrälliset muuttujat kattavat sekä välimatka-asteikolliset (intervalliasteikolliset) että suhdeasteikolliset muuttujat. Esimerkki: Henkilön kuukausipalkka.
  • Mielipideasteikko: Mielipideasteikko on järjestysasteikko, mutta monissa tapauksissa sen voidaan ajatella mittaavan mielipiteen, esimerkiksi tyytyväisyyden, määrää numeroasteikolla. Tällöin mielipideasteikko voidaan tulkita määrälliseksi ja määrällisille muuttujille soveltuvia menetelmiä voidaan käyttää. Esimerkki: Tyytyväisyys asiakaspalvelun ystävällisyyteen asteikolla 1-5 (1=erittäin tyytymätön, 5=erittäin tyytyväinen).

Yhden muuttujan tarkastelu

Tilastoaineiston analysoinnin aloitan muuttujakohtaisilla tarkasteluilla.

  • Kategorisille muuttujille lasken lukumäärä- ja prosenttitaulukot. Lukumäärä- ja prosenttitaulukosta käytetään myös nimityksiä yhteenvetotaulukko ja frekvenssitaulukko. Taulukoinneissa pääset hyvään alkuun lukemalla artikkelin Taulukointi.
  • Järjestysasteikollisille muuttujille voin lukumäärä- ja prosenttitaulukoiden lisäksi laskea viiden luvun yhteenvedon.
  • Määrällisille muuttujille lasken tunnuslukuina keskiarvon, keskihajonnan ja viiden luvun yhteenvedon. Tunnusluvuissa pääset hyvään alkuun lukemalla artikkelin Tunnuslukuja.

tiekart2

Mielipideasteikot (esimerkiksi 1-5, täysin eri mieltä – täysin samaa mieltä) ovat järjestysasteikoita, mutta tietyin varauksin voin käyttää keskiarvoa ja keskihajontaa. Voit lukea lisää artikkelista Mielipideasteikon keskiarvo.

Jos analysoitava aineisto on otos laajemmasta perusjoukosta, niin kannattaa laskea prosenttiosuuksille ja keskiarvoille luottamusvälit. Luottamusväli ilmaisee epävarmuuden yleistettäessä prosenttiosuus tai keskiarvo laajempaan perusjoukkoon. Lisätietoa prosenttiosuuden luottamusvälistä artikkelissa Prosenttiosuuden luottamusväli ja keskiarvon luottamusvälistä artikkelissa Keskiarvon virhemarginaali.

Kahden ryhmän vertailu – riippumattomat ryhmät

Päädyn vertailemaan kahta ryhmää esimerkiksi seuraavissa tapauksissa:

  • Haluan verrata kyselytutkimusaineiston perusteella miesten ja naisten mielipiteitä.
  • Haluan verrata kokeellisen tutkimuksen keinoin ovatko alkoholia nauttineiden reaktioaikojen keskiarvot samat kuin alkoholia nauttimattomien.

Jos mitattava muuttuja on kategorinen, niin vertaan lukumääriä ja/tai prosentteja ristiintaulukoimalla ryhmittelevän muuttujan ja mitattavan muuttujan. Hyvään alkuun ristiintaulukoinneissa pääset lukemalla artikkelin Ristiintaulukointi. Jos mitattava muuttuja on määrällinen, niin yleensä vertaan keskiarvoja. Myös mielipideasteikon tapauksessa voin tietyin varauksin verrata keskiarvoja. Lisätietoa artikkelissa Kahden riippumattoman otoksen vertailu.

tiekart3

Tarvittaessa voin testata ryhmien välisen eron merkitsevyyttä. Testaamisella varmistan, onko otoksessa havaittu ero niin suuri, ettei se voi aiheutua pelkästä otantavirheestä, vaan taustalla on ryhmien todellinen ero perusjoukossa. Lisätietoa artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Useamman ryhmän vertailu – riippumattomat ryhmät

Jos vertailtavia ryhmiä on useampia, niin järjestysasteikollisen ja määrällisen muuttujan tapauksessa testimenetelmät ovat erilaiset kuin kahden ryhmän vertailussa.

tiekart4

Lisätietoa testimenetelmistä artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Kahden ryhmän vertailu – riippuvat ryhmät

Kokeellisessa tutkimuksessa päädytään usein vertailemaan toisistaan riippuvia ryhmiä. Jos riippumattoman ja riippuvan ero ei ole sinulle selvä, niin lue artikkeli Riippumattomat vai riippuvat otokset.

tiekart5

Lisätietoa testimenetelmistä artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Useamman ryhmän vertailu – riippuvat ryhmät

Useamman riippuvan ryhmän vertailua tarvitaan lähinnä kokoeellisessa tutkimuksessa.

tiekart6

Lisätietoa testimenetelmistä artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Korrelaatio

Korrelaatio tarkoittaa kahden muuttujan välistä riippuvuutta.

  • Jos molemmat muuttujat ovat kategorisia, niin menetelmänä voin käyttää ristiintaulukointia. Ristiintaulukointi sopii myös mielipideasteikollisille muuttujille. Hyvään alkuun ristiintaulukoinneissa pääset lukemalla artikkelin Ristiintaulukointi.
  • Jos toinen muuttujista on kategorinen ja toinen järjestysasteikollinen, mielipideasteikollinen tai määrällinen, niin voin käyttää aiemmin esittämiäni ryhmien vertailuun sopivia menetelmiä. Tällöin kategrorisen muuttujan arvot määrittävät ryhmät, joita vertailen.
  • Jos molemmat muuttujista ovat järjestysasteikollisia, niin voin laskea Spearmanin järjestyskorrelaation. Joissain tapauksissa Spearmanin järjestyskorrelaatio on sopiva menetelmä myös mielipideasteikollisille muuttujille. Järjestyskorrelaatiosta lisää artikkelissa Spearmanin järjestyskorrelaatio.
  • Jos molemmat muuttujat ovat määrällisiä, niin tarkastelen riippuvuutta hajontakaavioiden ja korrelaatiokertoimien avulla. Tästä lisää artikkelissa Korrelaatio ja sen merkitsevyys.

tiekart7

Tarvittaessa voin testata riippuvuuden/korrelaation merkitsevyyttä. Testaamisella varmistan, onko otoksessa havaittu riippuvuus/korrelaatio niin suuri, ettei se voi aiheutua pelkästä otantavirheestä, vaan taustalla on todellinen riippuvuus/korrelaatio perusjoukossa. Lisätietoa testaamisesta artikkeleissa Ristiintaulukointi ja khiin neliö -testi ja Korrelaatio ja sen merkitsevyys.

Mainokset

1 Tilastoaineiston tallentaminen

Päivitetty 31.8.2017

En osaa tai viitsi määritellä tilastoaineistoa täsmällisesti. Keksin kuitenkin helposti esimerkkejä tilastoaineistoista:

  • Aineisto, joka sisältää asiakastyytyväisyyskyselyyn vastanneiden asiakkaiden vastaukset
  • Aineisto, joka sisältää eri automallien keskeisiä tietoja, kuten teho, kiihtyvyys, polttoaineen kulutus jne.
  • Aineisto, joka sisältää asiakkaiden tekemiin tilauksiin liittyviä tietoja, kuten tilauspäivä, tilattu tuote, hinta jne.
  • Aineisto, joka sisältää pörssiosakkeiden hintoja viimeisen kuukauden ajalta.

Hampurilaisravintolan hinnastoa en pidä tilastoaineistona vaikka se muodollisesti sellaiseksi kelpaisikin. Jos hinnastossa olisi kunkin tuotteen kohdalla hinnan lisäksi myös kalorimäärä, niin voisin kelpuuttaa sen tilastoaineistoksi.

Jos haluan laskea tilastoaineistosta yhteenvetoja tai muulla tavalla analysoida aineistoa, niin tallennan sen taulukkomuotoon. Taulukkolaskentaohjelma Excel on kuin luotu tähän tarkoitukseen. Muilla ohjelmilla tallennettuja aineistoja voin avata/tuoda Exceliin vaihtelevalla menestyksellä:

  • Nettikyselyohjelmistot, esimerkiksi Webropol, mahdollistavat aineiston viennin Excel-muotoon.
  • Tietokantoihin tallennetut taulukot saa yleensä helposti vietyä Excel-muotoon.
  • Tekstimuotoiset .csv (pilkkueroteltu muoto) – ja .tsv (sarkaineroteltu muoto) -tiedostot aukeavat Exceliin.
  • Pdf-muotoisen tai kuvakaappauksena otetun aineiston tuonti Exceliin on hankalampaa.

Jos tallennan aineiston Exceliin, niin ennen aineiston tallentamista minun täytyy päättää mitä tietoja sijoitan riveille ja mitä tietoja sarakkeisiin. Muutama esimerkki valaisee asiaa:

  • Jos kyseessä on asiakastyytyväisyyskyselyyn vastanneiden vastaukset, niin sijoitan kullekin riville yhden vastaajan vastaukset. Kukin sarake sisältää yhden kysymyksen vastaukset.
  • Jos kyseessä on aineisto, joka sisältää eri automallien keskeisiä tietoja, niin sijoitan kullekin riville yhden auton tiedot. Kukin sarake sisältää yhteen ominaisuuteen, esimerkiksi polttoaineen kulutukseen, liittyvät tiedot.
  • Jos kyse on aineistosta, joka sisältää asiakkaiden tekemiä tilauksia, niin sijoitan kullekin riville yhden tilauksen. Kukin sarake sisältää yhteen tilauksen ominaisuuteen liittyvät tiedot; esimerkiksi tilauspäivät.
  • Jos aineisto sisältää pörssiosakkeiden hintoja viimeisen kuukauden ajalta, niin sijoitan kullekin riville yhden pörssipäivän. Ensimmäiseen sarakkeeseen sijoittaisin päivämäärän. Toiseen sarakkeeseen sijoittaisin ensimmäisen, esimerkiksi Fortumin, osakkeen hinnat jne.

Tilastoaineiston rivejä kutsutaan tilastoyksiköiksi. Myös nimityksiä havaintoyksikkö ja tutkimusyksikkö käytetään. Tilastoaineiston sarakkeita kutsutaan muuttujiksi. Muuttujan arvo on tilastoyksikköön liittyvä ominaisuus, joka vaihtelee tilastoyksiköstä toiseen. Hampurilaisravintolaan palatakseni, hampurilasiravintolan hinnastossa tuotteen hinta on muuttuja, jonka arvo vaihtelee tuotteesta toiseen.

Tilastoaineisto voi näyttää esimerkiksi seuraavalta:

Tilastoaineisto

Ensimmäisen rivin otsikoista ei kannata ottaa turhaa stressiä. Riittää kunhan minä aineiston käyttäjänä tunnistan muuttujat otsikoiden perusteella. Pidän otsikot lyhyinä, jotta aineiston käsittely on sujuvaa.

Ensimmäisenä muuttujana (nro) on juokseva numerointi. Tämä ei ole pakollinen, mutta yleensä hyödyllinen. Jos esimerkiksi järjestän aineiston, niin juoksevan numeroinnin perusteella voin aina palauttaa alkuperäisen järjestyksen. Jos numeroin kyselytutkimuksen vastauslomakkeet juoksevan numeron mukaisesti, niin voin myöhemmin tarkistaa epäilyttävän näköisen tiedon alkuperäiseltä vastauslomakkeelta.

Kategorisia muuttujia

Sukupuolet (sukup) olen tallentanut numeroina (1=mies, 2=nainen). Näin aineiston tallentaminen on nopeampaa. Perhesuhteet (perhe) olen tallentanut sukupuolten tapaan numeroina (1=perheetön, 2=perheellinen). Myös koulutuksen kohdalla olen käyttänyt numeroita (1=peruskoulu, 2=toinen aste, 3=korkeakoulu, 4=ylempi korkeakoulu).

Määrällisiä muuttujia

Määrälliset muuttujat (ikä, palvelusvuodet, palkka) olen tallentanut sellaisenaan.

Mielipideasteikollisia muuttujia

Tyytyväisyys johtoon (johto) ja tyytyväisyys työtovereihin (työtov) on mitattu viisiportaisella mielipideasteikolla (1=erittäin tyytymätön, 2=tyytymätön, 3=ei tyytymätön eikä tyytyväinen, 4=tyytyväinen, 5=erittäin tyytyväinen). Mielipideasteikot tallennan aina numeroina, jotta voin myöhemmin laskea keskiarvot ja keskihajonnat.

Jos unohdan millä numerolla olen mitäkin merkinnyt, niin tilastoaineistoni muuttuu arvottomaksi. Kirjaan siis aineiston tallentamisessa käyttämieni numeroarvojen merkitykset jonnekin, josta voin tarkistaa ne myöhemmin.

Puuttuva tieto

Jos tieto puuttuu, niin jätän taulukkoon tyhjän solun. Muualta tuoduissa tilastoaineistoissa puuttuvien tietojen tilalla voi olla joitain merkintöjä. Excelin Home (Aloitus) -välilehden Find&Select – Replace (Etsi ja valitse – Korvaa) -toiminnolla nämä ovat helposti korvattavissa tyhjillä solulla.

Monivalinta

Valintakysymyksessä vastaaja voi valita yhden useasta vaihtoehdosta. Monivalinnassa vastaaja voi valita useampiakin tarjotuista vaihtoehdoista. Ole tarkkana, koska valintakysymyksiäkin näkee usein kutsuttavan virheellisesti monivalinnaksi.

Monivalinta koostuu itse asiassa useasta kysymyksestä. Jokainen vaihtoehto on oma kysymyksensä. Tämän huomioin aineiston tallentamisessa siten, että varaan taulukosta oman sarakkeen jokaista monivalinnan vaihtoehtoa varten.

Seuraavassa työntekijältä on kysytty onko hän käyttänyt työnantajan tarjoamaa työterveyshuoltoa, lomaosaketta, kuntosalia tai hierojaa. Muuttujat ovat sarakkeissa M (työterv), N (lomaosa), O (kuntosa) ja P (hieroja). Ensimmäiset kaksi vastaajaa eivät ole käyttäneen yhtäkään kyseisistä etuisuuksista, kolme seuraavaa vastaajaa ovat käyttäneet työterveyshuoltoa ja viimeisin näkyvillä oleva vastaaja on käyttänyt sekä työterveyshuoltoa että lomaosaketta.

Monivalinta

Avoin vastaus

Avoimet vastaukset (vastaajan kirjoittama teksti) jätän yleensä tallentamatta tilastoaineistoon. Jos kuitenkin vastauksia selattuani pystyn ryhmittelelmään (luokittelemaan) avoimet vastaukset käyttökelpoisella tavalla, niin saatan antaa ryhmille numerot ja tallentaa ne muuttujan arvoiksi.

Seuraavaksi

Voit halutessasi tutustua esimerkkiaineistoon data1.xlsx

Excelin Table (Taulukko) -toimintoa en missään tapauksessa jätä hyödyntämättä. Voit lukea lisää artikkelista 2 Excel Table (Taulukko).