Avainsana-arkisto: Tilastoaineisto

1 Tilastoaineiston tallentaminen

Päivitetty 5.3.2015

En osaa tai viitsi määritellä tilastoaineistoa täsmällisesti. Keksin kuitenkin helposti esimerkkejä tilastoaineistoista:

  • Aineisto, joka sisältää asiakastyytyväisyyskyselyyn vastanneiden asiakkaiden vastaukset
  • Aineisto, joka sisältää eri automallien keskeisiä tietoja, kuten teho, kiihtyvyys, polttoaineen kulutus jne.
  • Aineisto, joka sisältää asiakkaiden tekemiin tilauksiin liittyviä tietoja, kuten tilauspäivä, tilattu tuote, hinta jne.
  • Aineisto, joka sisältää pörssiosakkeiden hintoja viimeisen kuukauden ajalta.

Hampurilaisravintolan hinnastoa en pidä tilastoaineistona vaikka se muodollisesti sellaiseksi kelpaisikin. Jos hinnastossa olisi kunkin tuotteen kohdalla hinnan lisäksi myös kalorimäärä, niin voisin kelpuuttaa sen tilastoaineistoksi.

Jos haluan laskea tilastoaineistosta yhteenvetoja tai muulla tavalla analysoida aineistoa, niin tallennan sen taulukkomuotoon. Taulukkolaskentaohjelma Excel on kuin luotu tähän tarkoitukseen. Jos aineisto on jo tietokoneella, niin tavalla tai toisella saan sen tuotua Exceliin. Esimerkiksi nettikyselyiden tekoon tarkoitetut ohjelmat Webropol ja Digium mahdollistavat aineiston tuonnin Exceliin.

Jos tallennan aineiston itse Excellin, niin ennen aineiston tallentamista minun täytyy päättää mitä tietoja sijoitan riveille ja mitä tietoja sarakkeisiin. Muutama esimerkki valaisee asiaa:

  • Jos kyseessä on asiakastyytyväisyyskyselyyn vastanneiden vastaukset, niin sijoitan kullekin riville yhden vastaajan vastaukset. Kukin sarake sisältää yhden kysymyksen vastaukset.
  • Jos kyseessä on aineisto, joka sisältää eri automallien keskeisiä tietoja, niin sijoitan kullekin riville yhden auton tiedot. Kukin sarake sisältää yhteen ominaisuuteen, esimerkiksi polttoaineen kulutukseen, liittyvät tiedot.
  • Jos kyse on aineistosta, joka sisältää asiakkaiden tekemiä tilauksia, niin sijoitan kullekin riville yhden tilauksen. Kukin sarake sisältää yhteen tilauksen ominaisuuteen liittyvät tiedot; esimerkiksi tilauspäivät.
  • Jos aineisto sisältää pörssiosakkeiden hintoja viimeisen kuukauden ajalta, niin sijoitan kullekin riville yhden pörssipäivän. Ensimmäiseen sarakkeeseen sijoittaisin päivämäärän. Toiseen sarakkeeseen sijoittaisin ensimmäisen, esimerkiksi Fortumin, osakkeen hinnat jne.

Tilastoaineiston rivejä kutsutaan tilastoyksiköiksi. Myös nimityksiä havaintoyksikkö ja tutkimusyksikkö käytetään. Tilastoaineiston sarakkeita kutsutaan muuttujiksi. Muuttujan arvo on tilastoyksikköön liittyvä ominaisuus, joka vaihtelee tilastoyksiköstä toiseen. Hampurilaisravintolaan palatakseni, hampurilasiravintolan hinnastossa tuotteen hinta on muuttuja, jonka arvo vaihtelee tuotteesta toiseen.

Tilastoaineisto voi näyttää esimerkiksi seuraavalta:

Tilastoaineisto

Ensimmäisen rivin otsikoista ei kannata ottaa turhaa stressiä. Riittää kunhan minä aineiston käyttäjänä tunnistan muuttujat otsikoiden perusteella. Pidän otsikot lyhyinä, jotta aineiston käsittely on sujuvaa.

Ensimmäisenä muuttujana (nro) on juokseva numerointi. Tämä ei ole pakollinen, mutta yleensä hyödyllinen. Jos esimerkiksi järjestän aineiston, niin juoksevan numeroinnin perusteella voin aina palauttaa alkuperäisen järjestyksen. Jos numeroin kyselytutkimuksen vastauslomakkeet juoksevan numeron mukaisesti, niin voin myöhemmin tarkistaa epäilyttävän näköisen tiedon alkuperäiseltä vastauslomakkeelta.

Kategorisia muuttujia

Sukupuolet (sukup) olen tallentanut numeroina (1=mies, 2=nainen). Näin aineiston tallentaminen on nopeampaa. Perhesuhteet (perhe) olen tallentanut sukupuolten tapaan numeroina (1=perheetön, 2=perheellinen). Myös koulutuksen kohdalla olen käyttänyt numeroita (1=peruskoulu, 2=toinen aste, 3=korkeakoulu, 4=ylempi korkeakoulu).

Määrällisiä muuttujia

Määrälliset muuttujat (ikä, palvelusvuodet, palkka) olen tallentanut sellaisenaan.

Mielipideasteikollisia muuttujia

Tyytyväisyys johtoon (johto) ja tyytyväisyys työtovereihin (työtov) on mitattu viisiportaisella mielipideasteikolla (1=erittäin tyytymätön, 2=tyytymätön, 3=ei tyytymätön eikä tyytyväinen, 4=tyytyväinen, 5=erittäin tyytyväinen). Mielipideasteikot tallennan aina numeroina, jotta voin myöhemmin laskea keskiarvot ja keskihajonnat.

Jos unohdan millä numerolla olen mitäkin merkinnyt, niin tilastoaineistoni muuttuu arvottomaksi. Kirjaan siis aineiston tallentamisessa käyttämieni numeroarvojen merkitykset jonnekin, josta voin tarkistaa ne myöhemmin.

Puuttuva tieto

Jos tieto puuttuu, niin jätän taulukkoon tyhjän solun. Muualta tuoduissa tilastoaineistoissa puuttuvien tietojen tilalla voi olla joitain merkintöjä. Excelin Home (Aloitus) -välilehden Find&Select – Replace (Etsi ja valitse – Korvaa) -toiminnolla nämä ovat helposti korvattavissa tyhjillä solulla. Excel Mac 2011: korvaustoiminto löytyy Edit-valikosta.

Monivalinta

Valintakysymyksessä vastaaja voi valita yhden useasta vaihtoehdosta. Monivalinnassa vastaaja voi valita useampiakin tarjotuista vaihtoehdoista. Ole tarkkana, koska valintakysymyksiäkin näkee usein kutsuttavan virheellisesti monivalinnaksi.

Monivalinta koostuu itse asiassa useasta kysymyksestä. Jokainen vaihtoehto on oma kysymyksensä. Tämän huomioin aineiston tallentamisessa siten, että varaan taulukosta oman sarakkeen jokaista monivalinnan vaihtoehtoa varten.

Seuraavassa työntekijältä on kysytty onko hän käyttänyt työnantajan tarjoamaa työterveyshuoltoa, lomaosaketta, kuntosalia tai hierojaa. Muuttujat ovat sarakkeissa M (työterv), N (lomaosa), O (kuntosa) ja P (hieroja). Ensimmäiset kaksi vastaajaa eivät ole käyttäneen yhtäkään kyseisistä etuisuuksista, kolme seuraavaa vastaajaa ovat käyttäneet työterveyshuoltoa ja viimeisin näkyvillä oleva vastaaja on käyttänyt sekä työterveyshuoltoa että lomaosaketta.

Monivalinta

Avoin vastaus

Avoimet vastaukset (vastaajan kirjoittama teksti) jätän yleensä tallentamatta tilastoaineistoon. Jos kuitenkin vastauksia selattuani pystyn ryhmittelelmään (luokittelemaan) avoimet vastaukset käyttökelpoisella tavalla, niin saatan antaa ryhmille numerot ja tallentaa ne muuttujan arvoiksi.

Seuraavaksi

Voit halutessasi tutustua esimerkkiaineistoon data1.xlsx

Excel-versiosta 2007 lähtien on ollut käytettävissä Table (Taulukko) -toiminto. Tätä en missään tapauksessa jätä hyödyntämättä. Voit lukea lisää artikkelista 2 Excel Table (Taulukko).