Datan tallentaminen

Päivitetty 20.5.2020

Data voi olla jossain muodossa olemassa. Tällöin edessä on datan siivoamista tässä artikkelissa kuvattuun muotoon. Jos tallennat datan itse, niin kannattaa heti tallentaa se tässä artikkelissa kuvattuun muotoon.

Jos haluan laskea datasta yhteenvetoja tai muulla tavalla analysoida sitä, niin tallennan sen taulukkomuotoon. Taulukkolaskentaohjelma Excel on kuin luotu tähän tarkoitukseen. Muilla ohjelmilla tallennettuja datoja voin avata/tuoda Exceliin vaihtelevalla menestyksellä:

  • Nettikyselyohjelmistot, esimerkiksi Webropol, mahdollistavat datan viennin Excel-muotoon.
  • Tietokantakyselyt on yleensä mahdollista viedä Excel-muotoon.
  • Tekstimuotoiset .csv (pilkkueroteltu muoto) ja .tsv (sarkaineroteltu muoto) -tiedostot aukeavat Exceliin.
  • Pdf-muotoisen tai kuvakaappauksena otetun datan tuonti Exceliin on hankalampaa.

Jos tallennan datan Exceliin, niin ennen datan tallentamista minun täytyy päättää mitä tietoja sijoitan riveille ja mitä tietoja sarakkeisiin. Muutama esimerkki valaisee asiaa:

  • Jos kyseessä on asiakastyytyväisyyskyselyyn vastanneiden vastaukset, niin sijoitan kullekin riville yhden vastaajan vastaukset. Kukin sarake sisältää yhden kysymyksen vastaukset.
  • Jos kyseessä on data, joka sisältää eri automallien keskeisiä tietoja, niin sijoitan kullekin riville yhden auton tiedot. Kukin sarake sisältää yhteen ominaisuuteen, esimerkiksi polttoaineen kulutukseen, liittyvät tiedot.
  • Jos kyse on datasta, joka sisältää asiakkaiden tekemiä tilauksia, niin sijoitan kullekin riville yhden tilauksen. Kukin sarake sisältää yhteen tilauksen ominaisuuteen liittyvät tiedot; esimerkiksi tilauspäivät.
  • Jos data sisältää pörssiosakkeiden hintoja viimeisen kuukauden ajalta, niin sijoitan kullekin riville yhden pörssipäivän. Ensimmäiseen sarakkeeseen sijoittaisin päivämäärän. Toiseen sarakkeeseen sijoittaisin ensimmäisen, esimerkiksi Fortumin, osakkeen hinnat jne.

Datan rivejä kutsutaan tilastoyksiköiksi. Myös nimityksiä havaintoyksikkö ja tutkimusyksikkö käytetään. Datan sarakkeita kutsutaan muuttujiksi. Muuttujan arvo on tilastoyksikköön liittyvä ominaisuus, joka vaihtelee tilastoyksiköstä toiseen.  Esimerkiksi kyselytutkimuksessa voi olla muuttujana ikä, joka muuttuu vastaajasta toiseen.

Data voi näyttää esimerkiksi seuraavalta:

Tilastoaineisto

Ensimmäisen rivin otsikoista ei kannata ottaa turhaa stressiä. Riittää kunhan minä datan käyttäjänä tunnistan muuttujat otsikoiden perusteella. Pidän otsikot lyhyinä, jotta datan käsittely on sujuvaa.

Datassa on hyvä olla muuttuja, jolla on jokaisella rivillä eri arvo eikä yhtään puuttuvaa arvoa. Yllä olevassa esimerkissä juokseva numerointi nro on on tällainen muuttuja. Tällaisesta muuttujasta on monenlaista hyötyä:

  • Jos esimerkiksi järjestän datan, niin juoksevan numeroinnin perusteella voin aina palauttaa alkuperäisen järjestyksen.
  • Jos numeroin kyselytutkimuksen vastauslomakkeet juoksevan numeron mukaisesti, niin voin myöhemmin tarkistaa epäilyttävän näköisen tiedon alkuperäiseltä vastauslomakkeelta.
  • Excelin pivot-taulukoinneissa tällaista muuttujaa voi hyödyntää lukumäärien ja prosenttien laskentaan.

Kategorisia muuttujia

Sukupuolet (sukup) olen tallentanut numeroina (1=mies, 2=nainen). Näin datan tallentaminen on nopeampaa. Perhesuhteet (perhe) olen tallentanut sukupuolten tapaan numeroina (1=perheetön, 2=perheellinen). Myös koulutuksen kohdalla olen käyttänyt numeroita (1=peruskoulu, 2=toinen aste, 3=korkeakoulu, 4=ylempi korkeakoulu).

Määrällisiä muuttujia

Määrälliset muuttujat (ikä, palveluvuodet, palkka) olen tallentanut sellaisenaan.

Mielipideasteikollisia muuttujia

Tyytyväisyys johtoon (johto) ja tyytyväisyys työtovereihin (työtov) on mitattu viisiportaisella mielipideasteikolla (1=erittäin tyytymätön, 2=tyytymätön, 3=ei tyytymätön eikä tyytyväinen, 4=tyytyväinen, 5=erittäin tyytyväinen). Mielipideasteikot tallennan aina numeroina, jotta voin myöhemmin laskea keskiarvot ja keskihajonnat.

Jos unohdan millä numerolla olen mitäkin merkinnyt, niin datani muuttuu arvottomaksi. Kirjaan siis aineiston tallentamisessa käyttämieni numeroarvojen merkitykset jonnekin, josta voin tarkistaa ne myöhemmin.

Puuttuva arvo

Jos arvo puuttuu, niin jätän taulukkoon tyhjän solun. Muualta tuoduissa datoissa puuttuvien arvojen tilalla voi olla joitain merkintöjä. Excelin Home (Aloitus) -välilehden Find&Select – Replace (Etsi ja valitse – Korvaa) -toiminnolla nämä ovat helposti korvattavissa tyhjillä solulla.

Monivalinta

Valintakysymyksessä vastaaja voi valita yhden useasta vaihtoehdosta. Monivalinnassa vastaaja voi valita useampiakin tarjotuista vaihtoehdoista. Ole tarkkana, koska valintakysymyksiäkin näkee usein kutsuttavan virheellisesti monivalinnaksi.

Monivalinta koostuu itse asiassa useasta kysymyksestä. Jokainen vaihtoehto on oma kysymyksensä. Tämän huomioin datan tallentamisessa siten, että varaan taulukosta oman sarakkeen jokaista monivalinnan vaihtoehtoa varten.

Seuraavassa työntekijältä on kysytty onko hän käyttänyt työnantajan tarjoamaa työterveyshuoltoa, lomaosaketta, kuntosalia tai hierojaa. Muuttujat ovat sarakkeissa M (työterv), N (lomaosa), O (kuntosa) ja P (hieroja). Ensimmäiset kaksi vastaajaa eivät ole käyttäneet yhtäkään kyseisistä etuisuuksista, kolme seuraavaa vastaajaa ovat käyttäneet työterveyshuoltoa ja viimeisin näkyvillä oleva vastaaja on käyttänyt sekä työterveyshuoltoa että lomaosaketta.

Monivalinta

Avoin vastaus

Avoimet vastaukset (vastaajan kirjoittama teksti) jätän yleensä tallentamatta dataan. Jos kuitenkin vastauksia selattuani pystyn ryhmittelelmään (luokittelemaan) avoimet vastaukset käyttökelpoisella tavalla, niin saatan antaa ryhmille numerot ja tallentaa ne muuttujan arvoiksi.

Seuraavaksi

Voit halutessasi tutustua esimerkkidataan data1.xlsx

Excelin Table (Taulukko) -toimintoa en missään tapauksessa jätä hyödyntämättä. Voit lukea lisää artikkelista 2 Excel Table (Taulukko).