Datoja eri lähteistä

Päivitetty 11.5.2022

Datan rakenne

Analysoitavan datan täytyy olla jaettu riveille ja sarakkeisiin.

Ylimmälle riville sijoitetaan sarakkeiden otsikot. Sarakkeita kutsutaan tilanteen mukaan kentiksi (tietokantojen yhteydessä) tai muuttujiksi (tilastoaineistojen yhteydessä).

sarake = kenttä = muuttuja

Varsinainen data alkaa välittömästi sarakeotsikoita seuraavalta riviltä. Rivejä kutsutaan tilanteen mukaan tietueiksi (tietokantojen yhteydessä) tai tilastoyksiköiksi/havaintoyksiköiksi (tilastoaineistojen yhteydessä).

rivi = tietue = tilastoyksikkö = havaintoyksikkö

Tietokannasta noudetut tilaustiedot voivat näyttää seuraavalta:

datoja1

Kenttiä ovat Päivä, Myyjä, Tilaaja jne. Tietueita ovat yksittäiset tilausrivit.

Työtyytyväisyyskyselyn vastaukset voivat näyttää seuraavalta:

datoja2

Muuttujia ovat nro, sukupuoli, ikä, palkka, tyytyväisyys johtoon jne.

Huomaa, että tyytyväisyydet ovat numeroina: Tässä numero ”1” tarkoittaa vastausta ”erittäin tyytymätön”. Tiedot täytyy esittää numeroina, jos aion laskea tiedoista keskiarvoja tai muita tilastollisia tunnuslukuja.

Valinta vai monivalinta?

Kyselytutkimusdatassa on tärkeää erottaa toisistaan valintakysymykset ja monivalintakysymykset.

  • Valintakysymyksessä tarjotaan vaihtoehtoja, joista vastaaja saa valita vain yhden. Datassa valintakysymykselle riittää yksi muuttuja, joka saa arvokseen vastaajan valitseman vaihtoehdon.
  • Monivalintakysymyksessä tarjotaan vaihtoehtoja, joista vastaaja saa valita useampiakin. Datassa monivalintakysymyksen jokaisesta vaihtoehdosta täytyy tehdä oma muuttujansa. Muuttuja saa arvon 1, jos vastaaja on valinnut kyseisen vaihtoehdon. Muussa tapauksessa muuttujan arvo voidaan jättää tyhjäksi.

Tietolähteet

Tietolähteenä voi olla esimerkiksi Excel-tiedosto, tekstitiedosto, nettisivulle sijoitettu taulukko tai relaatiotietokanta.

Excel-tiedosto

Jos tallennan datan itse, niin tallennan sen suoraan Exceliin ja  noudatan edellä kuvaamaani rakennetta.

Yleisimmät nettikyselyohjelmistot (esimerkiksi Webropol) tarjoavat mahdollisuuden viedä kyselyn vastaukset (raakadata) Excel-tiedostoksi.

Excel-tiedostoina on saatavilla paljon valmista ja avointa dataa. Kaikissa tapauksissa rakenne ei kelpaa sellaisenaan analysoitavaksi, mutta Excelissä voin yleensä helposti muotoilla datan rakenteeltaan analysointikelpoiseksi.

Tekstitiedosto

Tekstitiedostossa datan jaottelu riveille osoitetaan rivinvaihdoilla. Jaottelu sarakkeisiin osoitetaan yleensä jommallakummalla seuraavista:

  • Sarakkeet eroteltu toisistaan (Delimited) pilkuilla, puolipisteillä, välilyönneillä, sarkaimilla tai jollain muulla merkillä. Niin kutsutussa pilkkuerotellussa muodossa (csv = comma separated value) erottimena on pilkku tai puolipiste.
  • Kiinteällä kentän leveydellä (Fixed width).

Tuon tekstitiedoston sisällön Excelin avoinna olevaan tiedostoon Data (Tiedot) -välilehden Get Data – From Text (Nouda tiedot – Tekstistä) -toiminnolla. Jos olen jo avannut tekstitiedoston Exceliin, niin valitsen sarakkeen , jossa tiedot ovat ja valitsen Data (Tiedot) -välilehdeltä Text to Columns (Teksti sarakkeisiin). Ohjatussa toiminnossa on 3 vaihetta:

1 Valitsen tilanteen mukaan joko Delimited tai Fixed width -muodon. Seuraavassa olen valinnut Delimited, aloitan tuonnin riviltä 7 ja olen määrittänyt, että otsikkorivi on tekstitiedostossa mukana.

datoja3

2 Valitsen erottimena käytetyt merkit (Delimited-muoto) tai määritän sarakkeiden rajakohdat (Fixed width -muoto). Seuraavassa olen määrittänyt erotinmerkiksi puolipisteen.

datoja4

3 Määritän sarakkeiden tietotyypit. Advanced-painikkeella pääsen määrittämään desimaalierottimen ja tuhaterottimen. Jos tekstitiedoston desimaalierottimena on käytetty pistettä, niin se on tärkeää käydä määrittämässä, koska muutoin Excel muuntaa desimaalilukuja päivämääriksi. Seuraavassa olen määrittänyt desimaalierottimeksi pilkun ja tuhaterottimeksi välilyönnin.

datoja5

Finish-painikkeen painamisen jälkeen pääsen vielä valitsemaan mihin tiedot tuodaan.

datoja6

Nettisivulle sijoitettu taulukko

Osa avoimesta datasta on nettisivuilla erilaisina taulukoina. Voin käyttää Excelin Get Data (Nouda tiedot) -työkalua tiedon tuontiin ja muotoiluun. Joissain tapauksissa data on ohjelmallisesti tuotettu siten, että en saa tuotua sitä Exceliin.

Relaatiotietokanta

Relaatiotietokannasta voin tuoda yhden tai useampia taulukoita. Voin suorittaa tuonnin Get Data (Nouda tiedot) -työkalulla.


Kurssimateriaalin etusivulle