Avainsana-arkisto: Monivalinta

Lukumäärä- ja prosenttiyhteenvedot Pythonilla

Päivitetty 8.2.2024

Lukumäärä- ja prosenttiyhteenvedot tulevat kyseeseen seuraavissa tapauksissa:

  • Kategorisen muuttujan yhteenvetotaulukko (frekvenssitaulukko) tai frekvenssien esittäminen pylväskaaviona.
  • Määrällisen muuttujan luokiteltu jakauma frekvenssitaulukkona tai histogrammina.
  • Dummy-muuttujien (dikotomisten muuttujien) yhteenveto. Dummy-muuttujaksi kutsutaan muuttujaa, joka saa arvokseen joko 0 (joskus tämän sijasta käytetään tyhjää) tai 1. Esimerkiksi kyselytutkimuksessa monivalintakysymys, jonka vaihtoehdoista vastaaja saa valita useammankin kuin yhden, koodataan dummy-muuttujiksi: Jokainen kysymyksen vaihtoehto on muuttuja, joka saa arvokseen 1, jos vastaaja on sen valinnut. Muussa tapauksessa arvo on 0 tai tyhjä.
  • Kategoristen muuttujien välisen riippuvuuden tarkastelu ristiintaulukoimalla.

Frekvenssitaulukko

Frekvenssitaulukon lasken pandas-kirjaston crosstab-funktiolla.

Jos kategoristen muuttujien arvot eivät ole tekstimuodossa, niin määrittelen numeroiden tekstimuotoiset vastineet listoina. Listan voin sijoittaa taulukon indeksin arvoksi.

frekvenssitaulukko

Voin visualisoida lukumääriä tai prosentteja vaaka- tai pystypylväskaaviona. Yhteensä-rivin tietoja en esitä pylväänä. Jos esitän kaaviossa prosentteja, niin näytän n-arvon (lukumäärä, josta prosentit on laskettu; esimerkiksi edellisessä taulukossa n=81).

Tarkemmat yksityiskohdat selviävät esimerkistä.

Luokiteltu jakauma

Määrällisen muuttujan jakaumaan tutustun luokitellun jakauman avulla.

Pythonilla on helppo kokeilla erilaisia luokkien lukumääriä tai luokkarajoja tilanteeseen sopivan luokittelun löytämiseksi. Olen tottunut käyttämään luokitteluun kahta menetelmää:

  • Pandas kirjaston cut-funktiolla voin lisätä luokat alkuperäiseen dataan ja laatia sen jälkeen frekvenssitaulukon crosstab-funktiolla.
  • Mieluummin laadin histogrammin suoraan datasta seaborn kirjaston histplot-kaaviolajia käyttäen.

histogrammi

Tarkemmat yksityiskohdat selviävät esimerkistä.

Dummy-muuttujien yhteenveto

Yhteenvetoon mukaan otettavat muuttujat määrittelen listana. Tämän jälkeen lasken listan mukaisista muuttujista lukumäärät:

  • Jos dummy-muuttujan arvoina on ykkösiä (ja nollia tai tyhjiä) niin käytän sum-funktiota.
  • Jos dummy-muuttujan arvoina on ykkösten sijasta joitain muita numeroita ja tyhjiä niin käytän count-funktiota (laskee lukujen lukumäärän).

dummy

Tärkeää: Prosentit lasken kaikista vastaajista (=koko otoksesta). Taulukon yhteydessä täytyy ilmoittaa n-arvo (edellä n=82).

Tarkemmat yksityiskohdat selviävät esimerkistä.

Ristiintaulukointi

Kahden kategorisen muuttujan välinen riippuvuus selviää ristiintaulukoimalla. Laadin ristiintaulukoinnin crosstab-funktiolla.

Tärkeää: Jos selittävän muuttujan arvot ovat sarakkeissa, niin käytän prosentteja sarakkeen kokonaismäärästä (columns). Jos selittävän muuttujan arvot ovat riveillä, niin käytän prosentteja rivin kokonaismäärästä (index).

lkm4

Tärkeää: Jos käytän prosentteja niin minun on kerrottava mistä lukumääristä prosentit on laskettu (n-arvot). Edellä prosentit on laskettu naisten kohdalla naisten lukumäärästä (n=19) ja miesten kohdalla miesten lukumäärästä (n=62).

Jos otoksesta lasketussa ristiintaulukoinnissa on havaittavaa riippuvuutta, niin voin tarkistaa khiin neliö -testillä, onko riippuvuus tilastollisesti merkitsevää?

Tarkemmat yksityiskohdat selviävät esimerkistä.

value_counts()

Frekvenssitaulukot ja ristiintaulukoinnit voin siis laskea crosstab()-funktiolla, mutta taitavalle käyttäjälle value_counts() on kätevämpi ja antaa enemmän mahdollisuuksia.

Tarkemmat yksityiskohdat selviävät esimerkistä.

Monivalinta pivot-kaaviona

Päivitetty 6.2.2019

Olethan opetellut artikkelissa Pivot-kaaviot kuvatut toimet ennen tämän artikkelin lukemista?

Monivalintakysymyksessä tarjotaan useita vaihtoehtoja, joista vastaaja voi valita useammankin kuin yhden. Jokainen monivalinnan vaihtoehto tallennetaan aineistoon omana sarakkeenaan. Jos vaihtoehto on valittu, niin aineistossa on arvo 1, muussa tapauksessa aineistoon voidaan jättää tyhjä kohta.

Seuraavassa käytän esimerkkinä kyselytutkimusaineistoa, jossa on kysytty työntekijän hyödyntämiä etuisuuksia: työterveyshuolto, lomaosake, kuntosali, hieroja. Esimerkkiaineisto ja pivot-kaaviot löytyvät tiedostosta pivotchart2.xlsx.

  • Valitsen yhden ja vain yhden solun aineiston alueelta.
  • Valitsen Insert-välilehdeltä PivotChart. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
  • Pivot-kaavion rakenteen määrittelen PivotChart Fields -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
  • Raahaan työterveyshuolto-muuttujan Values-ruutuun.
  • Raahaan lomaosake-muuttujan Values-ruutuun.
  • Raahaan kuntosali-muuttujan Values-ruutuun.
  • Raahaan hieroja-muuttujan Values-ruutuun.

pivotkaavio7

Tässä vaiheessa lasketut arvot ovat pivot-taulukossa sarakkeittain, koska Excel on sijoittanut Values-palikan Legend (Series)-ruutuun. Pivot-kaaviossa tämä näkyy siten, että jokainen pylväs muodostaa oman arvosarjansa ja näkyy omalla värillään.

  • Raahaan Legend (Series)-ruudun Values-palikan Axis (Categories)-ruutuun.
  • Kirjoitan pivot-taulukkoon monivalinnan vaihtoehtojen nimet nimien Count of työterveyshuolto jne. tilalle. Excel ei kelpuuta muuttujan nimenä esiintyvää työterveyshuolto pivot-taulukon riviotsikoksi, joten lisään nimen perään välilyönnin.

pivotkaavio9

Yleensä monivalinnan pylväät kannattaa järjestää pituusjärjestykseen.

  • Napsautan hiiren oikeaa painiketta jonkin pivot-taulukon lukumäärän päällä ja valitsen Sort – Sort Largest to Smallest.

Pienen viimeistelyn jälkeen pivot-kaavio voisi näyttää seuraavalta.

pivotkaavio10

Jos haluan tarkastella asiaa ryhmittäin esimerkiksi sukupuolen mukaan, niin voin vielä raahata ryhmittelevän muuttujan Legend (Series) -ruutuun.

Datan tallentaminen

Päivitetty 20.5.2020

Data voi olla jossain muodossa olemassa. Tällöin edessä on datan siivoamista tässä artikkelissa kuvattuun muotoon. Jos tallennat datan itse, niin kannattaa heti tallentaa se tässä artikkelissa kuvattuun muotoon.

Jos haluan laskea datasta yhteenvetoja tai muulla tavalla analysoida sitä, niin tallennan sen taulukkomuotoon. Taulukkolaskentaohjelma Excel on kuin luotu tähän tarkoitukseen. Muilla ohjelmilla tallennettuja datoja voin avata/tuoda Exceliin vaihtelevalla menestyksellä:

  • Nettikyselyohjelmistot, esimerkiksi Webropol, mahdollistavat datan viennin Excel-muotoon.
  • Tietokantakyselyt on yleensä mahdollista viedä Excel-muotoon.
  • Tekstimuotoiset .csv (pilkkueroteltu muoto) ja .tsv (sarkaineroteltu muoto) -tiedostot aukeavat Exceliin.
  • Pdf-muotoisen tai kuvakaappauksena otetun datan tuonti Exceliin on hankalampaa.

Jos tallennan datan Exceliin, niin ennen datan tallentamista minun täytyy päättää mitä tietoja sijoitan riveille ja mitä tietoja sarakkeisiin. Muutama esimerkki valaisee asiaa:

  • Jos kyseessä on asiakastyytyväisyyskyselyyn vastanneiden vastaukset, niin sijoitan kullekin riville yhden vastaajan vastaukset. Kukin sarake sisältää yhden kysymyksen vastaukset.
  • Jos kyseessä on data, joka sisältää eri automallien keskeisiä tietoja, niin sijoitan kullekin riville yhden auton tiedot. Kukin sarake sisältää yhteen ominaisuuteen, esimerkiksi polttoaineen kulutukseen, liittyvät tiedot.
  • Jos kyse on datasta, joka sisältää asiakkaiden tekemiä tilauksia, niin sijoitan kullekin riville yhden tilauksen. Kukin sarake sisältää yhteen tilauksen ominaisuuteen liittyvät tiedot; esimerkiksi tilauspäivät.
  • Jos data sisältää pörssiosakkeiden hintoja viimeisen kuukauden ajalta, niin sijoitan kullekin riville yhden pörssipäivän. Ensimmäiseen sarakkeeseen sijoittaisin päivämäärän. Toiseen sarakkeeseen sijoittaisin ensimmäisen, esimerkiksi Fortumin, osakkeen hinnat jne.

Datan rivejä kutsutaan tilastoyksiköiksi. Myös nimityksiä havaintoyksikkö ja tutkimusyksikkö käytetään. Datan sarakkeita kutsutaan muuttujiksi. Muuttujan arvo on tilastoyksikköön liittyvä ominaisuus, joka vaihtelee tilastoyksiköstä toiseen.  Esimerkiksi kyselytutkimuksessa voi olla muuttujana ikä, joka muuttuu vastaajasta toiseen.

Data voi näyttää esimerkiksi seuraavalta:

Tilastoaineisto

Ensimmäisen rivin otsikoista ei kannata ottaa turhaa stressiä. Riittää kunhan minä datan käyttäjänä tunnistan muuttujat otsikoiden perusteella. Pidän otsikot lyhyinä, jotta datan käsittely on sujuvaa.

Datassa on hyvä olla muuttuja, jolla on jokaisella rivillä eri arvo eikä yhtään puuttuvaa arvoa. Yllä olevassa esimerkissä juokseva numerointi nro on on tällainen muuttuja. Tällaisesta muuttujasta on monenlaista hyötyä:

  • Jos esimerkiksi järjestän datan, niin juoksevan numeroinnin perusteella voin aina palauttaa alkuperäisen järjestyksen.
  • Jos numeroin kyselytutkimuksen vastauslomakkeet juoksevan numeron mukaisesti, niin voin myöhemmin tarkistaa epäilyttävän näköisen tiedon alkuperäiseltä vastauslomakkeelta.
  • Excelin pivot-taulukoinneissa tällaista muuttujaa voi hyödyntää lukumäärien ja prosenttien laskentaan.

Kategorisia muuttujia

Sukupuolet (sukup) olen tallentanut numeroina (1=mies, 2=nainen). Näin datan tallentaminen on nopeampaa. Perhesuhteet (perhe) olen tallentanut sukupuolten tapaan numeroina (1=perheetön, 2=perheellinen). Myös koulutuksen kohdalla olen käyttänyt numeroita (1=peruskoulu, 2=toinen aste, 3=korkeakoulu, 4=ylempi korkeakoulu).

Määrällisiä muuttujia

Määrälliset muuttujat (ikä, palveluvuodet, palkka) olen tallentanut sellaisenaan.

Mielipideasteikollisia muuttujia

Tyytyväisyys johtoon (johto) ja tyytyväisyys työtovereihin (työtov) on mitattu viisiportaisella mielipideasteikolla (1=erittäin tyytymätön, 2=tyytymätön, 3=ei tyytymätön eikä tyytyväinen, 4=tyytyväinen, 5=erittäin tyytyväinen). Mielipideasteikot tallennan aina numeroina, jotta voin myöhemmin laskea keskiarvot ja keskihajonnat.

Jos unohdan millä numerolla olen mitäkin merkinnyt, niin datani muuttuu arvottomaksi. Kirjaan siis aineiston tallentamisessa käyttämieni numeroarvojen merkitykset jonnekin, josta voin tarkistaa ne myöhemmin.

Puuttuva arvo

Jos arvo puuttuu, niin jätän taulukkoon tyhjän solun. Muualta tuoduissa datoissa puuttuvien arvojen tilalla voi olla joitain merkintöjä. Excelin Home (Aloitus) -välilehden Find&Select – Replace (Etsi ja valitse – Korvaa) -toiminnolla nämä ovat helposti korvattavissa tyhjillä solulla.

Monivalinta

Valintakysymyksessä vastaaja voi valita yhden useasta vaihtoehdosta. Monivalinnassa vastaaja voi valita useampiakin tarjotuista vaihtoehdoista. Ole tarkkana, koska valintakysymyksiäkin näkee usein kutsuttavan virheellisesti monivalinnaksi.

Monivalinta koostuu itse asiassa useasta kysymyksestä. Jokainen vaihtoehto on oma kysymyksensä. Tämän huomioin datan tallentamisessa siten, että varaan taulukosta oman sarakkeen jokaista monivalinnan vaihtoehtoa varten.

Seuraavassa työntekijältä on kysytty onko hän käyttänyt työnantajan tarjoamaa työterveyshuoltoa, lomaosaketta, kuntosalia tai hierojaa. Muuttujat ovat sarakkeissa M (työterv), N (lomaosa), O (kuntosa) ja P (hieroja). Ensimmäiset kaksi vastaajaa eivät ole käyttäneet yhtäkään kyseisistä etuisuuksista, kolme seuraavaa vastaajaa ovat käyttäneet työterveyshuoltoa ja viimeisin näkyvillä oleva vastaaja on käyttänyt sekä työterveyshuoltoa että lomaosaketta.

Monivalinta

Avoin vastaus

Avoimet vastaukset (vastaajan kirjoittama teksti) jätän yleensä tallentamatta dataan. Jos kuitenkin vastauksia selattuani pystyn ryhmittelelmään (luokittelemaan) avoimet vastaukset käyttökelpoisella tavalla, niin saatan antaa ryhmille numerot ja tallentaa ne muuttujan arvoiksi.

Seuraavaksi

Voit halutessasi tutustua esimerkkidataan data1.xlsx

Excelin Table (Taulukko) -toimintoa en missään tapauksessa jätä hyödyntämättä. Voit lukea lisää artikkelista 2 Excel Table (Taulukko).