Avainsana-arkisto: Pivot-taulukko

Pivot-kaaviot

Päivitetty 6.2.2019

Tässä artikkelissa kirjoitan pylväskaavioista. Oletan, että osaat jo entuudestaan laatia ja muotoilla pylväskaavioita. Jollet osaa, niin opit perusasiat itseopiskelupaketista kaavio.xlsx.

Pivot-kaavioilla laadin nopeasti monipuolisia yhteenvetoja isosta aineistosta. Aineiston täytyy olla asianmukaiseen muotoon tallennettu artikkelin Tilastoaineiston tallentaminen mukaisesti. Tämän artikkelin esimerkeissä käytetyn aineiston ja pivot-kaaviot löydät tiedostosta pivotchart.xlsx.

Yksinkertainen pivot-kaavio

Tarkastelen pivot-kaaviota, josta näen kuinka moni työntekijä on kuinkakin tyytyväinen johtoon:

  • Valitsen yhden ja vain yhden solun aineiston alueelta.
  • Valitsen Insert-välilehdeltä PivotChart – PivotChart & PivotTable. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
  • Pivot-kaavion rakenteen määrittelen PivotChart Fields (Pivot-kaavion kentät) -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
  • pivotkaavio1Raahaan tyytyväisyys johtoon -muuttujan Values-ruutuun. Excel laskee havaintojen lukumäärän (jos havaintoja puuttuu) tai havaintojen summan (jos jokaisella aineiston rivillä on havainto). Muuttujan tyytyväisyys johtoon -tapauksessa Excel laskee havaintojen summan. Muutan tämän lukumääräksi.
  • Napsautan Values-ruutuun raahaamaani palikkaa. Valitsen esiin tulevasta pudotusvalikosta Value Field Settings (Arvokentän asetukset).
  • Valitsen Value Field Settings -ikkunassa laskentaperusteeksi Count (Määrä) ja napsautan OK.

Tässä vaiheessa pivot-kaavion pylväs esittää havaintojen lukumäärän.

pivotkaavio2

Raahaan tyytyväisyys johtoon -muuttujan Axis (Categories) (Akseli) -ruutuun. Axis (Categories) on tarkoitettu kaavion luokka-akselin luokille. Tässä tapauksessa luokkia ovat muuttujan tyytyväisyys johtoon arvot 1, 2, 3, 4 ja 5. Arvojen sanalliset selitteet kirjoitan suoraan Pivot-taulukkoon numeroiden 1, 2, 3, 4 ja 5 tilalle.

Viimeistelyn jälkeen kaavio voisi näyttää seuraavalta:

pivotkaavio5

Tavallisista kaavioista poiketen pivot-kaaviossa on ylimääräisiä ”painikkeita”, joiden avulla voin lajitella ja suodattaa. Jos kaavio on valittuna, niin voin piilottaa ylimääräiset painikkeet valitsemalla Analyze-välilehdeltä Field Buttons – Hide All (Kenttäpainikkeet – Piilota kaikki).

Ryhmitelty pivot-kaavio

Jos raahaan sukupuoli-muuttujan Legend (Series) (Selite) -ruutuun, niin tuloksena on ryhmitelty pylväskaavio, jossa on erikseen arvosarja miehille ja naisille. Jos kaaviossa ei ole selitettä (Legend), joka selittää värien merkityksen, niin se kannattaa lisätä.

pivotkaavio4

Kun kaavio on valittuna, niin käytettävissä on Design (Rakenne) -välilehti. Kokeile Design-välilehden Switch Row/Column (Vaihda rivi tai sarake) -toimintoa. Seuraa muutoksia kenttäluettelossa, pivot-kaaviossa ja pivot-taulukossa niin opit ymmärtämään kaavion ja taulukon rakennetta.

Prosentteja lukumäärien sijasta

Jos haluan esittää lukumäärät prosentteina, niin napsautan oikean reunan kenttäluettelon Values-ruudun palikkaa ja valitsen esiin tulevasta valikosta Value Field SettingsValue Field Settings -ikkunasta valitsen Show Values As (Näytä arvot muodossa) -välilehden ja valitsen pudotusvalikosta esitystavaksi % of Column Total (Prosenttia sarakkeen summasta).

Pylväiden järjestys

Excel järjestää pivot-taulukon rivit ja pivot-kaavion pylväät luokkien mukaiseen numero/aakkosjärjestykseen. Voin vaihtaa järjestyksen pivot-taulukon Row Labels -pudotusvalikosta tai pivot-kaaviossa olevan painikkeen pudotusvalikosta (painike on näkyvillä, jollet ole piilottanut sitä Analyze – Field Buttons – Hide All -toiminnolla). Pudotusvalikon More Sort Options (Lisää lajitteluvaihtoehtoja) -valinnalla löydät tarjolla olevat vaihtoehdot:

  • Voit järjestää luokkien mukaiseen nousevaan tai laskevaan numero/aakkosjärjestyskeen.
  • Voit järjestää lukumäärien/prosenttien mukaiseen järjestykseen (eli pylväiden pituuden mukaiseen järjestykseen).

Jos haluat muunlaisen järjestyksen, niin voit siirtää hiirellä pivot-taulukon riviotsikoita riviltä toiselle. Jos esimerkiksi laadin pivot-kaavion koulutus-muuttujasta, niin luokkien mukainen numero/aakkkosjärjestys ei ole toivottu:

pivotkaavio6

Valitsen pivot-taulukosta solun, jossa on teksti Peruskoulu ja raahaan solun reunasta kiinni pitäen ensimmäiseksi, jonka jälkeen koulutukset ovat koulutuksen pituuden mukaisessa järjestyksessä.

Puuttuvat havainnot (blank)

Jos käytän koulutus-muuttujaa Values-ruudussa, niin pivot-taulukon ja pivot-kaavion (blank) viittaa puuttuviin havaintoihin. Puuttuvien havaintojen lukumäärä ei kuitenkaan ole näkyvillä.

Selitys: Excel laskee kuinka monta havaintoarvoa on koulutus-sarakkeen niissä soluissa, joista koulutus puuttuu. Vastaus on tietenkin: ei yhtään.

Ratkaisu: Käytän Values-ruudussa koulutus-muuttujan sijasta nro-muuttujaa (laskentatavaksi täytyy muuttaa sum sijasta count), jolla on havainto jokaisella rivillä.

Jos aineistossa ei ole valmiiksi juoksevaa numerointia, niin sellainen kannattaa lisätä. Tätä juoksevaa numerointia kannattaa käyttää pivot-kaavioiden Values-ruudussa jos olet laskemassa lukumääriä tai lukumääriin pohjautuvia prosentteja. Näin saan tietää myös puuttuvien havaintojen lukumäärän.

Seuraavaksi

Lue myös pivot-kaavioista kirjoittamani jatkoartikkelit:

Mielipideasteikon keskiarvo

Päivitetty 17.4.2019.

Datassa data1.xlsx on muiden muassa vastauksia kysymyksiin, joissa on kysytty tyytyväisyyttä eri asioihin. Asteikkona on viisiportainen mielipideasteikko:

  • 1 erittäin tyytymätön
  • 2 tyytymätön
  • 3 ei tyytymätön eikä tyytyväinen
  • 4 tyytyväinen
  • 5 erittäin tyytyväinen

Mielipiteiden jakauman voin esittää yhteenvetotaulukkona, jossa on eri mielipiteiden lukumäärät (ja/tai prosentit). Tästä voit lukea aiemmasta artikkelistani 3 Taulukointi. Jos haluan esittää pikayhteenvedon tyytyväisyyksistä eri asioihin, niin voin laskea mielipiteiden keskiarvot:

Keskiarvon perusteella voin muodostaa mielikuvan vastaajien keskimääräisestä mielipiteestä. Erityisesti tarkastan kaksi asiaa:

  • Onko keskiarvo tyytymättömän vai tyytyväisen puolella eli alle vai yli 3?
  • Kuinka kaukana asteikon keskikohdasta keskiarvo on?

Keskihajonta ilmaisee, kuinka paljon mielipiteet keskimäärin poikkeavat keskiarvosta? Keskihajonnan perusteella voin muodostaa mielikuvan mielipiteiden vaihtelusta. Mitä suurempi keskihajonta, sitä enemmän mielipiteet ovat vaihdelleet.

On tärkeää ilmoittaa myös keskiarvon taustalla olevien mielipiteiden eli vastausten lukumäärä (n).

Voinko käyttää keskiarvoja?

Joissain menetelmäoppaissa kielletään, toisissa taas sallitaan keskiarvon käyttö mielipideasteikon yhteydessä. Keskiarvon käyttökieltoa perustellaan sillä, että mielipide on kategorinen (tarkemmin ottaen järjestysasteikollinen) muuttuja, jolle ei ole mielekästä laskea keskiarvoa. Tällöin ajatellaan, että mielipeasteikko ei mittaa tasavälisesti mielipiteen määrää. Keskiarvon käyttöä taas perustellaan sillä, että mielipideasteikkoa voidaan pitää kuta kuinkin tasavälisenä asteikkona, joka mittaa mielipiteen määrää. Tätä perustelua ei kuitenkaan voida vastaansanomattomasti osoittaa oikeaksi.

Käytäntö on osoittanut, että keskiarvot antavat useimmissa tapauksissa oikeansuuntaisen ja käyttökelpoisen arvion keskimääräisestä mielipiteestä. Keskiarvon käytössä kannattaa kuitenkin huomoida seuraavat seikat:

  • Mielipiteiden jakauma pitää aina tarkistaa lukumäärä/prosentti-taulukosta. Erikoisten jakaumien kohdalla keskiarvoihin pitää suhtautua varoen. Äärimmäinen esimerkki: Viisiportaisen mielipideasteikon keskiarvoksi saadaan 3, jos kaikki mieliteet ovat 3; samaan keskiarvoon päädytään jos puolet mielipiteistä on 1 ja puolet 5.
  • Keskiarvon lisäksi kannattaa laskea keskihajonta, joka mittaa mielipiteiden vaihtelua.
  • Jos vastaajille on tarjottu muitakin vaihtoehtoja kuin varsinaisen mielipideasteikon arvoja (esimerkiksi ’En tiedä asiasta’), niin nämä täytyy jättää keskiarvon laskennan ulkopuolelle. Tämän voin käytännössä toteuttaa tekemällä aineistostani keskiarvojen laskentaa varten kopion, jossa korvaan laskennan ulkopuolelle jätettävät arvot tyhjillä soluilla tai tekstimuotoisella tiedolla Excelin Home (Aloitus) -välilehden Find&Select – Replace (Etsi ja valitse – Korvaa) -toiminnolla.
  • Lukumäärät ja/tai prosentit sisältävä yhteenvetotaulukko on tyhjentävä esitys mielipiteiden jakaumasta ja näin ollen aina tarkempi kuin keskiarvo.

Kukin tehköön oman ratkaisunsa keskiarvojen käyttämisestä tai käyttämättä jättämisestä.

Keskiarvojen laskenta pivot-taulukkoon

Jos haluan laskea keskiarvot datan data1.xlsx tyytyväisyysmuuttujille, niin toimin seuraavasti:

  • Valitsen täsmälleen yhden solun datan alueelta.
  • Valitsen Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).
  • Raahaan tyytyväisyysmuuttujat yksi kerrallaan kenttäluettelon (PivotTable Field List) Values (Arvot) -ruutuun.
  • Vaihdan kunkin Values (Arvot) -ruudun kentän laskentaperusteeksi Average (Keskiarvo). Laskentaperusteen vaihtoon pääsen napsauttamalla kenttää ja valitsemalla avautuvasta valikosta Value Field Settings (Arvokentän asetukset).
  • Lopuksi raahaan sarakeotsikoiden (Column Labels)  Values (Arvot) -palikan riviotsikoihin (Row Labels), jotta saan keskiarvot allekkain.

Pivot-taulukko pitkine otsikoineen ja liikoine desimaaleineen kaipaa jonkin verran viimeistelyä.

Keskihajonnat saan laskettua vastaavalla tavalla:

  • Valitsen täsmälleen yhden solun datan alueelta.
  • Valitsen Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).
  • Raahaan tyytyväisyysmuuttujat yksi kerrallaan kenttäluettelon (PivotTable Field List) Values (Arvot) -ruutuun.
  • Vaihdan kunkin Values (Arvot) -ruudun kentän laskentaperusteeksi StdDev (Keskihajonta). Laskentaperuteen vaihtoon pääsen napsauttamalla kenttää ja valitsemalla avautuvasta valikosta Value Field Settings (Arvokentän asetukset).
  • Lopuksi raahaan sarakeotsikoiden (Column Labels)  Values (Arvot) -palikan riviotsikoihin (Row Labels), jotta saan keskihajonnat allekkain.

Tämän jälkeen teen vielä kolmannen pivot taulukon, johon lasken vastausten määrät (Count).

Voin kopioida keskiarvot, keskihajonnat ja vastausten määrät uuteen taulukkoon vierekkäin.

Jos tarkasteltavilla asioilla ei ole mitää luontaista järjestystä, niin tunnuslukuja sisältävä taulukko kannattaa järjestää keskiarvojen mukaiseen järjestykseen.

Järjestämisen voin tehdä valitsemalla taulukon sisällön sarakeotsikoita lukuunottamatta. Tämän jälkeen valitsen Home (Aloitus) -välilehdeltä Sort&Filter – Custom Sort (Lajittele ja suodata – Mukautettu lajittelu). Lajitteluperusteeksi (Sort by) valitsen keskiarvon.

Taulukosta nähdään, että kaikkein tyytymättömimpiä oltiin palkkaan (keskiarvo=2,1) ja kaikkein tyytyväisimpiä työtovereihin (keskiarvo=4,1). Muiden asioiden kohdalla keskiarvot ovat lähellä mielipideasteikon keskikohtaa. Tyytyväisyys työympäristöön jakoi mielipiteitä eniten (keskihajonta=1,2). Tyytyväisyys palkkaan jakoi mielipiteitä vähiten (keskihajonta=0,8).

Graafinen esittäminen

Huolellisesti viimeistelty keskiarvot, keskihajonnat ja n-arvot sisältävä taulukko on havainnollinen ja  täsmällinen esitystapa. Näin ollen graafista esittämistä ei tarvita. Jos kuitenkin haluat havainnollistaa keskiarvoja graafisesti, niin voit käyttää pylväskaaviota.

On tärkeää katkaista arvoakseli alkamaan mielipideasteikon pienimmän arvon kohdalta (tässä 1). Myös arvoakselin otsikointiin on kiinnitettävä erityistä huomiota. Jos haluat kerrata/opetella kaavioiden tekemistä ja muotoilua, niin voit hyödyntää itseopiskelupakettiani kaavio.xlsx.

Keskiarvoja ryhmissä

Jos olen laskenut tunnuslukuja pivot-taulukkoon, niin voin tarkastella tunnuslukuja ryhmittäin raahaamalla ryhmittelevän muuttujan sarakeotsikoihin (Column Labels). Siistimisen jälkeen tyytyväisyys-muuttujien keskiarvot sukupuolittain näyttävät seuraavalta:

On tärkeää, että näkyvillä on n-arvo, josta nähdään kuinka monesta havainnosta keskiarvot on laskettu. Jos n-arvoissa on vaihtelua puuttuvien vastausten takia, niin riittää ilmoittaa n pienimmillään. Esimerkkimme tapauksessa n-arvoista paljastuu, että naisia ei ole aineistossa kuin 19 kpl. Näin pienen otoksen kohdalla keskiarvoihin täytyy suhtautua varoen. Myös keskihajontojen esittäminen sukupuolittain voisi olla paikallaan. Keskihajonnat voi liittää omiin sarakkeisiinsa samaan taulukkoon keskiarvojen kanssa, mutta tämä luonnollisesti heikentää taulukon luettavuutta. Toinen vaihtoehto on esittää keskihajonnat kokonaan omana taulukkonaan.

Jos haluan graafista havainnollistusta, niin voin käyttää pylväskaaviota:

On tärkeää katkaista arvoakseli alkamaan mielipideasteikon pienimmän arvon kohdalta (tässä 1). Myös arvoakselin otsikointiin on kiinnitettävä erityistä huomiota. Jos haluat kerrata/opetella kaavioiden tekemistä ja muotoilua, niin voit hyödyntää itseopiskelupakettiani kaavio.xlsx.

Seuraavaksi

Voin laskea tilastollisia tunnuslukuja Excelin funktioilla. Tämä on monessa mielessä jopa kätevämpää kuin tunnuslukujen laskenta pivot-taulukkoon. Lisäksi tällöin käytössäni on sellaisiakin tunnuslukuja, joita ei ole mahdollista laskea pivot-taulukkoon. Funktioiden käytöstä lisää artikkelissa 8 Tunnuslukja.

Ristiintaulukointi

Päivitetty 16.1.2021

Ristiintaulukoinnin laatiminen

Hallitsethan varmasti artikkelin Frekvenssijakauma asiat sillä muutoin ei kannata lukea tätä artikkelia.

Käytän seuraavassa dataa data1.xlsx, joka sisältää erään yrityksen työntekijöiden vastauksia. Selvitän onko miesten tyytyväisyys työympäristön suhteen erilainen kuin naisten. Kyseessä on siis ryhmien, miesten ja naisten, vertailu. Voin myös sanoa, että selvitän sukupuolen ja mielipiteen välistä riippuvuutta.

Aloitan valitsemalla yhden ja vain yhden solun datan alueelta (tärkeää!). Tämän jälkeen valitsen Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).

Aukeavasta ikkunasta tarkastan, että Excel on tunnistanut datan oikein. Voin myös määrittää luotavan pivot-taulukon sijainnin, mutta yleensä oletus (New Worksheet) kelpaa minulle.

OK:n jälkeen raahaan ’tyytyväisyys työympäristöön’ -muuttujan riviotsikoihin (Row Lables) ja arvoihin (Values). Tämän jälkeen on tärkeää tarkastaa laskentaperuste ja vaihtaa se tarvittaessa. Jos Excel ehdottaa summaa niin vaihdan sen määräksi (Count). Vaihtaminen tapahtuu napsauttamalla Arvot (Values) -ruudun kenttää ja valitsemalla esiin tulevasta valikosta Value Field Settings (Arvokentän asetukset).

Seuraavaksi lisään ryhmittelyn miehiin ja naisiin raahaamalla ’sukupuoli’-muuttujan sarakeotsikohin (Column Labels). Tuloksena on jotain seuraavan kaltaista:

Taulukon sisältö selvenee, kun korvaan sarakeotsikoiden arvot 1 ja 2 sanoilla mies ja nainen sekä korvaan riviotsikoiden arvot 1, 2, 3, 4 ja 5 mielipiteiden nimillä.

Viimeistelyn jälkeen sain taulukon näyttämään seuraavalta:

Miesten ja naisten lukumäärien vertailu eri mielipiteiden kohdalla on ongelmallista, koska miesten ja naisten yhteismäärät poikkeavat toisistaan. Prosenttien vertailu on valaisevampaa. Jos lisään alkuperäiseen taulukkoon prosentit lukumäärien lisäksi, niin taulukosta tulee vaikeasti luettava, varsinkin henkilöille, jotka eivät pidä numeroista. En siis lisää uutta kenttää prosentteja varten, vaan vaihdan arvokentän tiedon näyttötavaksi prosenttia sarakkeen summasta (Percent of Column Total). Vaihtaminen tapahtuu napsauttamalla Values (Arvot) -ruudun kenttää, valitsemalla esiin tulevasta valikosta Value Field Settings (Arvokentän asetukset) ja siirtymällä edelleen Show Values As (Näytä arvot muodossa) -välilehdelle.

Julkaistavaan prosenttitaulukkoon täytyy aina liittää n-arvot, joista prosentit on laskettu. Prosenttitaulukko voisi viimeistelyn jälkeen näyttää seuraavalta:

Raportointi

Jos selität ristiintaulukoinnin sisältöä tutkimusraportissa, niin liitä taulukko näkyville selityksen yhteyteen. Lukija voi taulukosta varmistaa selityksesi oikeellisuuden ja saada tarkennusta yksityiskohtiin.

Kun selitän ristiintaulukoinnin sisältöä tutkimusraportissa, niin aloitan kuvailemalla mielipiteiden jakaumaa koko otoksessa (Kaikki-sarake). Tämän jälkeen voin kertoa miesten ja naisten mielipiteiden eroista. Kaikkia taulukon prosentteja ei ole tarkoituksenmukaista luetella tekstissä. Esimerkki-taulukkoa voin selittää esimerkiksi seuraavasti:

Suurin osa vastaajista on tyytyväisiä työympäristöön. Tyytymättömiä tai erittäin tyytymättömiä on noin viidesosa (22 %) vastaajista. Naiset ovat miehiä tyytyväisempiä. Naisista 74 % on tyytyväisiä tai erittäin tyytyväisiä. Vastaava luku miehillä on 32 %. Naisista yksikään ei ollut erittäin tyytymätön työympäristöön. Kannattaa panna merkille miesten suuri osuus (43 %) vastausasteikon keskimmäisen mielipiteen kohdalla (ei tyytymätön eikä tyytyväinen).

Graafinen esittäminen

Siisti ristiintaulukointi on havainnollinen ja selkeä tapa esittää riippuvuus/ryhmien ero, joten graafista esittämistä ei välttämättä tarvita. Jos kuitenkin haluat havainnollistaa tilannetta graafisesti, niin mahdollisuuksia on monia. Kaaviolajiksi voit valita pylväät, pinotut pylväät tai 100 % pinotut pylväät. Kaavion voit tehdä suoraan pivot-taulukon pohjalta pivot-taulukkotyökalujen Analyze (Analysoi) -välilehden PivotChart (Pivot-kaavio) -toiminnolla. Seuraavassa muutamia mahdollisa tapoja graafiseen esittämiseen. Jos haluat kerrata kaavioiden muotoiluun liittyviä asioita, niin voit käyttää itseopiskelupakettia kaavio.xlsx.

Yllä olevassa kaaviossa havainnollistuu miesten ja naisten ero pylväiden pituuksien eroina. Pystyakselin täsmällinen otsikointi on tärkeää, jotta vastaaja ei kuvittele pylväiden esittävän lukumääriä.

Yllä olevassa kaaviossa havainnollistuu koko otoksen mielipiteiden jakauma pylväiden kokonaispituuksina. Samalla havainnollistuu myös ero naisten ja miesten välillä. Kaavio on tehty pivot-taulukosta, jossa on lukumääriä.

Yllä olevassa kaaviossa havainnollistuu mielipiteiden jakauma naisten joukossa ja miesten joukossa. Samalla on helppo tehdä vertailua naisten ja miesten mielipidejakaumien välillä.  Tätä kaaviota varten sukupuolen täytyy olla pivot-taulukon riviotsikoissa (Row Labels) ja tyytyväisyyden sarakeotsikoissa (Column Labels). Tällöin pivot-taulukon prosentit täytyy laskea rivin summasta (Percent of Row Total).

Useampitasoinen ryhmittely

Voit porautua aineistoosi syvemminkin ryhmittelemällä useamman muuttujan mukaan. Riviotsikoihin (Row Labels) ja sarakeotsikoihin (Column Labels) voit raahata useampiakin muuttujia. Monitasoisten taulukoiden ymmärtäminen vaatii huolellista perehtymistä.

Voit myös hyödyntää raporttisuodatinta (Report Filter). Muuttujan lisääminen raporttisuodattimeen lisää pivot-taulukon yläpuolelle alasvetovalikon, josta pääset valitsemaan ne raporttisuodatinmuuttujan arvot, joita haluat tarkastella. Pivot-taulukko päivittyy raporttisuodattimen valintojen perusteella.

Seuraavaksi

Lue myös artikkeli Pivot-kaaviot, jossa lähestyn pivot-taulukoita pivot-kaavioiden näkökulmasta.

Jos data on otos (kiinnostuksen kohteena olevaa perusjoukkoa ei ole kokonaisuudessaan tutkittu), niin tulokset koskevat otosta. Otoksen tuloksia ei muitta mutkitta voi yleistää otoksesta perusjoukkoon. Jos havaitsen ristiintaulukoinnissa ryhmien välisiä eroja, niin eroja ei välttämättä ole otosta laajemmassa perusjoukossa. Tämä on seurausta niin kutsutusta otantavirheestä. Mitä pienempää otosta käytän sitä enemmän otos voi otantavirheen takia poiketa perusjoukosta.

Otoksessa havaitun eron/riippuvuuden voin kuitenkin yleistää perusjoukkoon, jos ero/riippuvuus on riittävän suuri. Riittävän suurta eroa/riippuvuutta kutsutaan tilastollisesti merkitseväksi. Artikkelissa Ristiintaulukointi ja khiin neliö -testi kirjoitan tilastollisesta merkitsevyydestä ristiintaulukoinnin tapauksessa.

Muuttujan arvojen luokittelu ja muuttaminen

Päivitetty 16.1.2021

Muuttujan arvojen luokittelua tai muuttamista tarvitsen esimerkiksi seuraavissa tilanteissa:

  • Haluan luokitella iän, joka on mitattu vuosina, ikäluokkiin.
  • Haluan yhdistellä mielipideasteikon vastausvaihtoehtoja esimerkiksi siten että viisiportaisesta asteikosta tulee kolmiportainen. Tämän teen yhdistämällä arvot 1 ja 2 arvoksi 1, muuttamalla arvon 3 arvoksi 2 ja yhdistämällä arvot 4 ja 5 arvoksi 3.
  • Haluan korvata mielipideasteikkoon kuulumattoman arvon (esimerkiksi viisiportaisen asteikon perässä ollut arvo 6=ei kokemusta asiasta) tekstimuotoisella tiedolla, jolloin se ei sotke keskiarvon laskentaa.
  • Haluan kääntää mielipideasteikon päin vastaiseksi. Esimerkiksi viisiportaisen asteikon voin kääntää siten, että arvosta 1 tulee arvo 5, arvosta 2 arvo 4, arvo 3 pysyy ennallaan, arvosta 4 tulee arvo 2 ja arvosta 5 tulee arvo 1.

Seuraavassa esitän neljä tapaa tehdä luokitteluita ja arvojen muuttamista Excelissä:

  • korvaaminen suoraan alkuperäiseen dataan Replace (Korvaa) -toimintoa käyttäen
  • korvaaminen suoraan alkuperäisen datan päälle kirjoittamalla
  • tasavälinen luokittelu pivot-taulukossa
  • epätasavälinen luokittelu pivot-taulukossa.

Ennen kuin teet muutoksia dataan niin huolehdi, että sinulla on varmuuskopio alkuperäisestä datasta kaiken varalta.

Korvaaminen suoraan alkuperäiseen dataan

  • Valitsen korvaamisen kohteena olevien muuttujien kaikki arvot.
  • Valitsen Home (Aloitus) -välilehdeltä Find&Select – Replace (Etsi ja valitse – Korvaa).
  • Teen tarvittavat korvaukset.

Korvaaminen suoraan alkuperäisen datan päälle kirjoittamalla

  • Lajittelen (järjestän) datan luokiteltavan muuttujan mukaan. Lisätietoa lajittelusta artikkelissa Excel Table (Taulukko).
  • Valitsen arvot, jotka haluan samaan luokkaan.
  • Kirjoitan uuden arvon ja kuittaan sen ctrl-enter -näppäinyhdistelmällä. Näppäinyhdistelmän ctrl-enter ansiosta kirjoitettu arvo menee kaikkiin valittuihin soluihin.

Tasavälinen luokittelu pivot-taulukossa

Oletan, että hallitset artikkelin Frekvenssijakauma asiat, koska ilman niitä seuraavaa ei kannata lukea.

Käytän seuraavassa esimerkkidataa data1.xlsx. Jos pivot-taulukoin Ikä-muuttujan siten että raahaan Ikä-muuttujan riviotsikoihin (Row Labels) ja arvoihin (Values) sekä määritän laskentamenetelmäksi Määrä (Count), niin tuloksena on pitkä taulukko. Pitkä taulukko ei ole havainnollinen esitys ikäjakaumasta. Taulukko muuttuu käyttökelpoiseksi, jos luokittelen iät sopiviin ikäluokkiin.

Valitsen yhden ja vain yhden iän pivot-taulukon riviotsikoista. Tämän jälkeen valitsen pivot-taulukkotyökaluista Analyze (Analysoi) -välilehdeltä Group Field (Ryhmän kenttä). Excel ehdottaa luokittelua, mutta voin tarvittaessa vaihtaa ehdotettua luokittelua. Viereisessä esimerkissä luokittelu aloitetaan iästä 20 ja edetään 10 vuoden luokissa niin pitkälle, että aineiston iäkkäinkin henkilö (61 vuotta) löytää luokkansa. Luokittelun jälkeen lukumäärät esittävä pivot-taulukko näyttää seuraavalta:

Voin palata luokittelun määrittelyihin myöhemmin pivot-taulukkotyökalujen Analyze (Analysoi) -välilehden Group Field (Ryhmän kenttä) -toiminnolla. Voin poistaa luokittelun Analyze (Analysoi) -välilehden Ungroup (Pura ryhmittely) -toiminnolla.

Luokittelu on voimassa myös muissa saman tiedoston pivot-taulukoissa. Jos siis olen luokitellut iän, niin ikä esiintyy luokiteltuna kaikissa saman tiedoston pivot-taulukoissa.

Luokitellun jakauman graafiseen esittämiseen sopii histogrammi. Histogrammi on pystypylväskaavio, jossa pylväät ovat kiinni toisissaan.

Jos haluat kerrata kuvioiden muotoiluun liittyviä asioita, niin voit käyttää itseopiskelupakettia kaavio.xlsx.

Epätasavälinen luokittelu pivot-taulukossa

Aina tasavälinen luokittelu ei ole se mitä tavoittelen. Esimerkiksi seuraavan taulukon tapauksessa saatan haluta yhdistää erittäin tyytymättömät (1) ja tyytymättömät (2) yhteen ryhmään samoin kuin tyytyväiset (4) ja erittäin tyytyväiset (5).

Valitsen pivot-taulukosta ne solut, jotka sisältävät 1 ja 2. Tämän jälkeen valitsen pivot-taulukkotyökalujen Analyze (Analysoi) -välilehdeltä Group Selection (Valittu ryhmä).  Pivot-taulukko voi näyttää tämän jälkeen sekavalta. Excel muodostaa arvoista 1 ja 2 ryhmän, mutta arvotkin ovat vielä näkyvillä ryhmän nimen alapuolella. Ryhmän arvot saan piiloon napsauttamalla ryhmän nimen vasemmalla puolella olevaa miinus-painiketta. Ryhmän nimen tilalle voin kirjoittaa haluamani nimen.

Vastaavalla tavalla voin valita solut, jotka sisältävät arvot 4 ja 5 ja määrittää ne ryhmäksi Analyze (Analysoi) -välilehden Group Selection (Valittu ryhmä) -toiminnolla.

Seuraavassa olen ryhmitellyt muuttujan arvot 1 ja 2 ryhmään, jolle olen kirjoittanut nimeksi ’Tyytymätön’. Olen piilottanut ryhmän jäsenet miinus-painikkeella (voin ottaa ryhmän jäsenet tarvittaessa näkyviin plus-painikkeella). Muuttujan arvon 3 tilalle olen kirjoittanut ’Ei tyytymätön eikä tyytyväinen’. Olen ryhmitellyt muuttujan arvot 4 ja 5 samaan ryhmään. En ole vielä kirjoittanut tälle ryhmälle nimeä. Excel on nimennyt ryhmän nimellä ’Group2’.

Seuraavaksi

Voin analysoida dataa tarkastelemalla lukumääriä ja/tai prosentteja ryhmittäin. Voin esimerkiksi tarkastella tyytyväisyyttä työtovereihin sukupuolen mukaan. Tällaista taulukointia kutsutaan ristiintaulukoinniksi. Ristiintaulukoinnista enemmän artikkelissa Ristiintaulukointi.

Frekvenssijakauma

Päivitetty 16.1.2021

Dataan kätkeytyvä tieto täytyy esittää jollain tavalla. Ainakin minulle nousee ensimmäisenä mieleen kysymys: kuinka monta mitäkin on (frekvenssijakauma)? Excelillä voin laskea frekvenssijakaumia pivot-taulukoina.

Varmista ennen pivot-taulukointia, että data on tallennettu aiemmassa artikkelissa Datan tallentaminen kuvatulla tavalla. Datan täytyy olla yhtenäinen kokonaisuus, jonka sisällä ei ole tyhjiä rivejä tai sarakkeita. Pivot-taulukoinnin kannalta ei ole merkitystä sillä onko data määritelty Taulukoksi (Table) vai ei.

Tarkastelen seuraavassa esimerkkidataa data1.xlsx, joka sisältää vastauksia kuvitteellisen yrityksen työntekijöiltä.

Aloitan pivot-taulukoinnin valitsemalla täsmälleen yhden solun datan alueelta (tärkeää!). Seuraavaksi valitset Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).

Aukeavasta ikkunasta tarkastan, että Excel on tunnistanut datan oikein. Voin myös määrittää luotavan pivot-taulukon sijainnin, mutta yleensä oletus (New Worksheet) kelpaa minulle.

OK:n jälkeen Excel luo tyhjän pivot-taulukon ja näyttää kenttäluettelon (Field List). Kenttäluettelon yläosasta löydän datan muuttujat. Kenttäluettelon alaosassa on paikat riviotsikoita (Row Labels) ja laskettuja arvoja (Values) varten. Lukumäärät lasken seuraavasti:

  • Raahaan tarkasteltavan muuttujan kenttäluettelon yläosasta riviotsikoihin (Row Labels).
  • Raahaan tarkasteltavan muuttujan myös Arvot (Values) -ruutuun.
  • Tilanteesta riippuen Excel laskee oletuksena joko arvojen summan (Sum) tai määrän (Count). Minun täytyy olla tarkkana ja vaihtaa tarvittaessa laskentaperusteeksi määrä: Napsautan Arvot (Values) -ruudun kenttää ja valitsen aukeavasta valikosta Value Field Settings (Arvokentän asetukset). Tämän jälkeen valitsen haluamani laskentaperusteen ja napsautan OK.

Taulukon muotoilu

Jos muuttuja sisältää puuttuvia arvoja (tyhjiä soluja), niin tämä näkyy pivot-taulukossa tarpeettomana rivinä. Voin helposti poistaa tyhjän (blank) -rivin: Pivot-taulukon riviotsikoista (Row Labels) aukeaa alasvetovalikokko, josta voin valita taulukossa näytettävät arvot. Poistan valinnan tyhjien (blank) arvojen kohdalta.

Yllä näet vierekkäin alkuperäisen pivot-taulukon ja vieressä tyylitellyn julkaistavaksi kelpaavan taulukon.

Prosentit

Lukumäärien viereen voin laskea prosentit. Lisään prosentit pivot-taulukkoon raahaamalla tarkasteltavan muuttujan toistamiseen Values (Arvot) -ruutuun. Napsautan uutta Values (Arvot) -ruudun muuttujaa ja valitsen aukeavasta valikosta Value Field Settings (Arvokentän asetukset). Laskentaperusteen täytyy olla Count (Määrä/Laske). Lisäksi valitsen esitystavaksi Show Values As (Näytä arvot muodossa) -välilehdeltä % of Column Total (Prosenttia sarakkeen summasta).

Lisäksi voin säätää desimaalien määrää Number Format (Lukumuotoilu) -painikkeella. Excel käyttää prosenttimuotoiluissa oletuksena kahta desimaalia, mutta usein 1 tai ei yhtään desimaalia riittää käytännön sovelluksiin.

Tutkimusraportissa taulukot ja kuviot pistävät ensimmäisenä silmään raporttia selailtaessa. Tämän takia taulukot kannattaa viimeistellä huolellisesti. Pienen viimeistelyn jälkeen valmis taulukko voisi näyttää seuraavalta:

Tällaista taulukkoa kutsutaan frekvenssitaulukoksi.

Graafinen esittäminen

Lukumäärät ja prosentit sisältävä taulukko on selkeä ja havainnollinen tapa frekvenssijakauman esittämiseen eikä vaadi graafista havainnollistamista. Jos kuitenkin haluan graafisen esityksen, niin voin toteuttaa sen Pivot-kaaviona (PivotChart). Jos olet pivot-taulukon alueella, niin työkalunauhassa on Pivot-taulukkotyökalut (PivotTable tools). Pivot-taulukkotyökalujen Analyze (Analysoi) -välilehdellä on PivotChart (Pivot-kaavio) -toiminto. Huomaa, että pivot-kaavio on pivot-taulukon graafinen esitystapa, jossa on mukana kaikki pivot-taulukon arvokentät. Koska kaaviossa ei saa olla yhtäaikaa lukumääriä ja prosentteja, niin PivotChart täytyy tehdä pivot-taulukosta, jossa on ainoastaan lukumäärät tai ainoastaan prosentit.

Pienen viilauksen jälkeen saan tässa artikkelissa esitetystä ensimmäisestä pivot-taulukosta seuraavan pivot-kaavion:

Numeroarvojen tilalle olen pivot-taulukkoon kirjoittanut vastausvaihtoehdot ’Tyytymätön’ jne. Kaaviosta olen poistanut selitteen (Legend) ja kaavion otsikon (Chart Title). Kaavioon olen lisännyt vaaka-akselin otsikon. Pivot-kaavion reunoilla on kenttäpainikkeita. Jos haluan kenttäpainikkeet pois kaaviosta, niin valitsen pivot-kaaviotyökaluista Analyze (Analysoi) -välilehdeltä Field Buttons -Hide All (Kenttäpainikkeet – Piilota kaikki).

Jos haluat oppia/kerrata Excel-kaavioiden luomiseen ja muotoiluun liittyvät perustaidot, niin käy läpi itseopiskelupaketti kaavio.xlsx.

Usein kysyttyä

Kysymys: Haluaisin vielä työstää pivot-taulukkoani, muta en näe kenttäluetteloa (Field List)?

Vastaus: Kenttäluettelo on näkyvillä vain jos valittuna on pivot-taulukon alueella oleva solu. Jos pivot-taulukon alueella olevan solun valitseminenkaan ei auta, niin valitse PivotTable Tools  – Analyze – Field List (Pivot-taulukkotyökalut – Analysoi – Kenttäluettelo).

Kysymys: Olen tehnyt muutoksia dataan, mutta muutokset eivät näy pivot-taulukossa. Mitä minun pitäisi tehdä?

Vastaus: Valitse pivot-taulukkotyökalujen Analyze (Analysoi) -välilehdeltä Refresh (Päivitä). Jos tämäkään ei auta, niin määrittele pivot-taulukon pohjana oleva data uudelleen Analyze (Analysoi) -välilehden Change Data Source (Muuta tietolähde) -toiminnolla.

Kysymys: Kyselylomakkeellani oli monivalintakysymys (vastaaja sai valita tarjotuista vaihtoehdoista useampiakin). Miten saan valintojen määrät taulukoitua samaan taulukkoon?

Vastaus: Oletan, että olet tallentanut monivalintakysymyksen vastaukset neuvomallani tavalla (Datan tallentaminen). Tee pivot-taulukko. Raahaa monivalintakysymykseen liittyvät muuttujat yksi kerrallaan Values (Arvot) -ruutuun. Jos aineistossa valintoja on merkitty ykkösillä ja muut solut ovat tyhjiä, niin on saman tekevää käytätkö laskentaperusteena summaa (Sum) vai määrää (Count). Näin saat taulukon, jossa on koottuna eri vaihtoehtojen valintojen lukumäärät. Voit vielä valita näytetäänkö lukumäärät vierekkäin vai allekkain vaihtamalla rivi/sarakeotsikoiden Values (Arvot) -palikan paikkaa.

Kysymys: Olen kysynyt samaa mielipideasteikkoa käyttäen mielipidettä moneen eri asiaan. Miten saan eri asioihin liittyvien mielipiteiden lukumäärät tai prosentit samaan taulukkoon?

Vastaus: Jokaisesta asiasta täytyy tehdä oma pivot-taulukkonsa. Tulokset voit kopioida ja yhdistää uuteen taulukkoon. Liittäminen pitää tehdä arvoina (Values). Parhaiten liittäminen sujuu Office-leikepöytää käyttäen. Lisätietoa liittämismuodoista ja Office-leikepöydästä blogissani Olennaiset Excel-taidotUusi taulukko voi pienen tyylittelyn jälkeen näyttää esimerkiksi seuraavalta:

koonti

Huomaa, että prosentteja esitettäessä täytyy myös ilmoittaa kokonaismäärä (n), josta prosentit on laskettu.

Kysymys: Miksi taulukossa ei näy tyhjien (blank) arvojen lukumäärää?

Vastaus: Taulukkoon lasketaan Values (Arvot) -ruudun muuttujan arvojen lukumäärä niissä soluissa, jotka vastaavat vastaavalla rivillä riviotsikoissa olevaa arvoa. Tyhjien kohdalla ei ole arvoja, joten taulukossa ei näy mitään lukumäärää. Jos haluat taulukon, jossa on laskettu puuttuvien arvojen lukumäärä, niin käytä Values (Arvot) -muuttujana sellaista muuttujaa, jolla ei ole puuttuvia arvoja (esimerkiksi ensimmäisen sarakkeen juokseva numerointi).

Kysymys: Miten voin laskea prosenttiosuuden luottamusvälin?

Vastaus: Lue artikkeli Prosenttiosuuden luottamusväli.

Seuraavaksi

Muuttujalla voi olla liikaa arvoja siinä mielessä, että edellä kuvattu taulukointi tuottaa liian pitkän tai epähavainnollisen taulukon. Esimerkiksi ikä-muuttujan taulukointi sellaisenaan ei liene tarkoituksenmukaista. Ikä-muuttujan arvot kannattaakin luokitella sopiviin ikäluokkiin taulukon luettavuuden parantamiseksi. Artikkelista Muuttujan arvojen luokittelu voit lukea lisää.

Lue myös artikkelini Pivot-kaaviot, jossa käsittelen pivot-taulukoita lähtien liikkeelle pivot-kaavioista.