Ristiintaulukointi

Päivitetty 16.1.2021

Ristiintaulukoinnin laatiminen

Hallitsethan varmasti artikkelin Frekvenssijakauma asiat sillä muutoin ei kannata lukea tätä artikkelia.

Käytän seuraavassa dataa data1.xlsx, joka sisältää erään yrityksen työntekijöiden vastauksia. Selvitän onko miesten tyytyväisyys työympäristön suhteen erilainen kuin naisten. Kyseessä on siis ryhmien, miesten ja naisten, vertailu. Voin myös sanoa, että selvitän sukupuolen ja mielipiteen välistä riippuvuutta.

Aloitan valitsemalla yhden ja vain yhden solun datan alueelta (tärkeää!). Tämän jälkeen valitsen Insert (Lisää) -välilehdeltä PivotTable (Pivot-taulukko).

Aukeavasta ikkunasta tarkastan, että Excel on tunnistanut datan oikein. Voin myös määrittää luotavan pivot-taulukon sijainnin, mutta yleensä oletus (New Worksheet) kelpaa minulle.

OK:n jälkeen raahaan ’tyytyväisyys työympäristöön’ -muuttujan riviotsikoihin (Row Lables) ja arvoihin (Values). Tämän jälkeen on tärkeää tarkastaa laskentaperuste ja vaihtaa se tarvittaessa. Jos Excel ehdottaa summaa niin vaihdan sen määräksi (Count). Vaihtaminen tapahtuu napsauttamalla Arvot (Values) -ruudun kenttää ja valitsemalla esiin tulevasta valikosta Value Field Settings (Arvokentän asetukset).

Seuraavaksi lisään ryhmittelyn miehiin ja naisiin raahaamalla ’sukupuoli’-muuttujan sarakeotsikohin (Column Labels). Tuloksena on jotain seuraavan kaltaista:

Taulukon sisältö selvenee, kun korvaan sarakeotsikoiden arvot 1 ja 2 sanoilla mies ja nainen sekä korvaan riviotsikoiden arvot 1, 2, 3, 4 ja 5 mielipiteiden nimillä.

Viimeistelyn jälkeen sain taulukon näyttämään seuraavalta:

Miesten ja naisten lukumäärien vertailu eri mielipiteiden kohdalla on ongelmallista, koska miesten ja naisten yhteismäärät poikkeavat toisistaan. Prosenttien vertailu on valaisevampaa. Jos lisään alkuperäiseen taulukkoon prosentit lukumäärien lisäksi, niin taulukosta tulee vaikeasti luettava, varsinkin henkilöille, jotka eivät pidä numeroista. En siis lisää uutta kenttää prosentteja varten, vaan vaihdan arvokentän tiedon näyttötavaksi prosenttia sarakkeen summasta (Percent of Column Total). Vaihtaminen tapahtuu napsauttamalla Values (Arvot) -ruudun kenttää, valitsemalla esiin tulevasta valikosta Value Field Settings (Arvokentän asetukset) ja siirtymällä edelleen Show Values As (Näytä arvot muodossa) -välilehdelle.

Julkaistavaan prosenttitaulukkoon täytyy aina liittää n-arvot, joista prosentit on laskettu. Prosenttitaulukko voisi viimeistelyn jälkeen näyttää seuraavalta:

Raportointi

Jos selität ristiintaulukoinnin sisältöä tutkimusraportissa, niin liitä taulukko näkyville selityksen yhteyteen. Lukija voi taulukosta varmistaa selityksesi oikeellisuuden ja saada tarkennusta yksityiskohtiin.

Kun selitän ristiintaulukoinnin sisältöä tutkimusraportissa, niin aloitan kuvailemalla mielipiteiden jakaumaa koko otoksessa (Kaikki-sarake). Tämän jälkeen voin kertoa miesten ja naisten mielipiteiden eroista. Kaikkia taulukon prosentteja ei ole tarkoituksenmukaista luetella tekstissä. Esimerkki-taulukkoa voin selittää esimerkiksi seuraavasti:

Suurin osa vastaajista on tyytyväisiä työympäristöön. Tyytymättömiä tai erittäin tyytymättömiä on noin viidesosa (22 %) vastaajista. Naiset ovat miehiä tyytyväisempiä. Naisista 74 % on tyytyväisiä tai erittäin tyytyväisiä. Vastaava luku miehillä on 32 %. Naisista yksikään ei ollut erittäin tyytymätön työympäristöön. Kannattaa panna merkille miesten suuri osuus (43 %) vastausasteikon keskimmäisen mielipiteen kohdalla (ei tyytymätön eikä tyytyväinen).

Graafinen esittäminen

Siisti ristiintaulukointi on havainnollinen ja selkeä tapa esittää riippuvuus/ryhmien ero, joten graafista esittämistä ei välttämättä tarvita. Jos kuitenkin haluat havainnollistaa tilannetta graafisesti, niin mahdollisuuksia on monia. Kaaviolajiksi voit valita pylväät, pinotut pylväät tai 100 % pinotut pylväät. Kaavion voit tehdä suoraan pivot-taulukon pohjalta pivot-taulukkotyökalujen Analyze (Analysoi) -välilehden PivotChart (Pivot-kaavio) -toiminnolla. Seuraavassa muutamia mahdollisa tapoja graafiseen esittämiseen. Jos haluat kerrata kaavioiden muotoiluun liittyviä asioita, niin voit käyttää itseopiskelupakettia kaavio.xlsx.

Yllä olevassa kaaviossa havainnollistuu miesten ja naisten ero pylväiden pituuksien eroina. Pystyakselin täsmällinen otsikointi on tärkeää, jotta vastaaja ei kuvittele pylväiden esittävän lukumääriä.

Yllä olevassa kaaviossa havainnollistuu koko otoksen mielipiteiden jakauma pylväiden kokonaispituuksina. Samalla havainnollistuu myös ero naisten ja miesten välillä. Kaavio on tehty pivot-taulukosta, jossa on lukumääriä.

Yllä olevassa kaaviossa havainnollistuu mielipiteiden jakauma naisten joukossa ja miesten joukossa. Samalla on helppo tehdä vertailua naisten ja miesten mielipidejakaumien välillä.  Tätä kaaviota varten sukupuolen täytyy olla pivot-taulukon riviotsikoissa (Row Labels) ja tyytyväisyyden sarakeotsikoissa (Column Labels). Tällöin pivot-taulukon prosentit täytyy laskea rivin summasta (Percent of Row Total).

Useampitasoinen ryhmittely

Voit porautua aineistoosi syvemminkin ryhmittelemällä useamman muuttujan mukaan. Riviotsikoihin (Row Labels) ja sarakeotsikoihin (Column Labels) voit raahata useampiakin muuttujia. Monitasoisten taulukoiden ymmärtäminen vaatii huolellista perehtymistä.

Voit myös hyödyntää raporttisuodatinta (Report Filter). Muuttujan lisääminen raporttisuodattimeen lisää pivot-taulukon yläpuolelle alasvetovalikon, josta pääset valitsemaan ne raporttisuodatinmuuttujan arvot, joita haluat tarkastella. Pivot-taulukko päivittyy raporttisuodattimen valintojen perusteella.

Seuraavaksi

Lue myös artikkeli Pivot-kaaviot, jossa lähestyn pivot-taulukoita pivot-kaavioiden näkökulmasta.

Jos data on otos (kiinnostuksen kohteena olevaa perusjoukkoa ei ole kokonaisuudessaan tutkittu), niin tulokset koskevat otosta. Otoksen tuloksia ei muitta mutkitta voi yleistää otoksesta perusjoukkoon. Jos havaitsen ristiintaulukoinnissa ryhmien välisiä eroja, niin eroja ei välttämättä ole otosta laajemmassa perusjoukossa. Tämä on seurausta niin kutsutusta otantavirheestä. Mitä pienempää otosta käytän sitä enemmän otos voi otantavirheen takia poiketa perusjoukosta.

Otoksessa havaitun eron/riippuvuuden voin kuitenkin yleistää perusjoukkoon, jos ero/riippuvuus on riittävän suuri. Riittävän suurta eroa/riippuvuutta kutsutaan tilastollisesti merkitseväksi. Artikkelissa Ristiintaulukointi ja khiin neliö -testi kirjoitan tilastollisesta merkitsevyydestä ristiintaulukoinnin tapauksessa.