Aihearkisto: Visualisoi

Tilastoaineiston visualisointi

Python ja Power BI yhteiskäyttö

Päivitetty 15.5.2020

Power BI desktop on hyvä työkalu datojen noutamiseen, yhdistelyyn ja visualisointiin. Visualisoinnit kootaan dashboard-tyyppiselle alustalle ja voidaan edelleen julkaista Power BI -pilvipalvelussa tai omalla Power BI -palvelimella.

Jos visualisointien tekemiseksi tarvitaan edistyneempää data-analytiikkaa, niin apuvälineinä voi käyttää Python- ja R-ohjelmointikieliä. Julkaisualustalle siirrettynä tuettuina ovat ainakin seuraavat Pythonin ohjelmakirjastot: numpy, pandas, matplotlib, seaborn, scikit-learn, scipy ja statsmodels.

Seuraavassa luon Excel-muotoiselle datalle ( http://taanila.fi/data3.xlsx ) jointplotin. Lukijan oletan entuudestaan tuntevan Power BI Desktopin toimintoja ja osaavan jonkin verran Python data-analytiikkaa.

Tässä käytävä esimerkki on yksinkertainen, mutta Python-koodi voisi sisältää paljonkin analytiikkaa kunhan lopputuloksena syntyy visualisointi (matplotlib– tai seaborn-kirjaston kuvio).

Käyttöönotto

Power BI desktopille täytyy kertoa, mitä Python-asennusta käytetään:

Valitse File – Options and settings – Options.
Valitse vasemmasta reunasta Python scripting.
Detected Python home directories -listasta löytyy käyttämästäsi koneesta tunnistetut Python-asennukset, joista voit valita haluamasi. Anacondaa käyttävillä, myös minulla, on ollut ongelmia saada Python toimimaan Power BI:n kanssa. Tähän ongelmaan löytyy erilaisia ratkaisuyrityksiä googlaamalla. Tätä kirjoittaessani poistin koneeltani kaikki Python-asennukset ja asensin Anacondan uusimman version. Tässä tapauksessa Anacondan Python toimi ongelmitta Power BI:ssä.

WinPython on kätevä Windows-koneilla toimiva siirrettävissä oleva paketti, joka ei vaadi minkäänlaista asennusta eikä myöskään vaikuta mitenkään koneella jo oleviin Python asennuksiin. Tätä voit käyttää PowerBI:n kanssa, jos et saa muita asennuksia yhteistyöhön. PowerBI ei automaattisesti tunnista koneella olevaa WinPythonia, mutta sen voi ottaa käyttöön valitsemalla Detected Python home directories -listasta Other ja siirtymällä Browse-toiminnolla WinPythonin kansioon:

powerbi1

Visualisointi Pythonilla

Napsauta Visualizations-paneelissa Py-kuvaketta.

powerbi2

Jos saat pyynnön sallia visualisoinnit, niin valitse Enable.

Alareunaan ilmestyy Python script editor, jossa on teksti Drag fields into Values area in the Visualization pane to start scripting. Toimi ohjeen mukaan ja lisää tarvitsemasi kentät Value-alueelle.

powerbi3

Power BI muodostaa valituista kentistä pandas dataframen, jonka nimenä on dataset.

Tärkeää: Power BI poistaa duplikaatit eli rivit, joilla on täsmälleen samat arvot. Jos haluat säilyttää kaikki rivit, niin lisää Value-alueelle myös kenttä, jossa jokaisella rivillä on eri arvo (tässä esimerkissä nro).

Python script editor on valmiina koodia varten. Lisättävän koodin toimivuus kannattaa ehdottomasti testata ohjelmointiympäristössä, jossa yleensä koodaat. Virheiden metsästäminen ja korjaaminen on Power BI:ssä työlästä.

Seuraavassa olen kopioinut koodin Python script editoriin:

powerbi4

Koodin voi suortittaa editorin oikean yläkulman Run script -painikkeella:

powerbi5

Yllä näkyvästä olen lisäksi poistanut Power BI:n tuottaman otsikon.

Ongelmia desimaalipilkkujen kanssa

Pythonia voi käyttää datan noutamiseen valitsemalla Get data – Other – Python script – Connect. Tämän jälkeen pääset kirjoittamaan koodin datan avaamiseen:

powerbi6

Tämä kuitenkin johtaa ongelmiin Suomessa:

Python käyttää aina desimaalierottimena pistettä.
PowerBI puolestaan tunnistaa pisteitä sisältävän tiedon päivämäärätyyppiseksi.

Seurauksen huomaa tietoa noudettaessa:

powerbi7

Tästä voi toki jatkaa Power Query Editoriin, jossa voi kumota päivämääräksi muuntamisen, korvata pisteet pilkuilla ja antaa sen jälkeen Power BI:n tunnistaa tietotyyppi. Useimmissa tapauksissa kannattanee kuitenkin välttää datan avaamista Python scriptillä.

Power Query Editorissa voit halutessasi muuntaa ja siivota dataa Python scripteillä. Run Python Script -painike löytyy Transform-välilehdeltä.

powerbi8

Toisaalta Power Query Editor tarjoaa monipuoliset toiminnot datan muuntamiseen ja siivoamiseen ilman Python scriptejäkin.

Lisätietoa

https://docs.microsoft.com/fi-fi/power-bi/connect-data/desktop-python-visuals

Lukumäärä- ja prosenttiyhteenvedot Pythonilla

Päivitetty 8.2.2024

Lukumäärä- ja prosenttiyhteenvedot tulevat kyseeseen seuraavissa tapauksissa:

Kategorisen muuttujan yhteenvetotaulukko (frekvenssitaulukko) tai frekvenssien esittäminen pylväskaaviona.
Määrällisen muuttujan luokiteltu jakauma frekvenssitaulukkona tai histogrammina.
Dummy-muuttujien (dikotomisten muuttujien) yhteenveto. Dummy-muuttujaksi kutsutaan muuttujaa, joka saa arvokseen joko 0 (joskus tämän sijasta käytetään tyhjää) tai 1. Esimerkiksi kyselytutkimuksessa monivalintakysymys, jonka vaihtoehdoista vastaaja saa valita useammankin kuin yhden, koodataan dummy-muuttujiksi: Jokainen kysymyksen vaihtoehto on muuttuja, joka saa arvokseen 1, jos vastaaja on sen valinnut. Muussa tapauksessa arvo on 0 tai tyhjä.
Kategoristen muuttujien välisen riippuvuuden tarkastelu ristiintaulukoimalla.

Frekvenssitaulukko

Frekvenssitaulukon lasken pandas-kirjaston crosstab-funktiolla.

Jos kategoristen muuttujien arvot eivät ole tekstimuodossa, niin määrittelen numeroiden tekstimuotoiset vastineet listoina. Listan voin sijoittaa taulukon indeksin arvoksi.

frekvenssitaulukko

Voin visualisoida lukumääriä tai prosentteja vaaka- tai pystypylväskaaviona. Yhteensä-rivin tietoja en esitä pylväänä. Jos esitän kaaviossa prosentteja, niin näytän n-arvon (lukumäärä, josta prosentit on laskettu; esimerkiksi edellisessä taulukossa n=81).

Tarkemmat yksityiskohdat selviävät esimerkistä.

Luokiteltu jakauma

Määrällisen muuttujan jakaumaan tutustun luokitellun jakauman avulla.

Pythonilla on helppo kokeilla erilaisia luokkien lukumääriä tai luokkarajoja tilanteeseen sopivan luokittelun löytämiseksi. Olen tottunut käyttämään luokitteluun kahta menetelmää:

Pandas kirjaston cut-funktiolla voin lisätä luokat alkuperäiseen dataan ja laatia sen jälkeen frekvenssitaulukon crosstab-funktiolla.
Mieluummin laadin histogrammin suoraan datasta seaborn kirjaston histplot-kaaviolajia käyttäen.

histogrammi

Tarkemmat yksityiskohdat selviävät esimerkistä.

Dummy-muuttujien yhteenveto

Yhteenvetoon mukaan otettavat muuttujat määrittelen listana. Tämän jälkeen lasken listan mukaisista muuttujista lukumäärät:

Jos dummy-muuttujan arvoina on ykkösiä (ja nollia tai tyhjiä) niin käytän sum-funktiota.
Jos dummy-muuttujan arvoina on ykkösten sijasta joitain muita numeroita ja tyhjiä niin käytän count-funktiota (laskee lukujen lukumäärän).

dummy

Tärkeää: Prosentit lasken kaikista vastaajista (=koko otoksesta). Taulukon yhteydessä täytyy ilmoittaa n-arvo (edellä n=82).

Tarkemmat yksityiskohdat selviävät esimerkistä.

Ristiintaulukointi

Kahden kategorisen muuttujan välinen riippuvuus selviää ristiintaulukoimalla. Laadin ristiintaulukoinnin crosstab-funktiolla.

Tärkeää: Jos selittävän muuttujan arvot ovat sarakkeissa, niin käytän prosentteja sarakkeen kokonaismäärästä (columns). Jos selittävän muuttujan arvot ovat riveillä, niin käytän prosentteja rivin kokonaismäärästä (index).

lkm4

Tärkeää: Jos käytän prosentteja niin minun on kerrottava mistä lukumääristä prosentit on laskettu (n-arvot). Edellä prosentit on laskettu naisten kohdalla naisten lukumäärästä (n=19) ja miesten kohdalla miesten lukumäärästä (n=62).

Jos otoksesta lasketussa ristiintaulukoinnissa on havaittavaa riippuvuutta, niin voin tarkistaa khiin neliö -testillä, onko riippuvuus tilastollisesti merkitsevää?

Tarkemmat yksityiskohdat selviävät esimerkistä.

value_counts()

Frekvenssitaulukot ja ristiintaulukoinnit voin siis laskea crosstab()-funktiolla, mutta taitavalle käyttäjälle value_counts() on kätevämpi ja antaa enemmän mahdollisuuksia.

Tarkemmat yksityiskohdat selviävät esimerkistä.

Määrälliset muuttujat pivot-kaaviona

Päivitetty 6.2.2019

pivotchart3.xlsx

Olethan opetellut artikkelissa Pivot-kaaviot kuvatut toimet ennen tämän artikkelin lukemista?

Määrälliset muuttujat mittaavat määrää: euroja, vuosia, metrejä, kiloja jne.

Seuraavien esimerkkien aineistot ja pivot-taulukot löydät tiedostosta pivotchart3.xlsx.

Ryhmittely

Jos haluan laskea määrällisen muuttujan arvojen esiintymiskertoja, niin yleensä tarvitsen ryhmittelyä. Tarkastelen esimerkkinä ikäjakauman esittämistä. Esimerkkiaineistona käytän tiedoston pivotchart3.xlsx Data-aineistoa.

Valitsen yhden ja vain yhden solun aineiston alueelta.
Valitsen Insert-välilehdeltä PivotChart. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
Pivot-kaavion rakenteen määrittelen PivotChart Fields -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
Raahaan ikä-muuttujan Values-ruutuun.
Vaihdan laskentaperusteeksi Sum sijasta Count.
Raahaan ikä-muuttujan Axis (Categories) -ruutuun.
Valitsen pivot-taulukosta solun, jossa on ensimmäinen ikä (20).
Valitsen Analyze-välilehdeltä Group Field (Ryhmän kenttä).

Grouping-ikkunassa voin tarvittaessa vaihtaa Excelin ehdottamia ryhmittelyn aloituskohtaa, päättymiskohtaa ja ryhmävälin suuruutta.

Räätälöity ryhmittely

Edellä kuvaamallani Group Field -toiminnolla saan vain tasavälisiä ryhmittelyitä, joissa ryhmävälin suuruus on sama kaikissa ryhmissä. Seuraavassa määrittelen iälle ryhmittelyn 20-29, 30-39, 40-49, 50+. Jatkan suoraan edellisen esimerkin pivot-kaaviosta.

Poistan aiemman iän ryhmittelyn (valitsen pivot-taulukosta ensimmäisen ikäryhmän solun ja valitsen Analyze-Ungroup (Pura ryhmittely).
Valitsen pivot-taulukosta solut, joissa on iät 20-29.
Valitsen Analyze-Group Selection (Ryhmän valinta).
Valitsen pivot-taulukosta solut, joissa on iät 30-39.
Valitsen Analyze-Goup Selection.
Toistan edellä kuvattuja vaiheita kunnes kaikki ryhmät on luotu.

Excel nimeää ryhmät Group1, Group2, jne. Voin kirjoittaa nimien tilalle kuvaavammat nimet. Ryhmän nimen vieressä on -/+ -painike, josta voin piilottaa tai näyttää ryhmän yksityiskohtaiset tiedot.

Seuraavassa olen nimennyt ensimmäisen ryhmän 20-29 ja olen piilottanut kolmen ensimmäisen ryhmän yksityiskohtaiset tiedot. Huomaa, että pivot-kaavio näyttää tiedot sellaisena kuin ne ovat pivot-taulukossa.

Itselläni on tapana tehdä ryhmittelyt etukäteen alkuperäiseen aineistoon. Lue lisää artikkelista Muuttujan arvojen ryhmittely ja muuttaminen.

Keskiarvo

Seuraavassa lasken palkkakeskiarvot koulutuksen mukaan:

Valitsen yhden ja vain yhden solun aineiston alueelta.
Valitsen Insert-välilehdeltä PivotChart. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
Pivot-kaavion rakenteen määrittelen PivotChart Fields -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
Raahaan palkka-muuttujan Values-ruutuun.
Vaihdan laskentaperusteeksi Count sijasta Average.
Raahaan koulutus-muuttujan Axis (Categories) -ruutuun.
Siirrän pivot-taulukon Peruskoulu-solun 2. aste -solun yläpuolelle, jolloin koulutukset menevät koulutuksen pituuden mukaiseen järjestykseen.

Viimeistelyn jälkeen pivot-kaavio voisi näyttää seuraavalta:

Vastausten lukumäärät (n) kirjoitin riviotsikoihin. Sain lukumäärät selville vaihtamalla hetkeksi laskentaperusteeksi Average sijasta Count.

Summa

Summa on käyttökelpoinen yhteenvetotapa esimerkiksi myyntitietojen yhteydessä. Seuraavassa käytän tiedoston pivotchart3.xlsx aineistoa Myynnit.

Valitsen yhden ja vain yhden solun aineiston alueelta.
Valitsen Insert-välilehdeltä PivotChart. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
Pivot-kaavion rakenteen määrittelen PivotChart Fields -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
Raahaan Hinta-muuttujan Values-ruutuun. Laskentaperuste on valmiiksi Sum, koska jokaisella rivillä on arvo Hinta-muuttujalla.
Raahaan Myyjä-muuttujan Axis (Categories) -ruutuun.

Voin järjestää myyntisummat suuruusjärjestykseen valitsemalla Pivot-taulukon tai Pivot-kaavion pudotusvalikosta More Sort Options ja järjestämällä Sum of Hinta -mukaiseen järjestykseen. Viimeistelyn jälkeen pivot-kaavio voisi näyttää seuraavalta:

Monivalinta pivot-kaaviona

Päivitetty 6.2.2019

pivotchart2.xlsx

Olethan opetellut artikkelissa Pivot-kaaviot kuvatut toimet ennen tämän artikkelin lukemista?

Monivalintakysymyksessä tarjotaan useita vaihtoehtoja, joista vastaaja voi valita useammankin kuin yhden. Jokainen monivalinnan vaihtoehto tallennetaan aineistoon omana sarakkeenaan. Jos vaihtoehto on valittu, niin aineistossa on arvo 1, muussa tapauksessa aineistoon voidaan jättää tyhjä kohta.

Seuraavassa käytän esimerkkinä kyselytutkimusaineistoa, jossa on kysytty työntekijän hyödyntämiä etuisuuksia: työterveyshuolto, lomaosake, kuntosali, hieroja. Esimerkkiaineisto ja pivot-kaaviot löytyvät tiedostosta pivotchart2.xlsx.

Valitsen yhden ja vain yhden solun aineiston alueelta.
Valitsen Insert-välilehdeltä PivotChart. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
Pivot-kaavion rakenteen määrittelen PivotChart Fields -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
Raahaan työterveyshuolto-muuttujan Values-ruutuun.
Raahaan lomaosake-muuttujan Values-ruutuun.
Raahaan kuntosali-muuttujan Values-ruutuun.
Raahaan hieroja-muuttujan Values-ruutuun.

Tässä vaiheessa lasketut arvot ovat pivot-taulukossa sarakkeittain, koska Excel on sijoittanut Values-palikan Legend (Series)-ruutuun. Pivot-kaaviossa tämä näkyy siten, että jokainen pylväs muodostaa oman arvosarjansa ja näkyy omalla värillään.

Raahaan Legend (Series)-ruudun Values-palikan Axis (Categories)-ruutuun.
Kirjoitan pivot-taulukkoon monivalinnan vaihtoehtojen nimet nimien Count of työterveyshuolto jne. tilalle. Excel ei kelpuuta muuttujan nimenä esiintyvää työterveyshuolto pivot-taulukon riviotsikoksi, joten lisään nimen perään välilyönnin.

Yleensä monivalinnan pylväät kannattaa järjestää pituusjärjestykseen.

Napsautan hiiren oikeaa painiketta jonkin pivot-taulukon lukumäärän päällä ja valitsen Sort – Sort Largest to Smallest.

Pienen viimeistelyn jälkeen pivot-kaavio voisi näyttää seuraavalta.

Jos haluan tarkastella asiaa ryhmittäin esimerkiksi sukupuolen mukaan, niin voin vielä raahata ryhmittelevän muuttujan Legend (Series) -ruutuun.

Pivot-kaaviot

Päivitetty 6.2.2019

pivotchart.xlsx

Tässä artikkelissa kirjoitan pylväskaavioista. Oletan, että osaat jo entuudestaan laatia ja muotoilla pylväskaavioita. Jollet osaa, niin opit perusasiat itseopiskelupaketista kaavio.xlsx.

Pivot-kaavioilla laadin nopeasti monipuolisia yhteenvetoja isosta aineistosta. Aineiston täytyy olla asianmukaiseen muotoon tallennettu artikkelin Tilastoaineiston tallentaminen mukaisesti. Tämän artikkelin esimerkeissä käytetyn aineiston ja pivot-kaaviot löydät tiedostosta pivotchart.xlsx.

Yksinkertainen pivot-kaavio

Tarkastelen pivot-kaaviota, josta näen kuinka moni työntekijä on kuinkakin tyytyväinen johtoon:

Valitsen yhden ja vain yhden solun aineiston alueelta.
Valitsen Insert-välilehdeltä PivotChart – PivotChart & PivotTable. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
Pivot-kaavion rakenteen määrittelen PivotChart Fields (Pivot-kaavion kentät) -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
Raahaan tyytyväisyys johtoon -muuttujan Values-ruutuun. Excel laskee havaintojen lukumäärän (jos havaintoja puuttuu) tai havaintojen summan (jos jokaisella aineiston rivillä on havainto). Muuttujan tyytyväisyys johtoon -tapauksessa Excel laskee havaintojen summan. Muutan tämän lukumääräksi.
Napsautan Values-ruutuun raahaamaani palikkaa. Valitsen esiin tulevasta pudotusvalikosta Value Field Settings (Arvokentän asetukset).
Valitsen Value Field Settings -ikkunassa laskentaperusteeksi Count (Määrä) ja napsautan OK.

Tässä vaiheessa pivot-kaavion pylväs esittää havaintojen lukumäärän.

Raahaan tyytyväisyys johtoon -muuttujan Axis (Categories) (Akseli) -ruutuun. Axis (Categories) on tarkoitettu kaavion luokka-akselin luokille. Tässä tapauksessa luokkia ovat muuttujan tyytyväisyys johtoon arvot 1, 2, 3, 4 ja 5. Arvojen sanalliset selitteet kirjoitan suoraan Pivot-taulukkoon numeroiden 1, 2, 3, 4 ja 5 tilalle.

Viimeistelyn jälkeen kaavio voisi näyttää seuraavalta:

Tavallisista kaavioista poiketen pivot-kaaviossa on ylimääräisiä ”painikkeita”, joiden avulla voin lajitella ja suodattaa. Jos kaavio on valittuna, niin voin piilottaa ylimääräiset painikkeet valitsemalla Analyze-välilehdeltä Field Buttons – Hide All (Kenttäpainikkeet – Piilota kaikki).

Ryhmitelty pivot-kaavio

Jos raahaan sukupuoli-muuttujan Legend (Series) (Selite) -ruutuun, niin tuloksena on ryhmitelty pylväskaavio, jossa on erikseen arvosarja miehille ja naisille. Jos kaaviossa ei ole selitettä (Legend), joka selittää värien merkityksen, niin se kannattaa lisätä.

Kun kaavio on valittuna, niin käytettävissä on Design (Rakenne) -välilehti. Kokeile Design-välilehden Switch Row/Column (Vaihda rivi tai sarake) -toimintoa. Seuraa muutoksia kenttäluettelossa, pivot-kaaviossa ja pivot-taulukossa niin opit ymmärtämään kaavion ja taulukon rakennetta.

Prosentteja lukumäärien sijasta

Jos haluan esittää lukumäärät prosentteina, niin napsautan oikean reunan kenttäluettelon Values-ruudun palikkaa ja valitsen esiin tulevasta valikosta Value Field Settings. Value Field Settings -ikkunasta valitsen Show Values As (Näytä arvot muodossa) -välilehden ja valitsen pudotusvalikosta esitystavaksi % of Column Total (Prosenttia sarakkeen summasta).

Pylväiden järjestys

Excel järjestää pivot-taulukon rivit ja pivot-kaavion pylväät luokkien mukaiseen numero/aakkosjärjestykseen. Voin vaihtaa järjestyksen pivot-taulukon Row Labels -pudotusvalikosta tai pivot-kaaviossa olevan painikkeen pudotusvalikosta (painike on näkyvillä, jollet ole piilottanut sitä Analyze – Field Buttons – Hide All -toiminnolla). Pudotusvalikon More Sort Options (Lisää lajitteluvaihtoehtoja) -valinnalla löydät tarjolla olevat vaihtoehdot:

Voit järjestää luokkien mukaiseen nousevaan tai laskevaan numero/aakkosjärjestyskeen.
Voit järjestää lukumäärien/prosenttien mukaiseen järjestykseen (eli pylväiden pituuden mukaiseen järjestykseen).

Jos haluat muunlaisen järjestyksen, niin voit siirtää hiirellä pivot-taulukon riviotsikoita riviltä toiselle. Jos esimerkiksi laadin pivot-kaavion koulutus-muuttujasta, niin luokkien mukainen numero/aakkkosjärjestys ei ole toivottu:

Valitsen pivot-taulukosta solun, jossa on teksti Peruskoulu ja raahaan solun reunasta kiinni pitäen ensimmäiseksi, jonka jälkeen koulutukset ovat koulutuksen pituuden mukaisessa järjestyksessä.

Puuttuvat havainnot (blank)

Jos käytän koulutus-muuttujaa Values-ruudussa, niin pivot-taulukon ja pivot-kaavion (blank) viittaa puuttuviin havaintoihin. Puuttuvien havaintojen lukumäärä ei kuitenkaan ole näkyvillä.

Selitys: Excel laskee kuinka monta havaintoarvoa on koulutus-sarakkeen niissä soluissa, joista koulutus puuttuu. Vastaus on tietenkin: ei yhtään.

Ratkaisu: Käytän Values-ruudussa koulutus-muuttujan sijasta nro-muuttujaa (laskentatavaksi täytyy muuttaa sum sijasta count), jolla on havainto jokaisella rivillä.

Jos aineistossa ei ole valmiiksi juoksevaa numerointia, niin sellainen kannattaa lisätä. Tätä juoksevaa numerointia kannattaa käyttää pivot-kaavioiden Values-ruudussa jos olet laskemassa lukumääriä tai lukumääriin pohjautuvia prosentteja. Näin saan tietää myös puuttuvien havaintojen lukumäärän.

Seuraavaksi

Lue myös pivot-kaavioista kirjoittamani jatkoartikkelit:

Sparkline-kaaviot

Päivitetty 2.2.2019

sparklin.xlsx

Hyvin laaditusta taulukosta on helppo tarkastella yksittäisiä numeroita. Tämän lisäksi usein on tarpeen saada kokonaisnäkemys numeroiden kehityssuunasta tai jakaumasta. Sparklines-kaaviot ovat helppo ja nopea tapa kokonaisnäkemyksen muodostamiseen.

Seuraavaan taulukkoon on kirjattu myynnin määrät miljoonina euroina neljällä eri alueella vuosineljänneksittäin. Taulukon viereen lisätyt sparkline-viivat näyttävät myynnin kehityksen kullakin alueella. Taulukon alapuolelle lisätyt sparkline-pylväät näyttävät myynnin alueittaisen jakauman kullakin vuosineljänneksellä.

Voin lisätä Sparkline-kaavioita seuraavasti:

Valitsen solut, joihin haluan Sparkline-kaaviot.
Valitsen Insert (Lisää) -välilehdeltä Sparkline-kaavion.
Määritysikkunassa määritän, mistä arvoalueesta luon Sparkline-kaaviot.
OK.

Kun napsautan Sparkline-kaavioita, niin kaikki samalla kertaa luodut Sparkline-kaaviot tulevat valituiksi. Voin säätää valittuja kaavioita Design (Rakenne) -välilehdellä. Erityisesti tarkistan Axis (Akseli) -asetukset. Edellä olleessa esimerkissä olen säätänyt pylväiden pystyakselin pienimmäksi arvoksi 0 ja suurimman arvon samaksi kaikissa kaavioissa. Edellä olleessa esimerkissä en ole yhdenmukaistanut Sparkline-viivojen pystyakselia. Tällöin en voi vertailla Sparkline-viivoista myynnin määriä eri alueilla. Sen sijaan näen selkeästi myynnin kehityksen kullakin alueella.

Kannattaa tutustua ja kokeilla myös muihin Design (Rakenne) -välilehden asetuksiin.

Opi lisää Excel-esimerkeistä sparklin.xlsx.

Taulukoita ja pylväitä

Päivitetty 2.2.2019

taulpylv.xlsx

Nykyaikainen yhteiskunta pyörii numeroiden ympärillä. Päätöksiä tehdään numeroiden pohjalta. Ei ole yhdentekevää, mistä numerot tulevat? Luotettavasta lähteestä asianmukaisia menetelmiä käyttäen tuotetut numerot ovat painavampia kuin epämääräisestä lähteestä peräisin olevat numerot. Useimmat päätöksenteossa käytettävät numerot ovat tiedon keräämisen ja jalostamisen tuloksia.

Tiedon kerääminen

Tietoa kerätään muiden muassa seuraavilla tavoilla:

Yritysten tietokantoihin tietoa kerääntyy päivittäisten toimintojen seurauksena (myyntitietoja, laskutustietoja, asiakaspalautteita, yrityksen nettisivujen käyttäjätilastoja jne.)
Monien laitosten ja instituutioiden tehtäviin kuuluu tietojen kerääminen (Tilastokeskus, Suomen Pankki, ETLA jne.)
Ihmisten mielipiteitä (asiakastyytyväisyydestä, ostoaikeista, työtyytyväisyydestä jne.) kerätään kyselylomakkeilla.

On tärkeää, että tiedon lähde ja keruutapa on hyvin dokumentoitu. Näin voidaan arvioida kerätyn tiedon luotettavuutta.

Tiedon jalostaminen

Kerätyt tiedot ovat harvoin sellaisenaan käyttökelpoisia päätöksenteossa. Tiedoista jalostetaan yhteenvetoja ja analyyseja, joista saadaan päätöksenteossa hyödynnettäviä numeroita.

On tärkeää, että yhteenvetojen ja analyysien laskentamenetelmät ovat hyvin dokumentoitu. Numeroillahan ei ole mitään arvoa, jos niiden luotettavuudesta ei ole takeita.

Taulukoita ja pylväitä

Numerot (lukumäärät, prosentit, eurot, keskiarvot jne.) esitetään yleensä taulukoina. Taulukko on selkeä ja täsmällinen esitystapa, jonka etuja ovat ainakin seuraavat:

Hyvin laadittu taulukko esittää numerotiedon tarkasti ja täsmällisesti ja täyttää vaativankin lukijan tiedon tarpeen.
Samassa taulukossa voidaan esittää sekä lukumääriä että prosentteja.
Samassa taulukossa voidaan esittää useita tunnuslukuja, esimerkiksi keskiarvo, keskihajonta, n-arvo jne.

Taulukon sisältöä voin rikastaa tekemällä vertailuja ja/tai prosentuaalisia vertailuja esimerkiksi koko otokseen, aiempaan ajankohtaan tai toiseen tutkimukseen.

Joissain tapauksissa on hyödyllistä havainnollistaa taulukon sisältöä pylväskuviona. Pylväskuvion etuja ovat ainakin seuraavat:

Hyvin laadittu kuvio voi antaa yhdellä silmäyksellä havainnollisen yhteenvedon arvojen jakaumasta.
Numeroihin tottumaton lukija vertailee pylväiden pituuksia helpommin kuin numeroita.

Olen kerännyt sinua varten hyviä ja suositeltavia käytänteitä taulukoiden ja pylväiden käyttöön. Toivottavasti saat Excel-tiedoston taulpylv.xlsx esimerkeistä ideoita ja malleja omiin taulukoihin ja pylväskuvioihin.

Visuaalinen taulukko

Päivitetty 9.4.2021

Tämän artikkelin esimerkkitaulukot vistaul.xlsx

Huomautus: Jos oman organisaatiosi raportointiohje on ristiriidassa tämän artikkelin suositusten kanssa, niin noudata oman organisaatiosi raportointiohjetta.

Numerot pääosassa

Jos tarkoitat taulukon muiden luettavaksi, niin taulukon ulkoasu kannattaa viimeistellä harkiten.

Numerot ovat taulukon varsinainen sisältö. Hyvässä taulukossa numerot ovat pääosassa ja helposti luettavissa. Tasaa luvut solun oikeaan reunaan. Luettavuuden parantamiseksi myös sarakeotsikot kannattaa tasata samalla tavalla solun oikeaan reunaan. Säädä esitettävien lukujen tarkkuus lukijalle sopivaksi:

Desimaaleja vain sen verran kuin arvelet lukijan tarvitsevan.
Isot luvut vain sillä tarkkuudella kuin arvelet lukijan tarvitsevan. Jos esität lukuja esimerkiksi miljoonien tarkkuudella, niin voit lyhentää luvut. Tällöin tietenkin ilmoitat sarakeotsikossa tai taulukon otsikossa esitettyjen lukujen yksikön.

Tekstiä tarvitaan otsikoiksi ja selitykseksi sen verran että lukija voi ymmärtää taulukon asiayhteydestään irrotettunakin.

Järjestä ja ryhmittele taulukon tiedot mahdollisimman havainnollisesti. Käytä ryhmittelyn apuna ensisijaisesti tyhjää tilaa. Joissain tapauksissa voit käyttää hillittyä vaakaviivaa. Isojen taulukoiden luettavuutta voit parantaa asettamalla joka toisen rivin taustaväriksi esimerkiksi vaalean harmaan.

Taulukossa 1 on paljon lukuja. Luettavuuden parantamiseksi on käytetty seuraavia keinoja:

Luvut on lyhennetty miljooniksi euroiksi.
Lukujen luettavuutta on parannettu tuhat-erottimella (väli kolmen viimeisen numeron (satojen miljoonien) edessä.
Otsikot on erotettu muusta tiedosto hillityillä harmailla viivoilla.
Sarakkeiden väliin on jätetty tyhjää tilaa luettavuuden helpottamiseksi.
Rivien luettavuutta on helpotettu joka toisen rivin vaalean harmaalla taustalla.
Yhden rivin kohdalla on jaettu riviotsikko kahdelle riville, koska muutoin taulukko ei olisi mahtunut sivun leveyteen.

Taulukko 1. Yritysten velat, milj. euroa (Lähde: Rahoitustilinpito, Tilastokeskus 2013)

Jos haluat korostaa joitain taulukon osia, niin hillitty taustaväri tai kehys sopii hyvin tarkoitukseen. Myös fontin väriä, lihavointia tai kursivointia voi harkiten käyttää.

Taulukossa 2 lukijan huomio kiinnitetään siihen, että kahden koulutusalan kohdalla uusien opiskelijoiden lukumäärä on pudonnut selvästi.

Taulukko 2. Ammattikorkeakoulujen opiskelijat koulutusalan mukaan 2012-2013 (Lähde: Ammattikorkeakoulutus, Tilastokeskus 2013)

Lähde näkyviin

Jos tieto on peräisin muualta kuin itseltäsi, niin kerro tiedon lähde. Näin on menetelty taulukossa 1 ja taulukossa 2.

Muista n

Jos esität taulukossa prosentteja, niin lukijan täytyy nähdä lukumäärä (n), josta prosentit on laskettu. Jos esität taulukossa keskiarvoja tai muita tunnuslukuja, niin lukijan täytyy nähdä niiden arvojen lukumäärä (n), joiden pohjalta tunnusluku on laskettu.

Taulukossa 3 n nähdään taulukon viimeiseltä riviltä (Vastauksia).

Taulukko 3. Kanta väittämään ’Taustamusiikiksi sopii jazz’ asiakkuuden potentiaalisuuden mukaan

Järjestä

Jos taulukossa esitettävillä asioilla ei ole luontaista järjestystä, niin järjestä numerotiedon mukaiseen järjestykseen (lukumäärän, prosentin, keskiarvon jne. mukaan). Taulukko 4 on järjestetty tyytyväisyyskeskiarvojen mukaiseen järjestykseen.

Taulukko 4. Tyytyväisyyskeskiarvoja, asteikko 1-5 (1=erittäin tyytymätön, 5=erittäin tyytyväinen)

Aiemmin esitetyn taulukon 2 järjestys voi näyttää mielivaltaiselta. Se ei kuitenkaan ole mielivaltainen, vaan on peräisin Opetushallinnon koulutusluokituksesta.

Fontti

Jos taulukko on raportin osana, niin fontin ei tarvitse välttämättä olla sama kuin raportin tekstin fontti. Tärkeintä on, että taulukosta toiseen käytetään samaa fonttia.

Taulukon fonttikoko voi olla sama tai hieman pienempi kuin raportin tekstin fonttikoko. Ison taulukon voi esittää muita taulukoita pienemmällä fontilla, mutta tämä ei ole suotavaa.

Liian iso taulukko

Jos taulukko ei mahdu sivulle, niin mieti

onko kaikki taulukossa esitettävä välttämätöntä vai voitko karsia jotain pois
voitko pilkkoa taulukon useammaksi pienemmäksi taulukoksi
jos kyseessä on aikasarja, niin voitko esittää sen taulukon sijasta viivakaaviona.

Leveyssuunnassa liian ison taulukon voit sijoittaa sivulle pienennettynä. Tämä ei näytä kovin hyvältä ja on vaikeasti luettava erityisesti heikkonäköiselle.

Taulukko 5. Kanta väittämään ’Taustamusiikiksi sopii jazz’ asiakkuuden potentiaalisuuden ja sukupuolen mukaan (taulukko on liian leveä ja sitä on pienennetty)

Joissain tapauksissa leveän taulukon voi luontevasti kaventaa sijoittamalla taulukon osia allekkain. Taulukon 5 sisältö voidaankin esittää taulukkona 6 ilman pienentämistä.

Taulukko 6. Kanta väittämään ’Taustamusiikiksi sopii jazz’ asiakkuuden potentiaalisuuden ja sukupuolen mukaan (parempi esitystapa kuin taulukko 5)

Taulukko vai graafinen esittäminen?

Valitse esitystapa tarkoituksen ja lukijan mukaan.

Taulukon etuja ovat ainakin seuraavat:

Hyvin laadittu taulukko esittää numerotiedon tarkasti ja täsmällisesti ja täyttää vaativankin lukijan tiedon tarpeen.
Samassa taulukossa voidaan esittää sekä lukumääriä että prosentteja.
Samassa taulukossa voidaan esittää useita tunnuslukuja, esimerkiksi keskiarvo, keskihajonta, n-arvo jne.

Graafisen esittämisen etuja ovat ainakin seuraavat:

Hyvin laadittu kaavio voi antaa yhdellä silmäyksellä havainnollisen yhteenvedon tarkasteltavasta asiasta.
Numeroihin tottumaton lukija vertailee pylväiden pituuksia helpommin kuin numeroita.
Ajallista kehitystä on helpompi seurata viivakaaviosta kuin numerotaulukosta.

Usein kysyttyä

Kysymys: Eikö taulukko kannattaisi viivoittaa vaaka- ja pystyviivoin, jotta taulukon tiedot erottuisivat paremmin toisistaan?

Vastaus: Vertaa seuraavia taulukoita:

Viivoitetussa taulukossa katse kiinnittyy helposti viivoitukseen eikä taulukon pääosassa oleviin lukuihin.

Tämän artikkelin esimerkkitaulukot vistaul.xlsx

Ruutu- ja janakaavio

Päivitetty 2.2.2019

tunnuslukuja.xlsx

Ruutu- ja janakaavio

Viiden luvun yhteenvedon voin havainnollistaa ruutu- ja janakaavion avulla. Ruutu- ja janakaaviolla on monta nimeä: laatikko- ja viiksikaavio, laatikko- ja viivakaavio, box & whisker -kaavio, boxplot.

Ruutu- ja janakaavion rakenneosat ovat ruutu ja ruudun päistä lähtevät janat:

Ruudun alareuna vastaa alaneljännestä ja yläreuna yläneljännestä. Ruudun sisään piirretty viiva vastaa mediaania ja rasti keskiarvoa.
Janojen päät vastaavat pienintä ja suurinta. Jos datassa on niin kutsuttuja poikkeavia arvoja, niin ne esitetään janan ulkopuolisina pisteintä. Poikkeavaksi arvoksi lasketaan arvo, joka on yli 1,5 laatikon korkeuden päässä laatikon reunasta.

Seuraavassa esitän neljän rahastoluokan tuottojen jakaumaa heinäkuussa 2015 (Lähde: Sijoitustutkimus, n vaihtelee välillä 32-58).

tunnuslukuja5

Kaikkein pienimmät tuotot ovat kehittyville markkinoille sijoittavissa rahastoissa ja suurimmat Pohjois-Amerikkaan sijoittavissa rahastoissa. Tuotot ovat vaihdelleet eniten Pohjois-Amerkikkaan sijoittavissa rahastoissa. Eurooppaan sijoittavissa rahastoissa tuotoissa ei ole paljoa vaihtelua, mutta huomiota kiinnittää muutama poikkeavan tuoton omaava rahasto sekä ylä- että alapäässä.

Ruutu- ja janakaavio voi epäonnistua, jos et huomioi seuraavia vinkkejä:

VINKKI 1: Jos ryhmittelevän muuttujan arvot ovat datassa numeroita (esimerkiksi 1=mies ja 2=nainen), niin data pitää lajitella (järjestää) ryhmittelevän muuttujan mukaan kaavion onnistumiseksi.

VINKKI 2: Jos ryhmittelevän muuttujan arvot ovat datassa numeroita (esimerkiksi 1=mies ja 2=nainen), niin en valitse ryhmittelevän muuttujan arvoja ennen kaaviolajin valitsemista, vaan teen kaavion aluksi vain muuttujalle, jolle lasken viiden luvun yhteenvedon. Tämän jälkeen valitsen kaavionmuokkaustyökalujen Design (Rakenne) -välilehdeltä Select Data (Valitse tiedot). Select Data -toiminnolla pääsen lisäämään sukupuolet luokka-akselin otsikoiksi (Category Axis Labels).

VINKKI 3: Jos ryhmittelevän muuttujan arvot ovat datassa tarkasteltavan muuttujan oikealla puolella, niin en valitse ryhmittelevän muuttujan arvoja ennen kaaviolajin valitsemista, vaan teen kaavion aluksi vain muuttujalle, jolle lasken viiden luvun yhteenvedon. Tämän jälkeen valitsen kaavionmuokkaustyökalujen Design (Rakenne) -välilehdeltä Select Data (Valitse tiedot). Select Data -toiminnolla pääsen lisäämään ryhmittelevän muuttujan arvot luokka-akselin otsikoiksi (Category Axis Labels).

Lisätietoa

Tämän oppii vain tekemällä itse. Harjoittele työkirjalla tunnuslukuja.xlsx.

Säteittäinen kaavio

Päivitetty 26.3.2013

Oheinen kaavio esittää miesten ja naisten tyytyväisyyskeskiarvoja (tyytyväisyys mitattu asteikolla 1-5; 1=erittäin tyytymätön, 5=erittäin tyytyväinen).

Kaaviosta näen helposti, että naisten tyytyväisyyskeskiarvo on selvästi suurempi johdon, työympäristön ja palkan kohdalla.

Kaaviolajin nimi on Excelissä Radar (Säteittäinen). Äskeisen kaavion loin seuraavan taulukon pohjalta:

Akselin vaihdoin alkamaan nollan sijaan arvosta yksi, koska tyytyväisyysasteikon pienin arvo on yksi. Akselin ominaisuuksiin pääsen napsauttamalla hiiren kakkospainiketta akselin (säteen) päällä ja valitsemalla Format Axis (Muotoile akseli).

Säteittäisessä kaaviossa kullakin luokalla on oma arvoakseli (säde). Äskeisessä kaaviossa luokkia ovat tyytyväisyys johtoon, tyytyväisyys työtovereihin jne. Arvoakselina on tyytyväisyys 1-5. Säteittäinen kaavio soveltuu erityisesti tilanteisiin, joissa vertaillaan kahta arvosarjaa, kuten edellä miesten keskiarvoja ja naisten keskiarvoja.

Excelin väriasteikot

Päivitetty 1.2.2019.

Voin havainnollistaa taulukon lukuja värjäämällä solut lukuarvosta riippuvalla värillä:

Valitsen solut, joiden sisältämiä lukuja haluan havainnollistaa.
Valitsen Home (Aloitus) -välilehdeltä Conditional Formatting – Color Scales (Ehdollinen muotoilu – Väriasteikot) ja valitsen haluamani väriasteikon. Valittavana on kaksivärisiä (2-Color Scale) ja kolmivärisiä (3-Color Scale) asteikoita.

Esimerkiksi seuraavassa havainnollista 5-portaisen mielipideasteikon tyytyväisyyskeskiarvoja kolmivärisellä asteikolla. Keskikohtaa (3) pienemmät arvot ovat sitä punaisempia mitä kauempana ne ovat keskikohdasta. Keskikohta (3) on valkoinen. Keskikohtaa (3) suuremmat arvot ovat sitä sinisempiä mitä kauempana ne ovat keskikohdasta.

Voin vaihtaa väriasteikon ominaisuuksia:

Valitsen väriasteikolla varusteutut solut (yhden solun valitseminenkin riittää).
Valitsen Home (Aloitus) -välilehdeltä Conditional Formatting – Manage Rules (Ehdollinen muotoilu – Hallitse sääntöjä).
Napsautan Edit Rule (Muokkaa sääntöä) -painiketta. Jos samoihin soluihin kohdistuu useampia ehdollisen muotoilun sääntöjä, niin ennen Edit Rule -painikkeen napsauttamista napsautan sääntöä, jota haluan muuttaa.

Seuraavassa olen määrittänyt kolmivärisen asteikon, jossa pienin arvo 1 on punainen, arvo 3 on valkoinen ja suurin arvo 5 on sininen.

Pääsen eroon väriasteikosta valitsemalla Home (Aloitus) -välilehdeltä Conditional Formatting – Clear Rules (Ehdollinen muotoilu – Poista säännöt). Voin valita, poistanko valittujen solujen säännöt vai koko laskentataulukon säännöt.

Huomaathan, että mustavalkotulostukseen tarkoitetuissa esityksissä ei pidä käyttää väriasteikkoa.

Excelin tietopalkit

Päivitetty 2.2.2019.

Voin havainnollistaa taulukon lukuja lisäämällä tietopalkit suoraan lukuja sisältäviin soluihin:

Valitsen solut, joiden sisältämiä lukuja haluan havainnollistaa.
Valitsen Home (Aloitus) -välilehdeltä Conditional Formatting – Data Bars (Ehdollinen muotoilu – Tietopalkit) ja valitsen haluamani värin.

Palkkien pituus määräytyy siten että suurimman luvun omaavan solun tietopalkki on koko solun mittainen (vasemmanpuoleisimmat palkit seuraavassa kuvassa).

Voin vaihtaa palkkien ominaisuuksia:

Valitsen solut, joissa palkit ovat (yhden solun valitseminenkin riittää).
Valitsen Home (Aloitus) -välilehdeltä Conditional Formatting – Manage Rules (Ehdollinen muotoilu – Hallitse sääntöjä).
Napsautan Edit Rule (Muokkaa sääntöä) -painiketta. Jos samoihin soluihin kohdistuu useampia ehdollisen muotoilun sääntöjä, niin ennen Edit Rule -painikkeen napsauttamista napsautan sääntöä, jota haluan muuttaa.

Seuraavassa olen muuttanut palkkien minimiä (1) ja maksimia (5). Edellisen kuvan keskimmäisissä palkeissa näet muutoksen vaikutuksen. Voisin myös valita näytettäväksi pelkästään palkit (Show Bar Only) kuten edellisen kuvan oikeanpuoleisimmissa palkeissa.

Vaihtamalla palkkien suuntaa (Bar Direction) voin toteuttaa esimerkiksi seuraavan kuvan palkit (olen vaihtanut miesten palkkien suunnan).

Pääsen eroon palkeista valitsemalla Home (Aloitus) -välilehdeltä Conditional Formatting – Clear Rules (Ehdollinen muotoilu – Poista säännöt). Voin valita, poistanko valittujen solujen säännöt vai koko laskentataulukon säännöt.

Graafinen esittäminen

Päivitetty 1.2.2019

Excel-kaavioiden perusteet kaavio.xlsx
Aikasarjojen esittäminen aikasarjat.xlsx
Harvinaisempia kaavioita kaavio2.xlsx

Monissa tapauksissa voin havainnollistaa numerotaulukon sisältöä graafisesti. Pidän kuitenkin mielessä kohderyhmän. Numeroihin tottuneelle ja tarkkaa tietoa kaipaavalle kohderyhmälle esitän mieluummin numeroita sisältävän taulukon. Nopeaa yhteenvetoa kaipaavalle ja/tai numeroihin tottumattomalle kohderyhmälle havainnollistan numerotaulukon graafisesti.

Pidän kaaviota laatiessa mielessäni, että laadin kaavion jollekin toiselle, en itselleni. Yritän asettua kaavion katsojan asemaan ja huomioin seuraavat seikat:

Kaaviolla tulee olla tarkoitus ja tehtävä: minkä tiedon/viestin haluan välittää katsojalle?
Kaaviolla tulee olla kohderyhmä: kenelle kaavio on tarkoitettu?
Kokeilen eri vaihtoehtoja ja valitsen tarkoitukseen ja kohderyhmälle parhaiten sopivan esitystavan.
Kaavion tulee olla selkeä ja helposti ymmärrettävä.
Johdatan katsojan huomion esitettävään tietoon/viestiin, en kaavion tehosteisiin.
Esitän tiedot peittelemättä ja rehellisesti.
Otsikoin akselit ja esitän käytetyt yksiköt selkeästi.
Ilmoitan tiedon lähteen, jos tieto on peräisin ulkopuolisesta lähteestä.
Lisään tarvittaessa kaavioon huomautuksia korostaakseni epätavallisten tai poikkeavien arvojen syitä.
Yhdistän kaavion luontevasti sitä edeltävään tai seuraavaan sanalliseen selitykseen, jossa kerron mihin seikkoihin katsojan kannattaa kaaviossa kiinnittää huomioita. Huomion arvoisia seikkoja ovat yleensä erot, riippuvuudet, poikkeukset tai kehityssuunnat.

Arvosarjat

Kaaviossa esitän yhden tai useampia arvosarjoja (data series). Arvosarjat voivat ilmetä kaaviossa esimerkiksi seuraavilla tavoilla:

Jos esitän yhden arvosarjan pylväskaaviona, niin kaaviossa on vain yhden värisiä pylväitä. Yksi pylväs vastaa aina yhtä arvosarjan arvoa.
Jos esitän pylväskaaviossa useamman arvosarjan, niin jokaista arvosarjaa vastaavat oman värisensä pylväät.
Jos esitän viivakaaviossa yhden arvosarjan, niin kaaviossa on yksi viiva.
Jos esitän viivakaaviossa useamman arvosarjan, niin kaaviossa on yksi viiva jokaiselle arvosarjalle.
Piirakkakaaviossa piirakan siivut vastaavat arvosarjan arvoja.
Hajontakaaviossa on kaksi yhtä monta arvoa sisältävää arvosarjaa. Ensimmäisen sarjan arvoakselina on vaaka-akseli ja toisen sarjan arvoakselina pystyakseli. Arvosarjojen arvot muodostavat pareja. Jokaista paria vastaa hajontakaavion piste.

Onnistuneen kaavion laatimiseksi arvosarjan arvojen täytyy olla Excel-taulukossa allekkain tai vierekkäin. Taulukkoon kannattaa lisätä otsikot:

Koko arvosarjan otsikko (nimi) välittömästi arvosarjan yläpuolelle (jos arvosarjan arvot allekkain) tai vasemmalle puolelle (jos arvosarjan arvot vierekkäin).
Jos arvosarjan yksittäisillä arvoilla on otsikot, niin ne kannattaa sijoittaa taulukkoon arvosarjan vasemmalle puolelle (jos arvosarjan arvot allekkain) tai yläpuolelle (jos arvosarjan arvot vierekkäin).

Yllä näkyvän taulukon kaksi arvosarjaa ovat 17, 15, 6 ja 8, 15, 21. Arvosarjojen nimet ovat Mies ja Nainen. Arvosarjojen yksittäisten arvojen otsikot ovat Tyytymätön, Ei tyytymätön eikä tyytyväinen ja Tyytyväinen. Taulukon arvosarjat voin esittää kaaviona esimerkiksi seuraavasti:

Arvosarjat erottuvat toisistaan eri värisinä ja värit selitetään selitteessä (Legend). Yksittäisten arvojen nimet näkyvät luokka-akselilla (Category axis) ja arvojen suuruus arvoakselilla (Value axis).

Opit kaavioiden laatimiseen liittyvät keskeiset taidot käymällä läpi itseopiskelupaketin kaavio.xlsx ohjein varustetut esimerkit.

Kaaviolajeja

Excelissä on tarjolla monia kaaviolajeja. Suosin useimmille tuttuja kaaviolajeja: vaakapylväskaavio, pystypylväskaavio, viivakaavio ja hajontakaavio.

Vaakapylväskaavio

Excelissä vaakapylväskaaviota kutsutaan palkkikaavioksi (Bar). Vaakapylväskaavio sopii lukumäärien, rahamäärien, prosenttien ja keskiarvojen esittämiseen.

Pystypylväskaavio

Pystypylväskaavio (Column) sopii samankaltaisiin tilanteisiin kuin vaakapylväskaaviokin. Jos pylväät esittävät määrällisen muuttujan luokkia, esimerkiksi palkkaluokkia, niin pylväät laitetaan kiinni toisiinsa.

Viivakaavio

Viivakaavio (Line) on havainnollisin tapa esittää ajallista kehitystä. Esimerkiksi kuukausimyynnit 12 kuukauden ajalta tai bensiinin hinta päivittäin viimeisen kuukauden ajalta kannattaa esittää viivakaaviona. Yksityiskohtaista tietoa ja hyviä niksejä aikasarjojen esittämiseen löydät itseopiskelupaketista aikasarjat.xlsx.

Hajontakaavio

Excelissä hajontakaaviota kutsutaan pistekaavioksi (Scatter). Hajontakaaviosta käytetään myös nimitystä sirontakaavio. Hajontakaavion taustalla on kaksi samanmittaista arvosarjaa, joiden arvot muodostavat pareja. Hajontakaavion avulla nähdään, onko kahden arvosarjan välillä riippuvuutta. Esimerkiksi seuraavasta hajontakaaviosta näen, onko opiskelijan kurssin aikana tekemien harjoitusten lukumäärän ja tenttipisteidän välillä riippuvuutta?

Piirakkakaavio

Excelissä piirakkakaaviota kutsutaan ympyräkaavioksi (Pie). Piirakkakaaviolla voin havainnollistaa kokonaisuuden jakaantumista osiin. Piirakkakaaviota käytettäessä kaikkien kokonaisuuden osien täytyy olla mukana: Jos esimerkiksi esitän älypuhelintyyppien (Android, iPhone, Windows Phone) markkinaosuuksia piirakkana, niin mukana täytyy olla myös siivu edustamassa muita puhelintyyppejä.

Piirakkakaavion käyttöä kohtaan voidaan esittää kritiikkiä. Lue lisää artikkelista Paha piirakkakaavio.

Harvinaisempia kaavioita

Haluaisitko laatia Excelillä pyramidikaavion, mielipideprofiilin, Ganttin kaavion tai funktion kuvaajan. Onnistuu: kaavio2.xlsx.

Paha piirakkakaavio

Päivitetty 28.3.2013

Numerotietoa voidaan havainnollistaa kaavion avulla. Kaavio täyttää tarkoituksensa jos se pelkistää esitettävän asian helposti ymmärrettävään muotoon ja jos sen avulla lukija hahmottaa tiedon nopeammin kuin pelkkinä numeroina esitettynä. Piirakkakaavio on suosittu havainnollistamistapa. Suosiostaan huolimatta piirakkakaavion havainnollisuuden voi kyseenalaistaa.

Kahta lukua ei tarvitse havainnollistaa kaaviona

Kahden prosenttiluvun esittäminen piirakkakaaviona on tilaa vievä esitystapa. Monilla on tapana käyttää paljon vieressä olevaa kookkaampia piirakoita. Piirakka on myöskin epätarkka. Vai osaatko päätellä siivujen prosenttiosuudet ilman, että prosenttiluvut ovat kaaviossa näkyvillä? Saman tiedon saan ilmaistua täsmällisemmin ja lyhyemmin suorasanaisessa lauseessa: Tutkituista 7,5 % (24 kpl) oli naisia ja 92,5 % (296 kpl) miehiä. Mielestäni kahden prosenttiluvun tapauksessa suoransanainen kertominen on riittävän havainnollinen.

Pylväskaavio toimi piirakkakuviota paremmin

En voi suositella piirakkakaaviota useammankaan prosenttiluvun esittämiseen. Vai mitä mieltä olet piirakkakaavion tarkkuudesta ja havainnollisuudesta verrattuna vaakapylväskaavioon?

Piirakkakaavion siivujen kokojen silmämääräinen vertailu ei ole helppoa. Yllä olevasta piirakkakaaviosta näen, että siivut ovat kuta kuinkin samankokoisia. Samoista luvuista tehty pylväskaavio sen sijaan paljastaa välittömästi, että C on suurin ja A on yhtäsuuri kuin B.

Erikoistehosteet vain pahentavat asiaa

Kolmiulotteiseksi tehostetun piirakkakaavion siivujen kokojen silmämääräinen vertailu on suorastaan mahdotonta. Osaisitko pelkän piirakkakaavion perusteella päätellä, että D on täsmälleen yhtäsuuri kuin A tai B?

Samoista luvuista tehty pylväskuvio paljastaa heti, että A, B ja D ovat samansuuruisia. Tilanne pahenee tästäkin, jos yksi tai useampia piirakkakaavion siivuista on repäisty piirakasta irralleen.

Piirakkakaaviota pahempi on monta piirakkakaaviota

Pahempi kuin piirakkakaavio on monta piirakkakaaviota. Koetapa vertailla onko siivujen A, B, C, D ja E kokojen järjestys erilainen eri piirakoissa. Tarkkasilmäinen ehkä pystyy huolellisen tarkastelun jälkeen vertailun tekemään, mutta havainnolliseksi esitystapaa ei voi sanoa.

Samoista luvuista laadittujen pylväskaavioiden avulla vertailu onnistuu. Vasemmanpuoleisen kaavion tapauksessa A, B, C, D ja E muodostavat nousevan sarjan. Keskimmäisessä kaaviossa C on pienin ja D suurin. Oikeanpuoleisessa kaaviossa A, B, C, D ja E muodostavat laskevan sarjan.

Yhteenveto

Älä käytä piirakkakaaviota. Älä ainakaan tutkimusraportissa.

Käyttöönotto

Visualisointi Pythonilla

Ongelmia desimaalipilkkujen kanssa

Lisätietoa

Jaa tämä:

Frekvenssitaulukko

Luokiteltu jakauma

Dummy-muuttujien yhteenveto

Ristiintaulukointi

value_counts()

Jaa tämä:

Ryhmittely

Räätälöity ryhmittely

Keskiarvo

Summa

Jaa tämä:

Jaa tämä:

Yksinkertainen pivot-kaavio

Ryhmitelty pivot-kaavio

Prosentteja lukumäärien sijasta

Pylväiden järjestys

Puuttuvat havainnot (blank)

Seuraavaksi

Jaa tämä:

Jaa tämä:

Tiedon kerääminen

Tiedon jalostaminen

Taulukoita ja pylväitä

Jaa tämä:

Numerot pääosassa

Lähde näkyviin

Muista n

Järjestä

Fontti

Liian iso taulukko

Taulukko vai graafinen esittäminen?

Usein kysyttyä

Jaa tämä:

Ruutu- ja janakaavio

Lisätietoa

Jaa tämä:

Jaa tämä:

Jaa tämä:

Jaa tämä:

Arvosarjat

Kaaviolajeja

Vaakapylväskaavio

Pystypylväskaavio

Viivakaavio

Hajontakaavio

Piirakkakaavio

Harvinaisempia kaavioita

Jaa tämä:

Kahta lukua ei tarvitse havainnollistaa kaaviona

Pylväskaavio toimi piirakkakuviota paremmin

Erikoistehosteet vain pahentavat asiaa

Piirakkakaaviota pahempi on monta piirakkakaaviota

Yhteenveto

Jaa tämä: