Aihearkisto: Visualisoi

Tilastoaineiston visualisointi

Python ja Power BI yhteiskäyttö

Päivitetty 15.5.2020

Power BI desktop on hyvä työkalu datojen noutamiseen, yhdistelyyn ja visualisointiin. Visualisoinnit kootaan dashboard-tyyppiselle alustalle ja voidaan edelleen julkaista Power BI -pilvipalvelussa tai omalla Power BI -palvelimella.

Jos visualisointien tekemiseksi tarvitaan edistyneempää data-analytiikkaa, niin apuvälineinä voi käyttää Python- ja R-ohjelmointikieliä. Julkaisualustalle siirrettynä tuettuina ovat ainakin seuraavat Pythonin ohjelmakirjastot: numpy, pandas, matplotlib, seaborn, scikit-learn, scipy ja statsmodels.

Seuraavassa luon Excel-muotoiselle datalle ( http://taanila.fi/data3.xlsx ) jointplotin. Lukijan oletan entuudestaan tuntevan Power BI Desktopin toimintoja ja osaavan jonkin verran Python data-analytiikkaa.

Tässä käytävä esimerkki on yksinkertainen, mutta Python-koodi voisi sisältää paljonkin analytiikkaa kunhan lopputuloksena syntyy visualisointi (matplotlib– tai seaborn-kirjaston kuvio).

Käyttöönotto

Power BI desktopille täytyy kertoa, mitä Python-asennusta käytetään:

  • Valitse File – Options and settings – Options.
  • Valitse vasemmasta reunasta Python scripting.
  • Detected Python home directories -listasta löytyy käyttämästäsi koneesta tunnistetut Python-asennukset, joista voit valita haluamasi. Anacondaa käyttävillä, myös minulla, on ollut ongelmia saada Python toimimaan Power BI:n kanssa. Tähän ongelmaan löytyy erilaisia ratkaisuyrityksiä googlaamalla. Tätä kirjoittaessani poistin koneeltani kaikki Python-asennukset ja asensin Anacondan uusimman version. Tässä tapauksessa Anacondan Python toimi ongelmitta Power BI:ssä.

WinPython on kätevä Windows-koneilla toimiva siirrettävissä oleva paketti, joka ei vaadi minkäänlaista asennusta eikä myöskään vaikuta mitenkään koneella jo oleviin Python asennuksiin. Tätä voit käyttää PowerBI:n kanssa, jos et saa muita asennuksia yhteistyöhön. PowerBI ei automaattisesti tunnista koneella olevaa WinPythonia, mutta sen voi ottaa käyttöön valitsemalla Detected Python home directories -listasta Other ja siirtymällä Browse-toiminnolla WinPythonin kansioon:

powerbi1

Visualisointi Pythonilla

Napsauta Visualizations-paneelissa Py-kuvaketta.

powerbi2

Jos saat pyynnön sallia visualisoinnit, niin valitse Enable.

Alareunaan ilmestyy Python script editor, jossa on teksti Drag fields into Values area in the Visualization pane to start scripting. Toimi ohjeen mukaan ja lisää tarvitsemasi kentät Value-alueelle.

powerbi3

Power BI muodostaa valituista kentistä pandas dataframen, jonka nimenä on dataset.

Tärkeää: Power BI poistaa duplikaatit eli rivit, joilla on täsmälleen samat arvot. Jos haluat säilyttää kaikki rivit, niin lisää Value-alueelle myös kenttä, jossa jokaisella rivillä on eri arvo (tässä esimerkissä nro).

Python script editor on valmiina koodia varten. Lisättävän koodin toimivuus kannattaa ehdottomasti testata ohjelmointiympäristössä, jossa yleensä koodaat. Virheiden metsästäminen ja korjaaminen on Power BI:ssä työlästä.

Seuraavassa olen kopioinut koodin Python script editoriin:

powerbi4

Koodin voi suortittaa editorin oikean yläkulman Run script -painikkeella:

powerbi5

Yllä näkyvästä olen lisäksi poistanut Power BI:n tuottaman otsikon.

Ongelmia desimaalipilkkujen kanssa

Pythonia voi käyttää datan noutamiseen valitsemalla Get data – Other – Python script – Connect. Tämän jälkeen pääset kirjoittamaan koodin datan avaamiseen:

powerbi6

Tämä kuitenkin johtaa ongelmiin Suomessa:

  • Python käyttää aina desimaalierottimena pistettä.
  • PowerBI puolestaan tunnistaa pisteitä sisältävän tiedon päivämäärätyyppiseksi.

Seurauksen huomaa tietoa noudettaessa:

powerbi7

Tästä voi toki jatkaa Power Query Editoriin, jossa voi kumota päivämääräksi muuntamisen, korvata pisteet pilkuilla ja antaa sen jälkeen Power BI:n tunnistaa tietotyyppi. Useimmissa tapauksissa kannattanee kuitenkin välttää datan avaamista Python scriptillä.

Power Query Editorissa voit halutessasi muuntaa ja siivota dataa Python scripteillä. Run Python Script -painike löytyy Transform-välilehdeltä.

powerbi8

Toisaalta Power Query Editor tarjoaa monipuoliset toiminnot datan muuntamiseen ja siivoamiseen ilman Python scriptejäkin.

Lisätietoa

https://docs.microsoft.com/fi-fi/power-bi/connect-data/desktop-python-visuals

 

 

 

 

 

Lukumäärä- ja prosenttiyhteenvedot Pythonilla

Päivitetty 6.5.2020

Lukumäärä- ja prosenttiyhteenvedot tulevat kyseeseen seuraavissa tapauksissa:

  • Kategorisen muuttujan yhteenvetotaulukko (frekvenssitaulukko).
  • Määrällisen muuttujan luokiteltu jakauma taulukkona tai histogrammina.
  • Dummy-muuttujien yhteenveto. Dummy-muuttujaksi kutsutaan muuttujaa, joka saa arvokseen joko 0 (joskus tämän sijasta käytetään tyhjää) tai 1. Esimerkiksi kyselytutkimuksessa monivalintakysymys, jonka vaihtoehdoista vastaaja saa valita useammankin kuin yhden, koodataan dummy-muuttujiksi: Jokainen kysymyksen vaihtoehto on muuttuja, joka saa arvokseen 1, jos vastaaja on sen valinnut. Muussa tapauksessa arvo on 0 tai tyhjä.
  • Kategoristen muuttujien välisen riippuvuuden tarkastelu ristiintaulukoimalla.

Eri tapauksissa laskenta menee eri tavoilla. Seuraavaan olen koonnut mielestäni parhaat käytänteet.

Frekvenssitaulukko

Datassa kategoristen muuttujien arvot ovat yleensä lukuja. Lukujen tekstimuotoiset vastineet määrittelen listoina. Listan voin helposti sijoittaa taulukon indeksin arvoksi.

Frekvenssitaulukon lasken pandas-kirjaston crosstab-funktiolla.

lkm1

Voin visualisoida lukumääriä tai prosentteja vaaka- tai pystypylväskaaviona. Yhteensä-rivin tietoja en esitä pylväänä. Jos esitän kaaviossa prosentteja, niin näytän n-arvon (lukumäärä, josta prosentit on laskettu).

Tarkemmat yksityiskohdat selviävät esimerkistä.

Luokiteltu jakauma

Määrällisen muuttujan jakaumaan tutustun luokitellun jakauman avulla.

Pythonilla on helppo kokeilla erilaisia luokkien lukumääriä tai luokkarajoja tilanteeseen sopivan luokittelun löytämiseksi. Olen tottunut käyttämään luokitteluun kahta menetelmää:

  • Pandas kirjaston cut-funktiolla voin lisätä luokat alkuperäiseen dataan ja laatia sen jälkeen frekvenssitaulukon crosstab-funktiolla.
  • Mieluummin laadin histogrammin suoraan määrällisestä datasta hist-kaaviolajia käyttäen.

lkm2

Tarkemmat yksityiskohdat selviävät esimerkistä.

Dummy-muuttujien yhteenveto

Yhteenvetoon mukaan otettavat muuttujat määrittelen listana. Tämän jälkeen lasken listan mukaisista muuttujista lukumäärät:

  • Jos dummy-muuttujan arvoina on ykkösiä (ja nollia tai tyhjiä) niin käytän sum-funktiota.
  • Jos dummy-muuttujan arvoina on joitain lukuja ja tyhjiä niin käytän count-funktiota (laskee lukujen lukumäärän).

Huomaa, että sum- ja count-funktion antama tulos täytyy muuntaa dataframeksi to_frame-funktiolla.

lkm3

Tärkeää: Prosentit lasken kaikista vastaajista (=koko otoksesta).

Tarkemmat yksityiskohdat selviävät esimerkistä.

Ristiintaulukointi

Kahden kategorisen muuttujan välinen riippuvuus selviää ristiintaulukoimalla. Laadin ristiintaulukoinnin crosstab-funktiolla.

Tärkeää: Jos selittävän muuttujan arvot ovat sarakkeissa, niin käytän prosentteja sarakkeen kokonaissummasta (columns). Jos selittävän muuttujan arvot ovat riveillä, niin käytän prosentteja rivin kokonaissummasta (index).

lkm4

Jos otoksesta lasketussa ristiintaulukoinnissa on havaittavaa riippuvuutta, niin voin tarkistaa khiin neliö -testillä, onko riippuvuus tilastollisesti merkitsevää?

Tarkemmat yksityiskohdat selviävät esimerkistä.

value_counts()

Frekvenssitaulukot ja ristiintaulukoinnit voin siis laskea crosstab()-toiminnolla, mutta taitavalle käyttäjälle value_counts() on kätevämpi ja antaa enemmän mahdollisuuksia.

Tarkemmat yksityiskohdat selviävät esimerkistä.

 

Määrälliset muuttujat pivot-kaaviona

Päivitetty 6.2.2019

Olethan opetellut artikkelissa Pivot-kaaviot kuvatut toimet ennen tämän artikkelin lukemista?

Määrälliset muuttujat mittaavat määrää: euroja, vuosia, metrejä, kiloja jne.

Seuraavien esimerkkien aineistot ja pivot-taulukot löydät tiedostosta pivotchart3.xlsx.

Ryhmittely

Jos haluan laskea määrällisen muuttujan arvojen esiintymiskertoja, niin yleensä tarvitsen ryhmittelyä. Tarkastelen esimerkkinä ikäjakauman esittämistä. Esimerkkiaineistona käytän tiedoston pivotchart3.xlsx Data-aineistoa.

  • Valitsen yhden ja vain yhden solun aineiston alueelta.
  • Valitsen Insert-välilehdeltä PivotChart. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
  • Pivot-kaavion rakenteen määrittelen PivotChart Fields -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
  • Raahaan ikä-muuttujan Values-ruutuun.
  • Vaihdan laskentaperusteeksi Sum sijasta Count.
  • Raahaan ikä-muuttujan Axis (Categories) -ruutuun.
  • Valitsen pivot-taulukosta solun, jossa on ensimmäinen ikä (20).
  • Valitsen Analyze-välilehdeltä Group Field (Ryhmän kenttä).

pivotkaavio11

  • Grouping-ikkunassa voin tarvittaessa vaihtaa Excelin ehdottamia ryhmittelyn aloituskohtaa, päättymiskohtaa ja ryhmävälin suuruutta.

Räätälöity ryhmittely

Edellä kuvaamallani Group Field -toiminnolla saan vain tasavälisiä ryhmittelyitä, joissa ryhmävälin suuruus on sama kaikissa ryhmissä. Seuraavassa määrittelen iälle ryhmittelyn 20-29, 30-39, 40-49, 50+. Jatkan suoraan edellisen esimerkin pivot-kaaviosta.

  • Poistan aiemman iän ryhmittelyn (valitsen pivot-taulukosta ensimmäisen ikäryhmän solun ja valitsen Analyze-Ungroup (Pura ryhmittely).
  • Valitsen pivot-taulukosta solut, joissa on iät 20-29.
  • Valitsen Analyze-Group Selection (Ryhmän valinta).
  • Valitsen pivot-taulukosta solut, joissa on iät 30-39.
  • Valitsen Analyze-Goup Selection.
  • Toistan edellä kuvattuja vaiheita kunnes kaikki ryhmät on luotu.

Excel nimeää ryhmät Group1, Group2, jne. Voin kirjoittaa nimien tilalle kuvaavammat nimet. Ryhmän nimen vieressä on -/+ -painike, josta voin piilottaa tai näyttää ryhmän yksityiskohtaiset tiedot.

Seuraavassa olen nimennyt ensimmäisen ryhmän 20-29 ja olen piilottanut kolmen ensimmäisen ryhmän yksityiskohtaiset tiedot. Huomaa, että pivot-kaavio näyttää tiedot sellaisena kuin ne ovat pivot-taulukossa.

pivotkaavio12

Itselläni on tapana tehdä ryhmittelyt etukäteen alkuperäiseen aineistoon. Lue lisää artikkelista Muuttujan arvojen ryhmittely ja muuttaminen.

Keskiarvo

Seuraavassa lasken palkkakeskiarvot koulutuksen mukaan:

  • Valitsen yhden ja vain yhden solun aineiston alueelta.
  • Valitsen Insert-välilehdeltä PivotChart. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
  • Pivot-kaavion rakenteen määrittelen PivotChart Fields -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
  • Raahaan palkka-muuttujan Values-ruutuun.
  • Vaihdan laskentaperusteeksi Count sijasta Average.
  • Raahaan koulutus-muuttujan Axis (Categories) -ruutuun.
  • Siirrän pivot-taulukon Peruskoulu-solun 2. aste -solun yläpuolelle, jolloin koulutukset menevät koulutuksen pituuden mukaiseen järjestykseen.

Viimeistelyn jälkeen pivot-kaavio voisi näyttää seuraavalta:

pivotkaavio13

Vastausten lukumäärät (n) kirjoitin riviotsikoihin. Sain lukumäärät selville vaihtamalla hetkeksi laskentaperusteeksi Average sijasta Count.

Summa

Summa on käyttökelpoinen yhteenvetotapa esimerkiksi myyntitietojen yhteydessä. Seuraavassa käytän tiedoston pivotchart3.xlsx aineistoa Myynnit.

  • Valitsen yhden ja vain yhden solun aineiston alueelta.
  • Valitsen Insert-välilehdeltä PivotChart. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
  • Pivot-kaavion rakenteen määrittelen PivotChart Fields -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
  • Raahaan Hinta-muuttujan Values-ruutuun. Laskentaperuste on valmiiksi Sum, koska jokaisella rivillä on arvo Hinta-muuttujalla.
  • Raahaan Myyjä-muuttujan Axis (Categories) -ruutuun.

Voin järjestää myyntisummat suuruusjärjestykseen valitsemalla Pivot-taulukon tai Pivot-kaavion pudotusvalikosta More Sort Options ja järjestämällä Sum of Hinta -mukaiseen järjestykseen. Viimeistelyn jälkeen pivot-kaavio voisi näyttää seuraavalta:

pivotchart21

Monivalinta pivot-kaaviona

Päivitetty 6.2.2019

Olethan opetellut artikkelissa Pivot-kaaviot kuvatut toimet ennen tämän artikkelin lukemista?

Monivalintakysymyksessä tarjotaan useita vaihtoehtoja, joista vastaaja voi valita useammankin kuin yhden. Jokainen monivalinnan vaihtoehto tallennetaan aineistoon omana sarakkeenaan. Jos vaihtoehto on valittu, niin aineistossa on arvo 1, muussa tapauksessa aineistoon voidaan jättää tyhjä kohta.

Seuraavassa käytän esimerkkinä kyselytutkimusaineistoa, jossa on kysytty työntekijän hyödyntämiä etuisuuksia: työterveyshuolto, lomaosake, kuntosali, hieroja. Esimerkkiaineisto ja pivot-kaaviot löytyvät tiedostosta pivotchart2.xlsx.

  • Valitsen yhden ja vain yhden solun aineiston alueelta.
  • Valitsen Insert-välilehdeltä PivotChart. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
  • Pivot-kaavion rakenteen määrittelen PivotChart Fields -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
  • Raahaan työterveyshuolto-muuttujan Values-ruutuun.
  • Raahaan lomaosake-muuttujan Values-ruutuun.
  • Raahaan kuntosali-muuttujan Values-ruutuun.
  • Raahaan hieroja-muuttujan Values-ruutuun.

pivotkaavio7

Tässä vaiheessa lasketut arvot ovat pivot-taulukossa sarakkeittain, koska Excel on sijoittanut Values-palikan Legend (Series)-ruutuun. Pivot-kaaviossa tämä näkyy siten, että jokainen pylväs muodostaa oman arvosarjansa ja näkyy omalla värillään.

  • Raahaan Legend (Series)-ruudun Values-palikan Axis (Categories)-ruutuun.
  • Kirjoitan pivot-taulukkoon monivalinnan vaihtoehtojen nimet nimien Count of työterveyshuolto jne. tilalle. Excel ei kelpuuta muuttujan nimenä esiintyvää työterveyshuolto pivot-taulukon riviotsikoksi, joten lisään nimen perään välilyönnin.

pivotkaavio9

Yleensä monivalinnan pylväät kannattaa järjestää pituusjärjestykseen.

  • Napsautan hiiren oikeaa painiketta jonkin pivot-taulukon lukumäärän päällä ja valitsen Sort – Sort Largest to Smallest.

Pienen viimeistelyn jälkeen pivot-kaavio voisi näyttää seuraavalta.

pivotkaavio10

Jos haluan tarkastella asiaa ryhmittäin esimerkiksi sukupuolen mukaan, niin voin vielä raahata ryhmittelevän muuttujan Legend (Series) -ruutuun.

Pivot-kaaviot

Päivitetty 6.2.2019

Tässä artikkelissa kirjoitan pylväskaavioista. Oletan, että osaat jo entuudestaan laatia ja muotoilla pylväskaavioita. Jollet osaa, niin opit perusasiat itseopiskelupaketista kaavio.xlsx.

Pivot-kaavioilla laadin nopeasti monipuolisia yhteenvetoja isosta aineistosta. Aineiston täytyy olla asianmukaiseen muotoon tallennettu artikkelin Tilastoaineiston tallentaminen mukaisesti. Tämän artikkelin esimerkeissä käytetyn aineiston ja pivot-kaaviot löydät tiedostosta pivotchart.xlsx.

Yksinkertainen pivot-kaavio

Tarkastelen pivot-kaaviota, josta näen kuinka moni työntekijä on kuinkakin tyytyväinen johtoon:

  • Valitsen yhden ja vain yhden solun aineiston alueelta.
  • Valitsen Insert-välilehdeltä PivotChart – PivotChart & PivotTable. Jos en vaihda Create PivotChart -ikkunan asetuksia, niin pivot-kaaviota varten muodostuu uusi taulukko (Sheet). Uudessa taulukossa ovat paikkavaraukset pivot-taulukolle ja pivot-kaaviolle.
  • Pivot-kaavion rakenteen määrittelen PivotChart Fields (Pivot-kaavion kentät) -kenttäluettelossa, joka on näkyvillä pivot-kaavion ollessa valittuna.
  • pivotkaavio1Raahaan tyytyväisyys johtoon -muuttujan Values-ruutuun. Excel laskee havaintojen lukumäärän (jos havaintoja puuttuu) tai havaintojen summan (jos jokaisella aineiston rivillä on havainto). Muuttujan tyytyväisyys johtoon -tapauksessa Excel laskee havaintojen summan. Muutan tämän lukumääräksi.
  • Napsautan Values-ruutuun raahaamaani palikkaa. Valitsen esiin tulevasta pudotusvalikosta Value Field Settings (Arvokentän asetukset).
  • Valitsen Value Field Settings -ikkunassa laskentaperusteeksi Count (Määrä) ja napsautan OK.

Tässä vaiheessa pivot-kaavion pylväs esittää havaintojen lukumäärän.

pivotkaavio2

Raahaan tyytyväisyys johtoon -muuttujan Axis (Categories) (Akseli) -ruutuun. Axis (Categories) on tarkoitettu kaavion luokka-akselin luokille. Tässä tapauksessa luokkia ovat muuttujan tyytyväisyys johtoon arvot 1, 2, 3, 4 ja 5. Arvojen sanalliset selitteet kirjoitan suoraan Pivot-taulukkoon numeroiden 1, 2, 3, 4 ja 5 tilalle.

Viimeistelyn jälkeen kaavio voisi näyttää seuraavalta:

pivotkaavio5

Tavallisista kaavioista poiketen pivot-kaaviossa on ylimääräisiä ”painikkeita”, joiden avulla voin lajitella ja suodattaa. Jos kaavio on valittuna, niin voin piilottaa ylimääräiset painikkeet valitsemalla Analyze-välilehdeltä Field Buttons – Hide All (Kenttäpainikkeet – Piilota kaikki).

Ryhmitelty pivot-kaavio

Jos raahaan sukupuoli-muuttujan Legend (Series) (Selite) -ruutuun, niin tuloksena on ryhmitelty pylväskaavio, jossa on erikseen arvosarja miehille ja naisille. Jos kaaviossa ei ole selitettä (Legend), joka selittää värien merkityksen, niin se kannattaa lisätä.

pivotkaavio4

Kun kaavio on valittuna, niin käytettävissä on Design (Rakenne) -välilehti. Kokeile Design-välilehden Switch Row/Column (Vaihda rivi tai sarake) -toimintoa. Seuraa muutoksia kenttäluettelossa, pivot-kaaviossa ja pivot-taulukossa niin opit ymmärtämään kaavion ja taulukon rakennetta.

Prosentteja lukumäärien sijasta

Jos haluan esittää lukumäärät prosentteina, niin napsautan oikean reunan kenttäluettelon Values-ruudun palikkaa ja valitsen esiin tulevasta valikosta Value Field SettingsValue Field Settings -ikkunasta valitsen Show Values As (Näytä arvot muodossa) -välilehden ja valitsen pudotusvalikosta esitystavaksi % of Column Total (Prosenttia sarakkeen summasta).

Pylväiden järjestys

Excel järjestää pivot-taulukon rivit ja pivot-kaavion pylväät luokkien mukaiseen numero/aakkosjärjestykseen. Voin vaihtaa järjestyksen pivot-taulukon Row Labels -pudotusvalikosta tai pivot-kaaviossa olevan painikkeen pudotusvalikosta (painike on näkyvillä, jollet ole piilottanut sitä Analyze – Field Buttons – Hide All -toiminnolla). Pudotusvalikon More Sort Options (Lisää lajitteluvaihtoehtoja) -valinnalla löydät tarjolla olevat vaihtoehdot:

  • Voit järjestää luokkien mukaiseen nousevaan tai laskevaan numero/aakkosjärjestyskeen.
  • Voit järjestää lukumäärien/prosenttien mukaiseen järjestykseen (eli pylväiden pituuden mukaiseen järjestykseen).

Jos haluat muunlaisen järjestyksen, niin voit siirtää hiirellä pivot-taulukon riviotsikoita riviltä toiselle. Jos esimerkiksi laadin pivot-kaavion koulutus-muuttujasta, niin luokkien mukainen numero/aakkkosjärjestys ei ole toivottu:

pivotkaavio6

Valitsen pivot-taulukosta solun, jossa on teksti Peruskoulu ja raahaan solun reunasta kiinni pitäen ensimmäiseksi, jonka jälkeen koulutukset ovat koulutuksen pituuden mukaisessa järjestyksessä.

Puuttuvat havainnot (blank)

Jos käytän koulutus-muuttujaa Values-ruudussa, niin pivot-taulukon ja pivot-kaavion (blank) viittaa puuttuviin havaintoihin. Puuttuvien havaintojen lukumäärä ei kuitenkaan ole näkyvillä.

Selitys: Excel laskee kuinka monta havaintoarvoa on koulutus-sarakkeen niissä soluissa, joista koulutus puuttuu. Vastaus on tietenkin: ei yhtään.

Ratkaisu: Käytän Values-ruudussa koulutus-muuttujan sijasta nro-muuttujaa (laskentatavaksi täytyy muuttaa sum sijasta count), jolla on havainto jokaisella rivillä.

Jos aineistossa ei ole valmiiksi juoksevaa numerointia, niin sellainen kannattaa lisätä. Tätä juoksevaa numerointia kannattaa käyttää pivot-kaavioiden Values-ruudussa jos olet laskemassa lukumääriä tai lukumääriin pohjautuvia prosentteja. Näin saan tietää myös puuttuvien havaintojen lukumäärän.

Seuraavaksi

Lue myös pivot-kaavioista kirjoittamani jatkoartikkelit:

Sparkline-kaaviot

Päivitetty 2.2.2019

Hyvin laaditusta taulukosta on helppo tarkastella yksittäisiä numeroita. Tämän lisäksi usein on tarpeen saada kokonaisnäkemys numeroiden kehityssuunasta tai jakaumasta. Sparklines-kaaviot ovat helppo ja nopea tapa kokonaisnäkemyksen muodostamiseen.

Seuraavaan taulukkoon on kirjattu myynnin määrät miljoonina euroina neljällä eri alueella vuosineljänneksittäin. Taulukon viereen lisätyt sparkline-viivat näyttävät myynnin kehityksen kullakin alueella. Taulukon alapuolelle lisätyt sparkline-pylväät näyttävät myynnin alueittaisen jakauman kullakin vuosineljänneksellä.

sparkli1

Voin lisätä Sparkline-kaavioita seuraavasti:

  • Valitsen solut, joihin haluan Sparkline-kaaviot.
  • Valitsen Insert (Lisää) -välilehdeltä Sparkline-kaavion.
  • Määritysikkunassa määritän, mistä arvoalueesta luon Sparkline-kaaviot.
  • OK.

Kun napsautan Sparkline-kaavioita, niin kaikki samalla kertaa luodut Sparkline-kaaviot tulevat valituiksi. Voin säätää valittuja kaavioita Design (Rakenne) -välilehdellä. Erityisesti tarkistan Axis (Akseli) -asetukset. Edellä olleessa esimerkissä olen säätänyt pylväiden pystyakselin pienimmäksi arvoksi 0 ja suurimman arvon samaksi kaikissa kaavioissa. Edellä olleessa esimerkissä en ole yhdenmukaistanut Sparkline-viivojen pystyakselia. Tällöin en voi vertailla Sparkline-viivoista myynnin määriä eri alueilla. Sen sijaan näen selkeästi myynnin kehityksen kullakin alueella.

Kannattaa tutustua ja kokeilla myös muihin Design (Rakenne) -välilehden asetuksiin.

Opi lisää Excel-esimerkeistä sparklin.xlsx.

Taulukoita ja pylväitä

Päivitetty 2.2.2019

Nykyaikainen yhteiskunta pyörii numeroiden ympärillä. Päätöksiä tehdään numeroiden pohjalta. Ei ole yhdentekevää, mistä numerot tulevat? Luotettavasta lähteestä asianmukaisia menetelmiä käyttäen tuotetut numerot ovat painavampia kuin epämääräisestä lähteestä peräisin olevat numerot. Useimmat päätöksenteossa käytettävät numerot ovat tiedon keräämisen ja jalostamisen tuloksia.

Tiedon kerääminen

Tietoa kerätään muiden muassa seuraavilla tavoilla:

  • Yritysten tietokantoihin tietoa kerääntyy päivittäisten toimintojen seurauksena (myyntitietoja, laskutustietoja, asiakaspalautteita, yrityksen nettisivujen käyttäjätilastoja jne.)
  • Monien laitosten ja instituutioiden tehtäviin kuuluu tietojen kerääminen (Tilastokeskus, Suomen Pankki, ETLA jne.)
  • Ihmisten mielipiteitä (asiakastyytyväisyydestä, ostoaikeista, työtyytyväisyydestä jne.) kerätään kyselylomakkeilla.

On tärkeää, että tiedon lähde ja keruutapa on hyvin dokumentoitu. Näin voidaan arvioida kerätyn tiedon luotettavuutta.

Tiedon jalostaminen

Kerätyt tiedot ovat harvoin sellaisenaan käyttökelpoisia päätöksenteossa. Tiedoista jalostetaan yhteenvetoja ja analyyseja, joista saadaan päätöksenteossa hyödynnettäviä numeroita.

On tärkeää, että yhteenvetojen ja analyysien laskentamenetelmät ovat hyvin dokumentoitu. Numeroillahan ei ole mitään arvoa, jos niiden luotettavuudesta ei ole takeita.

Taulukoita ja pylväitä

Numerot (lukumäärät, prosentit, eurot, keskiarvot jne.) esitetään yleensä taulukoina. Taulukko on selkeä ja täsmällinen esitystapa, jonka etuja ovat ainakin seuraavat:

  • Hyvin laadittu taulukko esittää numerotiedon tarkasti ja täsmällisesti ja täyttää vaativankin lukijan tiedon tarpeen.
  • Samassa taulukossa voidaan esittää sekä lukumääriä että prosentteja.
  • Samassa taulukossa voidaan esittää useita tunnuslukuja, esimerkiksi keskiarvo, keskihajonta, n-arvo jne.

Taulukon sisältöä voin rikastaa tekemällä vertailuja ja/tai prosentuaalisia vertailuja esimerkiksi koko otokseen, aiempaan ajankohtaan tai toiseen tutkimukseen.

Joissain tapauksissa on hyödyllistä havainnollistaa taulukon sisältöä pylväskuviona. Pylväskuvion etuja ovat ainakin seuraavat:

  • Hyvin laadittu kuvio voi antaa yhdellä silmäyksellä havainnollisen yhteenvedon arvojen jakaumasta.
  • Numeroihin tottumaton lukija vertailee pylväiden pituuksia helpommin kuin numeroita.

Olen kerännyt sinua varten hyviä ja suositeltavia käytänteitä taulukoiden ja pylväiden käyttöön. Toivottavasti saat Excel-tiedoston taulpylv.xlsx esimerkeistä ideoita ja malleja omiin taulukoihin ja pylväskuvioihin.