Aihearkisto: Yleinen

Github – esimerkit omalle koneelle

Päivitetty 6.2.2024

Olen tallentanut esimerkkikoodeja Jypyter-muistioina githubiin. Esimerkit aukeavat selaimeen, josta voit halutessasi kopioida koodin pätkiä (solu kerrallaan) itsellesi. Kokonaisen Jupyter-muistion tallentaminen omalle koneelle Jupyter-muistiona ei välttämättä onnistu, mutta voit kloonata kokonaisen kansion omalle koneellesi:

Siirry osoitteeseen https://github.com/taanila
Valitse repository (kansio), jonka haluat kloonata (kaaviot, data, kuvaileva, selittava, aikasarjat, jne.)
Napsauta vihreää Code-painiketta ja valitse Download ZIP
Pura (Extract all) tallentamasi paketti omaan kotikansioosi (sinne, missä säilytät Python-koodejasi). Paketti purkautuu omaan kansioonsa (esimerkiksi kaaviot-master).

Kaikki esimerkit ovat tämän jälkeen avattavissa Jupyteriin.

Päivitän esimerkkejä aika ajoin. Tuoreimmat versiot saat käyttöösi suorittamalla yllä kuvatun kloonauksen uudelleen.

Data-analytiikka Pythonilla

Päivitetty 4.5.2023

Data-analytiikka antaa vastauksia kysymyksiin

Data-analytiikka on tavoitteellista toimintaa: tavoitteena on etsiä vastauksia kysymyksiin. Data-analytiikan avulla vastataan monenlaisiin kysymyksiin:

Minkälainen ikäjakauma asiakkaillamme on?
Mihin toimintamme osa-alueisiin asiakkaamme ovat tyytymättömiä?
Onko asiakkaan iällä yhteyttä asiakastyytyväisyyteen?
Miten yrityksen työilmapiiri on muuttunut viime vuodesta?
Ketkä asiakkaistamme ovat vaarassa siirtyä kilpailijalle?
Keille tuotteen markkinointikampanja kannattaa suunnata?
Mikä mainosvaihtoehdoista tehoaa parhaiten kohderyhmään?
Mitä oheistuotteita verkkokaupasta ostaneella kannattaa tarjota?
Mikä on tuotteen ennustettu kysyntä ensi kuussa?
Liittyykö vakuutuskorvaushakemukseen vakuutuspetos?
Millä todennäköisyydellä laina-asiakas ei pysty maksamaan lainaansa takaisin?

Data

Tavoitteiden (kysymykset, joihin halutaan vastata) asettamisen jälkeen pitää selvittää minkälaista dataa tarvitaan. Data voi olla esimerkiksi:

Yrityksen tietokannoista löytyvää dataa (esimerkiksi CRM- ja ERP-järjestelmistä).
Erilaisten tiedontuottajien tarjoamaa ilmaista tai maksullista dataa.
Varta vasten kyselytutkimuksella tai kokeellisella tutkimuksella kerättyä dataa.
Erilaisten sensorien/mittalaitteiden automaattisesti tuottamaa dataa.

Blogissani rajoitun rakenteelliseen eli strukturoituun dataan. Rakenteellinen data on sellaista, joka voidaan tallentaa taulukkomuotoon. Yleisiä data-analytiikkaan sopivia tiedostomuotoja ovat pilkkueroteltu tekstimuoto (.csv) ja Excel-muoto (.xlsx). Tietokannoista data haetaan kyselyiden (SQL-kyselykieli) avulla. Nettikyselyohjelmista datan saa yleensä ulos pilkkuerotellussa tekstimuodossa tai Excel-muodossa.

Kun sopiva data on olemassa, niin datasta saadaan vastauksia kysymyksiin seuraavien vaiheiden kautta:

Datan valmistelu
Kuvaileva analytiikka
Selittävä analytiikka; selittävään analytiikkaan liittyy usein tilastollisen merkitsevyyden testaaminen: tilastollinen merkitsevyys kertoo, millä varmuudella otoksessa havaittuja eroja ja riippuvuuksia voidaan yleistää isompaan perusjoukkoon, josta otos on otettu.
Ennakoiva analytiikka; tähän käytetään usein koneoppimisen malleja.

Datan valmistelu

Datan valmistelulla tarkoitan datojen yhdistelyä, dataan tutustumista, datan siivoamista ja datan muunnoksia.

Datan valmistelu voi olla data-analytiikan aikaa vievin vaihe. Ensimmäiseksi kannattaa varmistaa datan taulukkomuotoisuus:

muuttujien nimet / kenttien nimet / sarakeotsikot ovat ensimmäisellä rivillä
datassa ei ole tarpeettomia tyhjiä rivejä tai sarakkeita
kuhunkin tilastoyksikköön/havaintoyksikköön liittyvät tiedot ovat yhdellä rivillä.

Datan valmistelu voi sisältää muiden muassa seuraavia:

Eri lähteistä peräisin olevien datojen yhdistely
Muuttujien uudelleen nimeäminen: jatkotoimet sujuvat sutjakkaammin, jos nimet ovat lyhyitä ja helposti tunnistettavia
Desimaalipilkkujen tarkistaminen: vaikka Suomessa desimaalipilkkuna käytetään pilkkua, niin Pythonissa täytyy käyttää pistettä
Päivämäärien muuntaminen päivämääriksi tunnistettavaan muotoon
Mittayksiköiden tarkistaminen ja tarvittavien muunnosten tekeminen
Puuttuvien arvojen käsittely: poistetaanko puuttuvia arvoja sisältävät rivit, korvataanko puuttuvat arvot jollain, miten puuttuvia arvoja merkitään
Uusien muuttujien laskeminen: esimerkiksi summamuuttuja useasta mielipidemuuttujasta, tilauksen hinta tilausmäärän ja yksikköhinnan avulla jne.
Arvojen luokittelu ja uudelleenkoodaaminen: esimerkiksi ikäluokat iän arvoista.

Kuvaileva analytiikka

Datan kuvailu voi sisältää seuraavia:

Lukumäärä- ja prosenttiyhteenvetojen laskeminen kategorisille muuttujille (frekvenssitaulukot)
Luokiteltujen jakaumien laskeminen määrällisille muuttujille
Tilastollisten tunnuslukujen laskeminen määrällisille muuttujille (keskiarvo, keskihajonta, viiden luvun yhteenveto)
Prosenttimuutosten laskeminen aikasarjoille
Aikasarjojen tarkastelu viivakaavioina
Liukuvien keskiarvojen esittäminen aikasarjojen yhteydessä.

Kuvailun tuloksia kannattaa visualisoida ja havainnollistaa hyvin viimeistellyillä taulukoilla ja kaavioilla.

Selittävä analytiikka ja tilastollinen merkitsevyys

Selittävä analytiikka voi sisältää seuraavia:

Tilastollisten tunnuslukujen vertailua eri ryhmissä
Kategoristen muuttujien riippuvuuden tarkastelua ristiintaulukoimalla
Määrällisten muuttujien välisten korrelaatioiden tarkastelua
Havaittujen erojen ja riippuvuuksien tilastollisen merkitsevyyden tarkastelua.

Jos käytetty data on otos isommasta perusjoukosta, niin tulokset kuvaavat otosta. Jos tarkoituksena on arvioida koko perusjoukkoa, niin otoksessa havaittujen erojen ja riippuvuuksien tilastollinen merkitsevyys kertoo, millä varmuudella eroja ja riippuvuuksia voidaan yleistää otoksesta perusjoukkoon.

Ennakoiva analytiikka ja koneoppiminen

Koneoppimisen malleilla voidaan luokitella (asiakkaat luottoriski-asiakkaisiin ja muihin, vakuutuskorvaushakemukset selviin tapauksiin ja petokselta haiskahtaviin, sähköpostiviestit roskapostiin ja kunnollisiin viesteihin jne.) ja ennakoida määrällisen muuttujan arvoja (käytetyn auton hinta, tuleva kysyntä jne.). Koneoppiminen perustuu siihen, että kone oppii käytettävän mallin parametrit olemassa olevasta datasta ja tämän jälkeen mallia voidaan soveltaa uuteen dataan.

Koneoppimisalgoritmit voidaan luokitella seuraavasti:

Ohjattu oppiminen (supervised learning): Algoritmi opetetaan opetusdatalla (training data). Esimerkiksi roskapostisuodatin opetetaan sähköpostidatalla, jossa on erilaisia tietoja kustakin sähköpostiviestistä sekä tieto siitä oliko sähköpostiviesti roskapostia. Tämän datan perusteella muodostuu malli, jota käyttäen tulevista sähköpostiviesteistä voidaan tunnistaa roskapostiviestit.
Ohjaamaton oppiminen (Unsupervised learning): Esimerkiksi asiakkaiden jakaminen asiakassegmentteihin asiakastietojen perusteella.
Vahvistusoppiminen (Reinforcement learning): Algoritmi suorittaa toimia ja saa niistä palautetta palkkioiden ja rangaistusten muodossa. Algoritmi oppii saamistaan palkkioista ja rangaistuksista. Vahvistettua oppimista käytetään esimerkiksi robotiikassa.

Seuraavassa jaotellaan ohjattu ja ohjaamaton oppiminen edelleen alatyyppeihin:

mallit

Ohjattu oppiminen

Kohdemuuttuja kategorinen

Jos kohdemuuttuja (ennakoitava muuttuja) on kategorinen, niin kyseeseen tulevat luokittelua suorittavat algoritmit, esimerkiksi logistinen regressio tai päätöspuut.

Esimerkkejä, joissa on kategorinen kohdemuuttuja:

Roskapostisuodatin: kohdemuuttujana on tieto siitä, onko sähköpostiviesti roskapostia vai ei?
Lääketieteellinen diagnoosi: Kohdemuuttujana on tieto siitä, onko tutkitulla potilaalla tietty sairaus vai ei?
Vakuutuspetosten tunnistaminen: Kohdemuuttujana on tieto siitä, liittyykö korvaushakemukseen petos vai ei?

Kohdemuuttuja määrällinen

Jos kohdemuuttuja on määrällinen, niin kyseeseen tulevat regressiomallit ja aikasarjaennustamisen menetelmät. Esimerkkejä, joissa on määrällinen kohdemuuttuja:

Vanhan osakehuoneiston hinnan arviointi: Kohdemuuttujana on asunnon hinta.
Kysynnän ennustaminen aikaisemman kysynnän perusteella: Kohdemuuttujana on kysyntä.

Ohjaamaton oppiminen

Ohjaamattoman oppimisen algoritmi muodostaa mallin suoraan datasta (ei siis ole erillistä opetusdataa, jossa olisi valmiina kohdemuuttujan arvoja). Esimerkkinä asiakassegmenttien määrittäminen asiakasdatan pohjalta. Paljon käytetty algoritmi on k-means clustering.

Jos datassa on paljon muuttujia, jotka mittaavat osittain samoja asioita, niin datan rakennetta voidaan yksinkertaistaa yhdistämällä muuttujia uusiksi lasketuiksi muuttujiksi, joita on vähemmän kuin alkuperäisiä muuttujia. Tunnetuin algoritmi tähän tarkoitukseen on pääkomponenttianalyysi.

Aikasarjaennustaminen 3

Päivitetty 29.12.2020

Tämä artikkeli on jatkoa artikkeleille Aikasarjaennustaminen 1 ja Aikasarjaennustaminen 2.

Edellisen artikkelin Aikasarjaennustaminen 2 lopussa totesin, että esimerkkinä käyttämässäni aikasarjassa on neljän vuosineljänneksen välein toistuvaa kausivaihtelua, joka on syytä huomioida ennustamisessa. Tässä artikkelissa tarkastelen kausivaihtelun huomioivaa Holt-Winterin menetelmää.

Holt-Winterin tulomallissa aikasarjan tason L (level) hetkellä t määrittää lauseke

L_t = alfa * Y_t/S_t-s + (1 – alfa)(L_t-1 + T_t-1)

Yllä Y_t on viimeisin havainto, S_t-s on edellisen vastaavan periodin kausivaihtelu ja T_t-1 on edellinen trendi.

Trendille T hetkellä t saadaan arvio lausekkeesta

T_t= beta * (L_t – L_t-1) + (1 – beta) * T_t-1

Kausivaihtelulle S hetkellä t saadaan arvio lausekkeesta

S_t = gamma * Y_t/L_t + (1 – gamma) * S_t-s

Ennuste hetkelle t + p saadaan

(L_t + pT_t)S_t-s

Yllä on kyse Holt-Winterin tulomallista, jossa kausivaihtelu huomioidaan kausivaihtelukertoimena. Holt-Winterin mallia voidaan soveltaa myös summamallina, jolloin kausivaihtelu huomioidaan lisättävänä kausivaihteluterminä. Tulomalli soveltuu paremmin tilanteisiin, joissa kausivaihtelukomponentin suuruus vaihtelee aikasarjan tason L mukaan. Summamalli soveltuu tilanteisiin, joissa kausivaihtelukomponentin suuruus ei riipu aikasarjan tasosta L.

Mallin parametrit alfa, beta ja gamma pyritään määrittämään siten että ennustevirheiden neliöiden keskiarvo saadaan mahdollisimman pieneksi.

Python toteutus

Esimerkkikoodin kolminkertaiseen eksponentiaaliseen tasoitukseen löydät GitHubista:

https://nbviewer.jupyter.org/github/taanila/aikasarjat/blob/main/forecast3.ipynb

Jupyter Notebook

Päivitetty 14.4.2024

Jupyter Notebook on kätevä väline data-analytiikkaan liittyvien Python-ohjelmien kirjoittamiseen ja suorittamiseen. Myös monissa pilvipalveluissa toimivat muistikirja-tyyppiset ohjelmointiympäristöt (esimerkiksi Google Colab) perustuvat Jypyter Notebookiin.

Käynnistä Jupyter Notebook

Minicondassa Jupyter käynnistyy komentoriviltä komennolla jupyter notebook.

Anacondassa se löytyy Windowsin käynnistysvalikosta Anacondan alta.

Jupyter Notebookin etusivu käynnistyy oletusselaimeesi Home-nimiselle välilehdelle.

Luo uusi muistio

Voit luoda uuden tyhjän muistion Jupyterin etusivun oikean yläreunan New – Python 3 -tai New – Notebook -toiminnolla. Uusi muistio avautuu selaimeen uudelle välilehdelle.

jupyter1

Muistion yläreunasta löydät työkalupainikkeita ja valikoita, joiden sisältöön kannattaa heti alussa tutustua. Muistion voit nimetä uudelleen File-valikon Rename-toiminnolla tai napsauttamalla muistion nimeä muistion yläreunassa.

Kirjoita koodia

Muistio koostuu soluista. Soluun voit kirjoittaa Python-koodia ja kommentteja. Kommenttirivi alkaa aina #-merkillä. Koodin voit suorittaa usealla tavalla:

Run-valikon kautta
työkalurivin painikkeella
näppäinyhdistelmällä ctrl-enter tai shift-enter (siirtää kohdistimen samalla seuraavaan soluun). Lisää pikanäppäimiä löydät googlaamalla Jupyter keyboard shortcuts.

jupyter2

Koodin suorituksesta mahdollisesti seuraavat tulokset, varoitukset ja virheilmoitukset tulostuvat solun alapuolelle. Voit milloin tahansa muuttaa solun koodia ja suorittaa koodin uudelleen.

Uusia soluja voit lisätä Insert-valikon kautta ja soluja voit tuhota Edit-valikon kautta.

Aiemmin suorittamasi koodin tallentamat muuttujat ym. tiedot säilyvät koko istunnon ajan. Voit näin ollen suorittaa osan ohjelmasta yhdessä solussa ja jatkaa ohjelman suoritusta toisessa solussa.

Jos muokkaat ja suoritat uudelleen aiempia koodisoluja, niin ajaudut helposti ennakoimattomiin virhetilanteisiin. Voit milloin tahansa suorittaa kaikkien solujen komennot uudelleen Run-valikon Run All -toiminnolla.

Jos avaat ja jatkat aiemmin aloittamaasi muistiota, niin suorita aiemmin kirjoittamasi koodi valitsemalla Run-valikosta Run All.

Tallenna muistio

Muistio tallentuu automaattisesti, mutta varmuuden vuoksi kannattaa napsauttaa tallennus-kuvaketta ennen muistion sulkemista. Näin viimeisin versio on varmuudella tallessa.

Muistio tallentuu Jupyterin oletuskansioon. Minun Windows-koneellani oletuskansiona on C:/Users/aki/ (aki on minun käyttäjätunnukseni). Jupyter Notebook -tiedoston (muistion) tunnistat tiedostonimen loppuosasta .ipynb. Tallentamasi muistiot löydät Jypyterin etusivulta (Home-välilehti) ja voit avata muistion omalle välilehdelleen napsauttamalla muistion nimeä.

Voit luoda oletuskansion alle uusia kansioita. Voit siirtyä toiseen kansioon napsauttamalla Jupyterin etusivulla (Home-välilehti) kansion nimeä. Uusi muistio tallentuu aina siihen kansioon, joka on valittuna muistion luontihetkellä.

Opettele Pythonin perusteet

Voit aloittaa suoraan data-analytiikasta muistion pandas1 avulla. Parhaiten opit kirjoittamalla muistion koodit itse Jupyter-muistioon ja tekemällä siinä ohessa omia kokeiluja. Sinulla ei tarvitse olla aiempaa ohjelmointikokemusta! Voit käyttää tukena muistioon pandas1 liittyvää videota.

Suosittelen myös Pythonin perusteisiin tutustumista Teemu Sirkiän mainion materiaalin avulla: http://www.cs.hut.fi/~ttsirkia/Python.pdf

Asenna Miniconda tai Anaconda

Päivitetty 6.2.2024

Data-analytiikkaan tarvittavat Python-taidot voit oppia nopeasti vaikket omaisikaan aiempaa ohjelmointikokemusta.

Ensimmäiseksi tarvitset data-analytiikkaan sopivan muistikirja-tyyppisen ohjelmointiympäristön.

Jos et halua asentaa ympäristöä omalle koneellesi, niin voit käyttää esimerkiksi ilmaista Google Colab -pilvipalvelua osoitteessa https://colab.research.google.com/. Palvelun käyttämiseen tarvitset Google-tunnuksen.

Omalle koneelle asennettavaksi ympäristöksi sopii Miniconda tai Anaconda.

Miniconda

Voit katsoa Minicondan asennuksen kulun videolta.

Miniconda sisältää Pythonin ja conda-paketinhallintajärjestelmän. Minicondan asennus sujuu nopeasti ja se vie tilaa vähemmän kuin Anaconda.

Löydät Minicondan Windowsille, Macille ja Linuxille osoitteesta

https://docs.conda.io/en/latest/miniconda.html

Valitse oma käyttöjärjestelmäsi (Windows, macOS tai Linux) ja asenna Miniconda oletusasetuksilla.

Käynnistä asennuksen jälkeen Anacondan komentorivi:

Windows-koneilla Miniconda3 – Anaconda prompt (miniconda3) Windowsin käynnistysvalikosta
MacOS- ja Linux-koneilla terminal/pääte.

Komentorivillä voit asentaa tarvitsemasi kirjastot/paketit. Jokaisen asennuskomennon jälkeen kestää hetken ennen kuin conda löytää sinulle sopivan version, jonka jälkeen se kysyy vielä lupaa asennukseen. Vastaa kysymykseen y-kirjaimella (ja paina enter). Data-analytiikkaa varten tarvitset ainakin seuraavat:

conda install jupyter (Jupyter Notebook on data-analytiikassa suosittu ohjelmointiympäristö).
conda install pandas (data-analytiikan peruskirjasto, jonka mukana asentuu myös numeerisen laskennan peruskirjasto numpy).
conda install seaborn (grafiikka-kirjasto, jonka mukana asentuu myös grafiikan peruskirjasto matplotlib).
conda install scikit-learn (koneoppimisen kirjasto, jonka mukana asentuu myös tieteellisen laskennnan peruskirjasto scipy).
conda install statsmodels (tilastollisten mallien kirjasto mm. aikasarjaennustamiseen).
conda install xlwings (kirjasto Excelin ohjaamiseen).
conda install openpyxl (Excel-tiedostojen avaamiseen).
conda install xlsxwriter (Excel-tiedostojen kirjoittamiseen).

Myöhemmin voit tarpeen mukaan asentaa muita kirjastoja.

Anaconda

Anaconda sisältää muiden muassa

Pythonin
datojen analysointiin tarvittavat ohjelmakirjastot (NumPy, pandas, jne.)
graafiseen esittämiseen tarvittavat ohjelmakirjastot (matplotlib, seaborn jne.)
koneoppimisen malleihin tarvittavat ohjelmakirjastot (scikit-learn jne.)
Jupyter Notebookin ohjelmien kirjoittamiseen ja suorittamiseen
Conda-paketinhallintajärjestelmän, jolla voit asentaa ja päivittää ohjelmakirjastoja (paketteja) siten että kirjastojen versiot ovat keskenään yhteensopivia.

Löydät Anacondan Windowsille, Macille ja Linuxille osoitteesta

https://www.anaconda.com/products/distribution

Valitse oma käyttöjärjestelmäsi (Windows, macOS tai Linux) ja asenna Anaconda oletusasetuksilla.

Ohjeita Anacondan käyttöön löydät osoitteesta

https://docs.anaconda.com/anaconda/

Anaconda sisältää paljon kirjastoja, joita et koskaan tarvitse. Jos haluat asentaa vain tarvitsemasi, niin asenna Anacondan sijasta Miniconda.

Asennuksen jälkeen

Tutustu asennuksen jälkeen Jupyter notebookin toimintaan.

Tiekartat

Päivitetty 24.1.2020

Datoja jalostetaan ja analysoidaan, jotta saadaan käyttökelpoista, havainnollista ja ymmärrettävää tietoa päätöksenteon tueksi ja perusteluksi.

Analysoitavia datoja saadaan erilaisista lähteistä, esimerkiksi

mittalaitteilla mitattuja ilmansaasteiden pitoisuuksia
kyselylomakkeella kerättyjä mielipiteitä
kokeellisella tutkimusasetelmalla kerättyjä havaintoja
verkkosivuston käyttötilastoja
yrityksen tietokannasta poimittuja myyntitapahtumia
internetin tietokannoista löytyviä tilastoja.

Datoja jalostetaan ja analysoidaan, jotta saadaan käyttökelpoista, havainnollista ja ymmärrettävää tietoa päätöksenteon tueksi ja perusteluksi. Analysointiin käytetään samoja menetelmiä datan lähteestä riippumatta.

Analyysit aloitetaan muuttujakohtaisilla tarkasteluilla muuttuja kerrallaan (kuvaileva analytiikka). Joissain tapauksissa muuttujakohtaiset tarkastelut riittävät, mutta yleensä analyyseissä edetään riippuvuuksien tarkasteluun (selittävä analytiikka). Yksinkertaisimmillaan tarkastellaan kahden muuttujan välistä riippuvuutta. Jos toinen muuttujista on kategorinen, niin riippuvuuden sijasta voidaan puhua ryhmien vertailusta: kategorisen muuttujan arvot määräävät ryhmät, joiden välillä toisen muuttujan arvoja vertaillaan. Jos molemmat muuttujat ovat määrällisiä niin riippuvuutta voidaan kutsua korrelaatioksi ja sen voimakkuutta mitataan korrelaatiokertoimen avulla.

Edellä todetun perusteella voin jaotella perusanalyysit seuraavasti:

Vaativammassa analyysissä käytetään monimuuttujamenetelmiä, joissa analysoidaan useamman muuttujan välisiä riippuvuuksia samanaikaisesti.

Seuraavassa luettelen kuhunkin analyysityyppiin liittyviä menetelmiä. Ryhmittelen menetelmät sen mukaan minkälaisille mitta-asteikoille ne sopivat. Käyttämäni mitta-asteikot ovat

Kategorinen: Muuttujan arvot luokittelevat havaintoyksiköt toisensa poissulkeviin kategorioihin/luokkiin. Tällaista mitta-asteikkoa kutsutaan myös luokitteluasteikoksi, nominaaliasteikoksi ja laatueroasteikoksi. Esimerkki: Henkilön ammatti.
Järjestysasteikollinen: Jos kategoriat/luokat voidaan asettaa yksikäsitteiseen suuruus, paremmuus tai muuhun järjestykseen, niin kyseessä on järjestysasteikko. Tällaista mitta-asteikkoa kutsutaan myös ordinaaliasteikoksi. Esimerkki: Hotelliluokituksessa hotellin saama tähtien määrä.
Määrällinen: Muuttujan arvot mittaavat mitattavan ominaisuuden määrää numeroasteikolla. Määrälliset muuttujat kattavat sekä välimatka-asteikolliset (intervalliasteikolliset) että suhdeasteikolliset muuttujat. Esimerkki: Henkilön kuukausipalkka.
Mielipideasteikko: Mielipideasteikko on järjestysasteikko, mutta monissa tapauksissa sen voidaan ajatella mittaavan mielipiteen, esimerkiksi tyytyväisyyden, määrää numeroasteikolla. Tällöin mielipideasteikko voidaan tulkita määrälliseksi ja määrällisille muuttujille soveltuvia menetelmiä voidaan käyttää. Esimerkki: Tyytyväisyys asiakaspalvelun ystävällisyyteen asteikolla 1-5 (1=erittäin tyytymätön, 5=erittäin tyytyväinen).

Yhden muuttujan tarkastelu

Datan analysoinnin aloitan muuttujakohtaisilla tarkasteluilla.

Kategorisille muuttujille lasken lukumäärä- ja prosenttitaulukot. Lukumäärä- ja prosenttitaulukosta käytetään myös nimityksiä yhteenvetotaulukko ja frekvenssitaulukko. Taulukoinneissa pääset hyvään alkuun lukemalla artikkelin Taulukointi.
Järjestysasteikollisille muuttujille voin lukumäärä- ja prosenttitaulukoiden lisäksi laskea viiden luvun yhteenvedon.
Määrällisille muuttujille lasken tunnuslukuina keskiarvon, keskihajonnan ja viiden luvun yhteenvedon. Tunnusluvuissa pääset hyvään alkuun lukemalla artikkelin Tunnuslukuja.

Mielipideasteikot (esimerkiksi 1-5, täysin eri mieltä – täysin samaa mieltä) ovat järjestysasteikoita, mutta tietyin varauksin voin käyttää keskiarvoa ja keskihajontaa. Voit lukea lisää artikkelista Mielipideasteikon keskiarvo.

Jos analysoitava data on otos laajemmasta perusjoukosta, niin kannattaa laskea prosenttiosuuksille ja keskiarvoille luottamusvälit. Luottamusväli ilmaisee epävarmuuden yleistettäessä prosenttiosuus tai keskiarvo laajempaan perusjoukkoon. Lisätietoa prosenttiosuuden luottamusvälistä artikkelissa Prosenttiosuuden luottamusväli ja keskiarvon luottamusvälistä artikkelissa Keskiarvon virhemarginaali.

Kahden ryhmän vertailu – riippumattomat ryhmät

Päädyn vertailemaan kahta ryhmää esimerkiksi seuraavissa tapauksissa:

Haluan verrata kyselytutkimusdatan perusteella miesten ja naisten mielipiteitä.
Haluan verrata kokeellisen tutkimuksen keinoin ovatko alkoholia nauttineiden reaktioaikojen keskiarvot samat kuin alkoholia nauttimattomien.

Jos mitattava muuttuja on kategorinen, niin vertaan lukumääriä ja/tai prosentteja ristiintaulukoimalla ryhmittelevän muuttujan ja mitattavan muuttujan. Hyvään alkuun ristiintaulukoinneissa pääset lukemalla artikkelin Ristiintaulukointi. Jos mitattava muuttuja on määrällinen, niin yleensä vertaan keskiarvoja. Myös mielipideasteikon tapauksessa voin tietyin varauksin verrata keskiarvoja. Lisätietoa artikkelissa Kahden riippumattoman otoksen vertailu.

Tarvittaessa voin testata ryhmien välisen eron merkitsevyyttä. Testaamisella varmistan, onko otoksessa havaittu ero niin suuri, ettei se voi aiheutua pelkästä otantavirheestä, vaan taustalla on ryhmien todellinen ero perusjoukossa. Lisätietoa artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Useamman ryhmän vertailu – riippumattomat ryhmät

Jos vertailtavia ryhmiä on useampia, niin järjestysasteikollisen ja määrällisen muuttujan tapauksessa testimenetelmät ovat erilaiset kuin kahden ryhmän vertailussa.

Lisätietoa testimenetelmistä artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Kahden ryhmän vertailu – riippuvat ryhmät

Kokeellisessa tutkimuksessa päädytään usein vertailemaan toisistaan riippuvia ryhmiä. Jos riippumattoman ja riippuvan ero ei ole sinulle selvä, niin lue artikkeli Riippumattomat vai riippuvat otokset.

Lisätietoa testimenetelmistä artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Useamman ryhmän vertailu – riippuvat ryhmät

Useamman riippuvan ryhmän vertailua tarvitaan lähinnä kokoeellisessa tutkimuksessa.

Lisätietoa testimenetelmistä artikkelissa Onko ryhmien välinen ero tilastollisesti merkitsevä.

Korrelaatio

Korrelaatio tarkoittaa kahden muuttujan välistä riippuvuutta.

Kategoristen muuttujien välistä korrelaatiota tarkastelen ristiintaulukoimalla. Tätä jo tarkastelin aiemmin ryhmien vertailun yhteydessä.
Jos toinen tai molemmat muuttujista ovat järjestysasteikollisia, niin voin laskea Spearmanin järjestyskorrelaation. Joissain tapauksissa Spearmanin järjestyskorrelaatio on sopiva menetelmä myös mielipideasteikollisille muuttujille. Järjestyskorrelaatiosta lisää artikkelissa Spearmanin järjestyskorrelaatio.
Jos molemmat muuttujat ovat määrällisiä, niin tarkastelen riippuvuutta hajontakaavioiden ja korrelaatiokertoimien avulla. Tästä lisää artikkelissa Korrelaatio ja sen merkitsevyys.

Tarvittaessa voin testata riippuvuuden/korrelaation merkitsevyyttä. Testaamisella varmistan, onko otoksessa havaittu riippuvuus/korrelaatio niin suuri, ettei se voi aiheutua pelkästä otantavirheestä, vaan taustalla on todellinen riippuvuus/korrelaatio perusjoukossa. Lisätietoa testaamisesta artikkelissa Korrelaatio ja sen merkitsevyys.

Mallit ja ennakoiva analytiikka

Edellä mainitut menetelmät sopivat kuvailevaan ja selittävään analytiikkaan. Tarvittaessa voidaan edetä pidemmälle:

Sovittamalla dataan havaittuja eroja ja riippuvuuksia selittäviä malleja.
Ennakoimalla tulevaa malleista laskettujen ennusteiden avulla.

Muuttujien mitta-asteikot vaikuttavat mallin valintaan:

Jos selitettävä muuttuja on määrällinen, niin kyseeseen tulevat erilaiset regressiomallit.
Jos selitettävä muuttuja on kategorinen, niin kyseeseen tulevat erilaiset luokittelumallit, esimerkiksi logistinen regressio.
Jos selitettävä muuttuja puuttuu, niin kyseeseen tulevat erilaiset klusterointimallit, esimerkiksi K-means klusterointi.

Akin menetelmäblogi

aki@taanila.fi

Aihearkisto: Yleinen

Github – esimerkit omalle koneelle

Data-analytiikka Pythonilla

Data-analytiikka antaa vastauksia kysymyksiin

Data

Datan valmistelu

Kuvaileva analytiikka

Selittävä analytiikka ja tilastollinen merkitsevyys