Tilastoapu

Olet toivottavasti jo oppinut laskemaan ja ymmärtämään yhteenvetotaulukoita, ristiintaulukointeja ja tunnuslukuja. Jos et ole, niin opiskele kymmenen tärkeää artikkeliani, jotka löytyvät yläreunan valikosta Analysoi.

Huomasin itse aikoinaan, että jos tilastoaineistossa on paljon muuttujia (sarakkeita), niin taulukoiden ja tunnuslukujen laskenta vie paljon aikaa. Ajan säästämiseksi ohjelmoin itselleni Excelin (vain Windows-versioille) sisällä toimivan apuohjelman ja annoin sille nimeksi Tilastoapu. Tilastoavun avulla voin kätevästi laskea taulukoita ja tunnuslukuja useille muuttujille samalla kertaa. Tilastoapu suorittaa pivot-taulukoinnin laatimiseen liittyvät välivaiheet ja tunnuslukujen laskennan puolestani. Tilastoavun tuottamia tuloksia voin kopioida, yhdistellä ja muokata tarpeideni mukaan. Jos luulet Tilastoavun helpottavan omaa työtäsi, niin voit vapaasti käyttää sitä.

Jos tilastoaineistosi on tallennettu Excel 2007/2010/2013/2016 -muotoon (.xlsx) artikkelini Tilastoaineiston tallentaminen ohjeiden mukaisesti, niin voit hyödyntää Tilastoapua taulukoiden ja tunnuslukujen laskemisessa:

Tallenna ja avaa tilastoapu

Tallenna tilastoapu.xlam esimerkiksi muistikullesi, josta voit avata sen. Avaamisen yhteydessä Excel saattaa kysyä sallitko makrot? Sinun täytyy sallia makrot (Enable macors). Avaamisen jälkeen Excelin työkalunauhaan ilmestyy Tilastoapu-välilehti.

Jos Tilastoapu-välilehteä ei ilmesty työkalunauhaan, niin joudut säätämään tietoturva-asetuksia:

  • Valitse File – Options – Trust Center (Tiedosto – Asetukset – Luottamuskeskus) ja napsauta Trust Center Settings (Luottamuskeskuksen asetukset) -painiketta.
  • Valitse Trusted Locations (Luotetut sijainnit) ja lisää tilastoavun sisältävä kansio luotetuksi sijainniksi Add new location (Lisää uusi sijainti) -toiminnolla.
  • Sulje Excel ja kokeile sen jälkeen uudelleen tilastoavun avaamista.

Käytä tilastoapua

  • Valitse täsmälleen yksi solu aineistosi alueelta. Jos sinulla ei ole omaa aineistoa, niin voit harjoitella aineistolla data2.xlsx.
  • Valitse työkalunauhan Tilastoapu-välilehdeltä haluamasi menetelmä.
  • Valitse muuttujat ja napsauta OK, jolloin tulokset ilmestyvät uuteen taulukkoon.
  • Kun haluat laskea lisää, niin palaa takaisin aineistoon ja valitse haluamasi menetelmä…
  • Lue käyttöohje tilastoapu.pdf

Mac Excel 2016

Testieni perusteella Tilastoapu toimii nyt myös Mac-versiossa, jos käytössäsi on Excel 2016, joka on päivitetty vähintään versioon 15.17. Vanhemmissa Mac-versioissa Tilastoapu ei toimi.

32 thoughts on “Tilastoapu

  1. Nimetön

    Onpas kätevä apuväline. Näin helppoa analysointi ei ole ennen ollutkaan.

    Vastaa
  2. Riitta

    Hei!

    Yritän saada kahden muuttujan (hiilidioksidipäästöt suolla 1 ja suolla 2) välisen t-testin tehtyä, mutten ymmärrä, mikä minulla on ryhmittelevä muuttuja ja onko testi mahdollinen?

    Kiitos!

    Vastaa
    1. akitaanila Kirjoittaja

      Ryhmittelevä muuttuja on suo ja ryhmät ovat suo1 ja suo2. Tuntematta asiaa tarkemmin arvelisin, että riippumattomien otosten t-testi on tässä mahdollinen.

      Vastaa
      1. Riitta

        Hei Aki! Osaatko sanoa EXCEL:istä (kiitos hyvien vihjeiden gradu etenee!); yritän tehdä pylväskuvaajaa (kaikilla eri soilla keskiarvopäästöt) ja niille kaikille omia keskihajontaviiksiä. Jostain syystä saan määritettyä vain kaikille KA-nimisille pylväille sen yhden ja saman hajonnan, enkä saa valittua jokaista pylvästä omana yksikkönään (vaikka kaikilla pylväillä on omat hajontansa). Mietin, osaisitko tavan, jolla jokaiselle pylväälle tulisi eri pituiset sd-viikset, vaikka ne ovatkin samannimisiä…?

      2. akitaanila Kirjoittaja

        Onnistuu, jos vaihdat kunkin pylvään omaksi arvosarjakseen (Rakenne/Design-välilehdeltä Vaihda rivi tai sarake). Tämän jälkeen voit virhepalkkien muotoilussa asettaa kunkin arvosarjan virhepalkiksi haluamasi kiinteän arvon.

  3. aliisa

    Hei

    analysoin parhaillaan graduaineistoani ja tarvitsisin hieman apua.
    Testasin aineston normaalijakaumaa (kyseessä pieni n<50 ainesto joten suoritin testauksen shapiro-wilkin testillä). Aineistossa on alku, väli ja loppumittaukset ja jokaisessa mittauksessa runsaasti muuttujia, yhteensä ehkä 200 koko aineistossa.
    Jos suurin osa aineistosta on normaalisti jakautunut, ja vain korkeintaan noin 20 muuttujaa ei ole, niin voinko kuitenkin analysoida kaikki samalla normaalijakautuneiden testillä (esim. t-test), vai pitääkö nämä poikkeukset poimia erilliseen analyysiin (esim. Mann-Whitney tai Wilcoxon)?
    Vai voiko kaikki, myös normaalisti jakautuneet muuttujat, analysoida nonparametrisilla testeillä?

    Paljon kiitoksia jo etukäteen avustasi, kyllä meillä joku tilastotieteen kurssi oli yliopistossa mutta siellä en oppinut mitään kun taas tämä blogi on aivan huippu! 

    -aliisa

    Vastaa
  4. Sakari

    Mukavan oloiset sivut! Yksi kysymys kaihertaa mielta: miten verrata kahta korrelaatiota keskenaan (eroavatko toisistaan tilastollisesti) kun molemmat on laskettu samasta otoksesta? Loysin yhden laskumallin netista, mutta oletuksena kaksi otosta…

    Vastaa
    1. akitaanila Kirjoittaja

      Tähän problematiikkaan en ole koskaan perehtynyt. Haulla ”comparing correlations within a single sample” näyttäisi Googlesta löytyvän asiaan liittyvää tietoa.

      Vastaa
  5. seppo kilpiäinen

    Minulla on monivastausmuuttuja, jossa on 8 vaihtoehtoa (1.7.1, 1.7.2 jne. Kun teen ohjeidesi mukaan, saan vain yhden muuttujan taulukon, enkä sille kuviota, vaikka pitäisi käsittääkseni saada samalle taulukolle kaikki 8 vaihtoehtoa ja niihin kuvioiden tuottama pylväikkö? Mitä olen tehnyt väärin. Terveisin Seppo Kilpiäinen Kemi.

    Vastaa
    1. akitaanila Kirjoittaja

      Määrittele 1.7-muuttujat samaan multiple response settiin. Ohje esim. monisteeni Ristiintaulukointi-luvussa https://tilastoapu.wordpress.com/spss/

      Tämän jälkeen voit käyttää Multiple response – Crosstabs –toimintoa ja ottaa juuri määritellyn setin rivi tai sarakemuuttujaksi. Kuvion saat tulostaulukon perusteella:
      – kaksoisnapsauta tulostaulukkoa
      – valitse kuvioon tulevat solut
      – napsauta hiiren oikeaa painiketta ja valitse Create Graph.

      Vastaa
  6. Joe

    Miten saan tietää tarkan nollahypoteesin käyttäessäni Kendallin W-testiä? Sitä ei tule esille esim. SPSS:n tulosteessa.

    Vastaa
  7. Miia

    Hei Aki!
    Yritämme skaalata 3-portaista ja 4-portaista asteikkoa 5-portaiseksi SPSS-ohjelmistossa. Yritimme Recode into Different Variables-komennon kautta tehdä tätä, mutta ongelmaksi osoittautui se, että vain tasaluvut muuttuivat esim. 2->2,33 ja 3->3,66, mutta muut luvut esim. 2,2 ym. ei muuttanut ollenkaan. Osaatko auttaa, miten saamme kaikki arvot mukaan skaalaukseen. Kiitos!

    Vastaa
    1. akitaanila Kirjoittaja

      Ensimmäiseksi tulee mieleen alkuperäisten arvojen tietotyyppi. SPSS:n Variable-välilehdeltä kannattaa tarkistaa onko tietotyyppi Numeric kuten pitäisi.

      Vastaa
  8. Juha Saukkonen

    Menetelmä haussa: Pieni otos eli n. 30 vastaajaa (jakaantuu 2 alaryhmään, 20 opiskelijaa ja 10 yrittäjää) per kierros, kysytty itsearviointeja osaamistasosta 1) ennen 8-viikon koulutusohjelmaa 2) heti sen jälkeen 3) 1 vuosi koul. jälkeen. Kysely anonyyminä tehty eli ei voida yhdistää smaan henkilöön 3:n kierroksen vastauksia + vastaajien määrä vaihtelee kierrokisttain hieman. Artikkelin arvioija vaati jotain significance testiä (t-testi ei pienen n:n vuoksi kai mahdollinen…) Minulle ehdotettiin Wilcoxon signed-rank testiä, mutta siinä kai pitäisi olla exatisti sama määrä datapointteja per kierros. Voinko jollain järkevällä tavalla pudottaa osan pois joltain kierrokselta (esim. alimman, ylimmän ja keskiarvoa lähinnä olevan) tai lisätä x kpl keskiarvoa vastaavia datapointteja. Vai onko joku toinen testi tällaisen aineiston käsittelyyn.

    Vastaa
    1. Juha Saukkonen

      Ajattelin käyttää Mann-Whitneyn U-testiä, koska pieni otos eikä std-jakauman mukainen ja otos ei tarkalleen sama joka kierroksella. Saisin siis selville ovatko kohortit ennen, jälkeen ja 1 vuosi jälkeen merkitevästi erilaisia arvioimansa osaamistason suhteen i.e. onko koulutuksella ollut impaktia ja onko se säilynyt

      Vastaa
      1. akitaanila Kirjoittaja

        Pahoittelen vastaukseni viipymistä kaikenlaisten kiireiden takia. Vaikka kyseessä on periaatteessa riippuvien otosten tapaus, niin riippuvien otosten testit eivät tule kyseeseen anonymiteetin takia. Vaihtoehtoiksi jäänee Kruskal-Wallis (tällä voit testata onko kolmen mittauskerran välillä merkitsevää eroa joidenkin mittauskertojen välillä) ja Mann-Whitney (tällä testaat kahta mittauskertaa kerrallaan).

  9. Vesa

    Hei, voisitko vähän jeesaa yhdessä ongelmassani? Tein kvantitatiivisen asiakaskyselyn johon sain 11 vastausta, jossa kysyttiin 12 kohtaa arvointiasteikolla 1-5. Onko jotain laskentakaavaa/menetelmää millä voisi laskea onko tulokset yhtään valideja? Kun yhdenkin vastaus tossa aiheuttaa suhteellisen ison muutoksen keskiarvoon ja -hajontaan.

    Vastaa
    1. Aki Taanila Kirjoittaja

      Yleisesti ottaen vasta otoskoon 30 tietämissä otoksesta lasketut tulokset alkavat vakiintua. Tätä pienemmillä otoksilla tulokset ovat melko sattumanvaraisia ja saattavat antaa hyvinkin virheellisen kuvan perusjoukosta. Yksittäiset mielipiteet toki voivat olla valideja, jos kysymykset ovat hyvin laadittuja. Tässä siis kannattaa erottaa toisistaan tulosten yleistettävyys (jota kutsutaan myös ulkoiseksi validiteetiksi) ja mittarin validiteetti.

      Vastaa
  10. Mari

    Hei,

    Teen juuri analyysiä vertailen kahta riippumatonta ryhmää. Tutkimusmuuttujani on kahdesta Likert-asteikollisesta (1 = Pitää täysin paikkansa ↔ 5 = Ei pidä ollenkaan paikkaansa) muuttujasta muodostettu summamuuttuja. Mikähän tällaisen summamuuttujan mitta-asteikko on? Kaipaisin tätä tietoa, jotta tietäisin lähdenkö testaamaan muuttujan reliabiliteettia vai suuntaanko suoraan Mann-Whitneyn U-testin pariin? (Itse veikkaisin suhdeasteikkoa, mutten todellakaan ole asiasta varma.)

    Vastaa
    1. Aki Taanila Kirjoittaja

      Summamuuttujalle pätee sama kuin alkuperäisille Likert-muuttujillekin. Kyse on tarkkaan ottaen järjestysasteikosta, mutta joissain tapauksissa voidaan tulkita järjestysasteikollisiksi. Valinta jää siis sinulle: käytätkö Mann-Whitneyn testiä vai Kahden riippumattoman otoksen t-testiä.

      Vastaa
  11. Ansku

    Hei, käytössäni on valmis SPSS-aineisto, jossa yhtenä muuttujana on ”koulutus” pitäen sisällään neljä eri koulutusvaihtoehtoa ja viidentenä kohdan ”Jokin muu: mikä?” Nyt haluaisin saada selville mitä viidenteen kohtaan on vastattu. Yritin omin neuvoin katsoa ensin View ja Value Labels, mutta en saanut sieltäkään näkyviin ns. avovastauksia. Kiitos avustasi!

    Vastaa
    1. Ansku

      Löysin ratkaisun: tarkistin Type-kohdan asetukset. Tarkoittamassani kohdassa valittuna oli Numeric, eikä String. Tein muutokset, eikä avovastauksia vieläkään näkynyt. Ainoaksi vaihtoehdoksi jäi, ettei avovastauksia oltu koodattu aineistoon ollenkaan. Näköjään sekin on mahdollista.

      Vastaa
      1. Aki Taanila Kirjoittaja

        Avovastausten mukana- tai poissaolo aineistossa on täysin tapauskohtaista ja riippuu aineiston koodaajasta ja/tai tietokoneohjelmistosta, josta aineisto on peräisin.

  12. Marjo Kauhaniemi

    Hei Aki. Olen lukenut kaiken mahdollisen ymmärtääkseni yhtä ongelmaa… minulla on riippuva otos eli yhden koehenkilön 6 vuotta insinöörinä ennen DI-tutkintoa ja 6 vuotta tutkinnon jälkeen. Mallinnan tuloeroja tutkinnon vaihtuessa. SPSS 24 (Jyu) T-test pairs Arvo1 with Arvo2 (paired) /criteria =CI (0.95) /missing=listwise antaa ensin Patred Samples Correlations N6 Correlation ,092 Sig ,863 ja heti perään toiseen taulukkoon Paired Samples Test Paired differences 95 % confidence interval of the difference upper Pair1 1591,419 t -1,302 df 5 Sig (2-tailed) ,25. Jälkimmäisen p-arvon tulkitsen että tutkinnon valmistuminen ei tuottanut eroa 12 vuoden jakson sisällä parien välille tulotasossa eli ”ryhmien keskiarvot ovat samat jää voimaan”. Mutta mitä ihmettä on tuo ensimmäinen Sig kun luin jostain, että korrelaatiokertoimen p-arvo ilmoittaa korrelaation voimakkuuden. Tuossahan on heikko korrelaatio 0,092 ja vahva korrelaation p-arvo 0,863. Ja jos korrelaatio on heikko ja p-arvo ,863 käskisi hylkäämään oletuksen korrelaatiosta, niin miksi sitten tuloissa (parien eroissa) ei ole eroa! silloinhan ne ovat niin lähellä toisiaan! Mun ajattelu sanoo että silloin ne korreloivat. En mistään löydä lisää tietoa tuosta korrelaatiokertoimen heikoudesta, keskivahvuudesta ja vahvuudesta, mutta luin sen jostain oppaastasi. Mistä tuossa Sig ,863 on kyse?

    Vastaa
    1. Aki Taanila Kirjoittaja

      Korrelaatiokerroin 0,092 ja p-arvo 0,863 ovat linjassa keskenään. Ennen ja jälkeen ryhmien välillä ei siis ole juurikaan korrelaatiota. Onkohan aineistosi oikein muodostettu parittaista testiä varten. Yleensähän parittaista testiä käytettäessä parin 1. ja 2. arvo korreloivat keskenään (esim. niillä joilla on isompi palkka ennen niin heillä on isompi palkka myös jälkeen). Jos korrelaatiota ei ole, niin olisi parempi käyttää riippumattomien otosten t-testiä.

      Vastaa
  13. jarkko

    Hei!!

    Vertailen kahta erilaista menetelmää potilaan asettelussa. Menetelmät ovat laser ja opti. Samalle henkilölle on tehty asettelu molemmilla menetelmillä useita kertoja ja näistä on laskettu alla olevat lukuarvot. Tx,Ty Ja Tz ovat eri suuntia. Ongelmana on että miten minun tulisi näitä tulkita.

    suunnat keskiarvo keskihajonta mediaani vaihteluväli p-arvo

    Tx-laser -0,07 cm 0,17 cm -0,08 cm -0,61 – 0,8 cm 0,509
    Tx-opti -0,09 cm 0,24 cm -0,05 cm -0,83 – 0,76 cm

    Ty-laser -0,11 cm 0,26 cm -0,09 cm -1,33 – 0,71 cm 0,000
    Ty-opti -0,29 cm 0,22 cm -0,32 cm -0,94 – 0,64 cm

    Tz-laser -0,21 cm 0,46 cm -0,23 cm -1,83 – 1,17 cm 0,000
    Tz-opti 0,58 cm 0,25 cm 0,63 cm -0,29 – 1,08 cm

    Vastaa
    1. Aki Taanila Kirjoittaja

      Sorry, että vastaukseni on viipynyt loman ja lomalta paluuseen liittyvien kiireiden takia.
      Antamiesi tietojen perusteella en ole ihan varma, mitä olet tehnyt, mutta yritän arvata. Jos olet käyttänyt riippuvien otosten testiä, niin tulosta voisi tulkita seuraavasti: laserin ja optin välillä ei ole merkitsevää eroa Tx-suunnassa (p=0,509). Ty ja Tz suunnissa on merkitsevä ero (p<0,01).

      Vastaa
  14. Anne

    Hei Aki!

    Kaipaisin kovasti apua. Teen gradua eikä yliopistolta saa kesällä ohjausta enkä pääse tämän solmukohdan kanssa mitenkään eteenpäin. Gradunikaan ei siis edisty.
    Ongelma on seuraava: aineiston syvempään analyysiin olen ajatellut käyttää regressioanalyysiä eli ajatuksena on tutkia, mitkä eri muuttujat selittävät työttömyyttä. Aineisto koostuu siis työttömistä, mutta siitä ei ole olemassa valmiina omaa, yhtä muuttujaa, vaan työttömät on jaettu kolmeen eri luokkaan/ryhmään. Tarkoituksena ei ole kuitenkaan tarkastella näiden kolmen eri luokan välisiä eroja, koska yhdessä luokassa koko on hyvin pieni. Eli haluan tarkastella työttömyyteen selittäviä tekijöitä ylipäätänsä. Tuleeko minun siis luoda uusi muuttuja, selitettävä tekijä työttömät ja jos näin on, niin koodaanko nuo kolmeen eri ryhmään kuuluvat samalla koodilla? Saitkohan tästä selkoa? Elii miten minun tulisi toimia?

    Kiitos valtavasti, jos jaksat/ehdit vastata!

    Vastaa

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s