Härkää sarvista

Eri aihealueiden artikkelit löydät yläreunan valintojen KERÄÄ, ANALYSOI, VISUALISOI, MALLINNA, TILASTOAPU, SPSS ja WEBROPOL alta.

Jos haluat järkyttää menetelmäopettajan mielenterveyttä tai vähintään pilata hänen päivänsä, niin kokeile esimerkiksi seuraavia kysymyksiä:

  • ”Minulla on nyt tämä aineisto tässä. Mitä minun pitäisi laskea?”
  • ”Minun pitäisi ylihuomenna palauttaa opinnäytetyöni ohjaajalle tarkastettavaksi. Voisitko äkkiä neuvoa mitä taulukoita ja kuinka monta tästä aineistostani täytyy laskea?”
  • ”Voisitko äkkiä vilkaista, onko minulla tässä raportissa tarpeeksi taulukoita ja kuvioita?”

Kaikella on tarkoituksensa. Tutkimuksella on tarkoitus vastata tutkimuskysymyksiin ja tuottaa käyttökelpoista tietoa päätöksenteon tueksi ja perusteluksi. Aineisto tarvitaan, jotta tutkimuskysymyksiin saadaan vastauksia. Jos yhtäkkiä alat kysellä menetelmäopettajalta mitä pitäisi laskea tai onko taulukoita jo tarpeeksi, niin olet kadottanut tutkimuksesi tarkoituksen ja kenties tilapäisesti järkesikin.

Jos esimerkiksi olet kerännyt aineiston kyselylomaketta käyttäen, niin ajattele ja kirjaa itsellesi muistiin mitkä kyselylomakkeen kysymykset voivat auttaa vastaamaan mihinkin tutkimuskysymykseen. Tai toivottavasti teit tämän jo kyselylomaketta suunnitellessasi, jolloin voit kaivaa muistiinpanosi esiin.

Sen jälkeen kun tiedät mitkä aineiston tiedot vastaavat mihinkin tutkimuskysymykseen, sinun täytyy tehdä valintoja: Lasketko lukumääriä ja prosentteja vai ehkä keskiarvoja ja keskihajontoja vai havainnollistaisivatko mediaanit ja neljännekset asiaa? Tarvitsetko ryhmien vertailua? Käytätkö ryhmien vertailuun ristiintaulukointeja vai keskiarvojen vertailua? Tarvitsetko riippuvuuksien tarkasteluun korrelaatiokertoimia? Lasketko keskiarvoille luottamusvälejä tai selvitteletkö ryhmien välisten erojen merkitsevyyttä? Jos edellä mainitut asiat ovat sinulle kuin vierasta kieltä, niin edessä on paljon opiskeltavaa.

Tartu härkää sarvista ja aloita opiskelu lukemalla tämän blogin numeroidut artikkelit 1-10 numerojärjestyksessä. Aloita ensimmäisestä artikkelista vaikka luulisitkin jo aineistosi olevan siististi tallennettu. Liian usein aineiston analysoinnin vaikeus on seurausta huonosti viimeistellystä aineistosta. Mieti jokaisen artikkelin kohdalla mitä se tarkoittaa sinun oman aineistosi kannalta. OIKOTIETÄ EI OLE tai tämä blogi on yksi parhaista oikoteistä!

Tämän blogin aiheena on aineistojen analysointi. En kuitenkaan malta olla kirjoittamatta myös aineiston keräämiseen liittyvistä asioista.

Mainokset

60 thoughts on “Härkää sarvista

  1. SP

    Mielenkiintoinen blogi! Käsitteletkö tai tuletko käsittelemään monimuuttujamenetelmiä SPSS:llä?

    Vastaa
    1. akitaanila Kirjoittaja

      En suunnittele kirjoittavani monimuuttujamenetelmistä ainakaan lähitulevaisuudessa. Jätän aihepiirin mielelläni itseäni oppineemmille.

      Vastaa
  2. Nimetön

    Kiitos hirveästi tästä blogista! Monesti olisi tullut ilmän tätä itku silmään tilaston harkkatöitä tehdessa! : )

    Vastaa
  3. Nimetön

    OuJee! Olisi ehkä pitänyt tutustua blogiisi muutama päivä aikasemmin. Opparin palautuspäivä on nimittäin huomenna ja tänään sain sen valmiiksi 😉

    Vastaa
  4. Nimetön

    Kiitos selkeistä oppimateriaaleista! Niistä on ollut kovasti hyötyä SPSS:n kanssa.

    Vastaa
  5. Nina Heräjärvi

    Hei!

    Minulla on tallennettu yhteen SPSS-taulukkoon aineisto, jonne pitäisi lisätä vain joidenkin muuttujien tietoja toisesta SPSS-taulukosta. Kuinka tämä onnistuu?

    Kiitokset etukäteen avusta!

    Vastaa
      1. Nimetön

        Hei!

        Suuret kiitokset tiedosta! Hyödyllinen tämä sinun palstasi 🙂

        Parhain terveisin

        nina

  6. Aleksi

    Tervehdys,
    aivan loistava blogi! Uskomattoman hienoa jaada kaikki tieto kaikille ko. aiheesta.
    Voi omassa rauhassa tutkailla aihetta. Kiitoksia.
    Yst. Terv.
    Kiitollinen Haaga-Helian opiskelija

    Vastaa
  7. Iloinen kertaaja

    Tuhat kiitosta! Käytännölliset esimerkit testeistä tekevät kaltaiselleni kertaajallekin homman iloiseksi. ”No näinhän se olikin… Eihän tää nyt niin hankalaa ollutkaan.” Erikseen pitää mainita vielä valmiit tiedostomallit. Esimerkiksi niiden avulla voi aineistonsa järjestää järkevästi niin, että käsittely on helppoa vaikkapa SPSS:ssä. (Kun semmoiseen sattuu olemaan pääsy.)

    Vastaa
  8. Petra

    Hei! Hienoa blogia pidat!
    Mietin vain, etta mita parametrisia tai epaparametrisia testeja tulisi kayttaa, jos vertailee kahta erillista ryhmaa yhdella muuttujalla.
    Kiitos paljon kaikesta avusta, jonka blogisi on antanut 🙂
    Terveisin,
    Petra

    Vastaa
    1. akitaanila Kirjoittaja

      Jos ryhmät ovat toisistaan riippumattomat, niin vaihtoehdot ovat
      – kahden riippumattoman otoksen t-testi, jos muuttujasta voi mielestäsi laskea keskiarvot
      – Mann Whitney -testi, jos epäilet kahden riippumattoman otoksen t-testin käyttöedellytysten voimassaoloa
      – ristiintaulukointi + khiin neliö -testi, jos tarkasteltava muuttuja on kategorinen
      Lue Onko ryhmien välinen ero tilastollisesti merkitsevä?

      Vastaa
  9. jarmoholttinen

    Mistä voi johtua että kun otos=123 ja lasken Tilastoavulla Monivalinnan niin se antaa n=142 ja laskee tästä prosentit, vaikka Yhteenvetotaulukon Lukumäärä-sarakkeessa olevien lukujen summa on yhteenlaskettuna oikea eli 123?

    Vastaa
    1. akitaanila Kirjoittaja

      Lukumäärä-sarakkeen yhteissumma yleensä poikkeaa otoskoosta. Otoskoko (n) pitää sisällään vastaajien kokonaismäärän. Tähän lasketaan mukaan nekin, jotka eivät ole monivalintaan vastanneet mitään. Lukumäärä-sarakkeessa on monivalinnan vaihtoehtoja valinneiden lukumäärät. Lukumäärä-sarakkeen lukujen yhteissumma voi olla suurempi kuin otoskoko (yksi vastaajahan voi valita monivalinnasta useampiakin vaihtoehtoja) tai pienempi kuin otoskoko (osa vastaajista ei välttämättä ole valinnut yhtään vaihtoehtoa).

      Vastaa
  10. Tilasto-ope

    Aivan loistavasti koottu oleellinen tieto yhdeksi selkeäksi paketiksi! Monien lähdekirjojen (esim. Nummenmaa, Holopainen ja Pulkkinen, varauksin myös Karjalainen) ongelmana on asioiden vaikeahko esitystapa. Monesti sorrutaan myös liialliseen matemaattiseen esitystapaan käytännön kärsiessä. Soveltaja ja taidoistaan vielä epävarma opiskelija tarvitsee juuri blogisi kaltaisen lähestymistavan asiaan. Asiaan, joka ei lopulta ole edes kovin vaikeaa. Kiitos!

    Vastaa
  11. Emilia

    Tarvisin apua erään kuvion tekemiseen spss:ssä. Kyselylomakkeessani on kysymys, joka sisältää monta alakysymystä (kaikissa vastausvaihtoehdot: kyllä, ei, en osaa sanoa). Onko mahdollista tehdä kaikista alakysymyksistä yhteinen clustered bar -kuvio, johon tulee jokaisen kysymyksen kohdalle pylväinä näkymään ei, kyllä ja en osaa sanoa vastausten lukumäärät? Kiitos, jos voit auttaa!

    Vastaa
    1. akitaanila Kirjoittaja

      Onnistuu, jos käytössä on Custom Tables -lisäosa ja muuttujien mitta-asteikkona Ordinal. Menee kutakuinkin seuraavasti:
      – valitse Analyze – Tables – Custom Tables
      – valitse muuttujat ja raahaa Columns-palkkiin
      – valitse oikealta alhaalta Category Position -alasvetovalikosta Column Labels in Rows
      – OK
      – kaksoisnapsauta syntynyttä taulukkoa
      – luo taulukosta pylväskuvio (esim. valitsemalla Edit – Create Graph – Bar)
      Jos käytössäsi ei ole Custom Tables -lisäosaa, niin taulukoi kyllä, ei , en osaa -vastausten lukumäärät Exceliin ja tee kuvio Excelissä.

      Vastaa
  12. Saara

    Hei, heti alkuun tökkäsi analysointi 🙂 Lomakkeella on kysymyksiä joihin on vaihtoehdot 1 kyllä, 2 ei ja 3 eos. Haluaisin tehdä ristiintaulukoinnin niin, että tarkastelisin vain esim. kyllä vastanneita jonkin toisen muuttujan kanssa, kuinka se onnistuu?

    Vastaa
  13. Nimetön

    Kahden ryhmän välisten jakaumien eroja voi testata vaikka t-testillä tai Mannin-Whitneyn testillä tai Kruskall-Wallisin testillä jos kyse on ei-normaalijakutuneesta aineistosta ja ryhmiä on enemmän kuin kaksi. Entä jos halutaan testata eroaako saman ryhmän vastausten keskiarvot kahden tai useamman eri kysymyksen kohdalla. Kyse voi olla vaikka likert-asteikolla mitatuista mielipiteistä.

    Vastaa
    1. akitaanila Kirjoittaja

      Tässä on kyse toisistaan riippuvista otoksista, koska samat vastaajat ovat vastanneet kysymyksiin joita verrataan toisiinsa. Näin ollen kyseeseen tulevat riippuvien otosten menetelmät: riippuvien otosten t-testi, Wilcoxonin merkittyjen sijalukujen testi, toistomittausten varianssianalyysi ja Friedman-testi.

      Vastaa
      1. Opiskelija

        Minullakin on juuri tähän liittyvä pulma. Kyseessä myös Likert-asteikolla hankittu mielipidemittaus ennen ja jälkeen samoilla henkilöillä eli kyseessä riippuvat otokset. Aineisto on ei-normaali, ja olen ristiintaulukoinnin ohella katsonut mielekkääksi verrata ryhmien keskiarvoja, eli katsonut asteikkoa tasavälisenä. Miten on Wilcoxonin merkittyjen sijalukujen testin kanssa, kun sitähän käytetään mediaanien vertailussa (ellen ole jotain kovin väärin nyt ymmärtänyt). Olisiko iso virhe käyttää Mann-Whitneyn U-testiä riippuvien otosten kanssa? Sehän kaiketi tekee arviot tilastollisesta merkitsevyydestä hieman varovaisemmiksi kuin Wilcoxon.

        Kiitos muuten tästä blogista! Tämä on ollut ehdottomasti selkein tietolähde tilastotieteestä, minkä olen löytänyt lisätietoja etsiessäni.

      2. akitaanila Kirjoittaja

        Jos otoskoko on selvästi yli 30, niin minä käyttäisin riippuvien otosten t-testiä (perustelu: otoskeskiarvojen jakauma alkaa vakiintua isoilla otoksilla).
        Jos otoskoko on pieni, niin ilman muuta Wilcoxonin merkittyjen sijalukujen testi, koska kyseessä riippuvat otokset.

  14. Simo

    Kiitos tästä blogista Aki! Tämä on todellakin selkeä ja ymmärrettävä & olen löytänyt vastauksen moneen kysymykseen – yhtä perusasiaa en jostain syystä ymmärrä: olen tekemässä monimuuttuja-analyysejä & minulla on world bankin aineistopankista koostettu aineisto maailman maista. Läheskään kaikki muuttujat eivät ole näytä olevan normaalijakautuneita, joka on analyysien ”vaade”. => voiko koko aineiston standardoida SPSS:ssä ja sen jälkeen tehdä analyysit? Eli miksi pitäisi koettaa ottaa neliönjuuria, logaritmejä tms. jakauman saamiseksi normaalijakautuneemmaksi – miksi koko aineistoa ei voisi vain standardoida ja operoida sitten standardoidulla havaintoaineistolla?

    Vastaa
    1. akitaanila Kirjoittaja

      Standardointi muuttaa eri suuruusluokkaa olevat ja eri yksiköissä mitatut muuttujat ”samalle viivalle”, mutta ei korjaa normaalijakautuneisuuden ongelmaa. Vinot jakaumat ovat vinoja standardoinnin jälkeenkin.

      Vastaa
  15. Toksu

    Kiitos hienosta blogista! Ilman tätä olisi jäänyt gradu tekemättä tai ainakin erinomainen arvosana saamatta. Yritin aiemmin kahlata määrällisiä menetelmiä koskevaa kirjallisuutta ymmärtämättä niistä mitään, mutta heitin ne kaikki syrjään tämän sivuston löydettyäni.

    Vastaa
  16. Minttu

    Hei Aki, nyt on juuri tällainen ”Mulla ois tää aieisto tässä ja gradu pitäisi olla valmiina… eilen” – tilanne päällä. 😀 Taidat pitää blogistakin joskus lomaa, mutta yrittänyttä ei laiteta, joten:

    Minulla on pieni aineisto (N 23), jolle olen tehnyt kaksi mittausta selvittääkseni intervention vaikutusta asenteisiin. Tyttöjen asenteet ovat olleet molemmissa mittauksissa poikia myönteisemmät, mutta Mann-Whitney U:n mukaan näissä ei ole merkitsevää eroa. Pojilla mittausten välissä on tapahtunut asenteissa merkitsevä muutos (testinä Wilcoxonin t-testi), tytöillä ei. Kun haluan vielä selvittää onko poikien asenteiden muutos tyttöjen muutokseen verrattuna tilastollisesti merkitsevä, täytyykö ottaa käyttöön vielä joku testi ja mikä?

    Kiitos blogistasi, siitä on ollut hurjasti apua! Tässä vaiheessa aivot kuitenkin ovat jo niin solmussa, etten löydä omin avuin tähän kysymykseen vastausta. 🙂

    Vastaa
    1. akitaanila Kirjoittaja

      Minun mielestäni riittää laskemiesi testien perusteella todeta, että poikien asenteissa on tapahtunut merkitsevä muutos ja tyttöjen asenteissa ei.

      Vastaa
  17. Nimetön

    Heippa,
    Jos kahdella eri menetelmällä tarkastetaan samaa kohdetta samojen ominaisuuksien suhteen eri aikaan, onko kysessä riippuvista tai riippumattomista otoksista? Vai voidaanko tulkita kummin päin tahansa. Kyse on siis siitä, että tutkitaan kahden eri tarkastusmenetelmän toimivuutta.

    Vastaa
    1. akitaanila Kirjoittaja

      Jos tarkastetut vastaavat pareittain toisiaan (esimerkiksi tarkastetaan samat yksiköt eri aikoina), niin kyse on riippuvista otoksista. Jos tarkastetut eivät vastaa pareittain toisiaan, niin kyse on riippumattomista otoksista.

      Vastaa
  18. Minttu

    Hei Aki!
    Kiitos aiemmasta nopeasta vastauksestasi! Palasin vielä yhden omituisuuden löydettyäni…

    Aineistossani käsitellään vastaajien antamia arvoja sekä ryhmälle yhteensä (ryhmän jäsenten keskiarvo ja vastausten keskihajonta kaikkien vastaajien vastausten perusteella) että ryhmän jäsenille erikseen (yksittäisen ryhmän jäsenen saama keskiarvo ja keskihajonta kaikkien vastaajien vastausten perusteella). Saamieni tulosten mukaan ryhmän yhteinen keskihajonta on pienempi kuin yhdenkään yksittäisen ryhmänjäsenen saamien arvojen keskihajonta. Voiko tämä olla mahdollista?

    Esim.
    ryhmän jäsen 1, ka 3,12, kh 1,14
    ryhmän jäsen 2, ka 4,01, kh 0,77
    ryhmän jäsen 3, ka 3,61, kh 0,96
    jne…
    koko ryhmä, ka 3,72, kh 0,75

    En ole löytänyt virhettä syötetyistä tiedoista, mistähän päin ongelmaa kannattaa alkaa etsimään? Vai onko kyseessä mahdollinen ilmiö, jota en ymmärrä, koska aivoni eivät ole sisäistäneen keskihajonnan ideaa?

    Vastaa
    1. akitaanila Kirjoittaja

      En ymmärtänyt kuvauksesi perusteella, miksi lasket keskiarvon ja keskihajonnan yksittäisille ryhmän jäsenille? Onko kyse samasta aineistosta kuin aiemmassa kysymyksessäsi, jossa ryhminä oli tytöt ja pojat ja mittaukset ennen ja jälkeen intervention? Jos kyse on samasta aineistosta, niin ymmärtääkseni ei ole mielekästä laskea yhden ryhmän jäsenen (esimerkiksi yhden pojan) keskiarvoa ja keskihajontaa. Sen sijaan on mielekästä laskea mittausten välisen eron keskiarvo ja keskihajonta pojille, tytöille ja koko aineistolle. Samoin on mielekästä laskea yhden mittauksen osalta keskiarvo ja keskihajonta pojille, tytöille ja koko aineistolle.

      Vastaa
  19. Maria-Elisa

    Hei Aki!

    Olen kovasti koettanut perehtyä asiaan, mutten ole saanut vieläkään minulle sopivaa tilastollista vertailumenetelmää selvitettyä. Voisitkohan auttaa? Minulla oli työssäni kuuden eri miehen virtsanäytteet, joista jokaisen virtsanäytteen jaoin neljään osaan ja käsittelin näytteet neljällä eri tavalla (sama virtsanäyte siis), nyt haluaisin vertailla saamani analyytin pitoisuutta näiden neljän eri menetelmän välillä, että mikä menetelmistä oli loppujen lopuksi paras. Haluaisin verrata kutakin kolmea menetelmää ykkösmenetelmään (kaksi vertailtavaa) sekä kaikkia neljää menetelmää keskenään (neljä vertailtavaa).

    Yt. Elisa

    Vastaa
    1. akitaanila Kirjoittaja

      Lähinnä ajattelisin toistomittausten varianssianalyysiä. Parivertailut vaativat perehtymistä. Parivertailusta löydät tietoa esimerkiksi Andy Fieldin kirjasta Discovering statistics using SPSS.

      Vastaa
  20. Sanna Lopperi

    Hei! Olen löytänyt blogisi vasta tänään ja aion perehtyä siihen piakkoin paremmin, koska tilastotieteen perusteet ovat päässet unohtumaan melko pahasti. Tällä hetkellä olen melko epävarma sen suhteen, mitä menetelmää voin käyttää. Minulla on solujen sitoutumiskoe kuoppalevyllä (yritän selittää käyttämättä biologikieltä).

    Minulla on kuusi proteiinia, joihin soluni voisivat tarttua. Näistä yksi on kontrolli, johon muita verrataan. Soluja on tarkasteltu useammassa eri aikapisteessä. Solujen määrä ei kuitenkaan pysy eri aikapisteissä samana, koska lasken vain ne, jotka ovat jo laskeutuneet kuopan pohjalle. Pohjalle laskeutuneet solut jaottelen kolmeen luokkaan sen mukaan, miten ne käyttäytyvät (istuvatko vain pohjalla, ovatko tarttuneet pohjaan, vai ovatko peräti lähteneet vaeltelemaan pohjaa pitkin), eli aineisto on kategorinen. Saman kokeen aikana on käytetty samoja soluja, mutta minulla on kolme toistoa jokaisesta, joissa pitäisi olla suunnilleen sama määrä soluja. Olen laskenut toistoille keskiarvoja, mutta keskihajonnat vaihtelevat melko paljon.

    Onko esimerkiksi ristiintaulukointi ja Khiin neliötesti järkevä valinta?

    Vastaa
  21. akitaanila Kirjoittaja

    Jos käytät keskiarvoja, niin ristiintaulukointi ei tule kyseeseen. Kyseeseen tulee varmaankin jokin varianssianalyysin versio.

    Vastaa
    1. Sanna Lopperi

      Kiitos vastauksestasi.

      Joo, totesin jo itsekin, ettei Khiin neliötestiä voi käyttää senkään takia, että minulla on alkuvaiheessa joitain arvoja, jotka ovat nolla. Toistoja on tosiaan vain kolme, enkä tiedä, onko aineisto normaalijakautunutta, mikä sulkenee varianssianalyysin pois?. Sopiiko Mann-Whitney U sinun mielestäsi tällaiseen?

      Onneksi ei ole kauhea kiire, kun tuntuu etten osaa edes käyttää SPSS:ää, eli siitä pitää melkein aloittaa että opettelen.

      Vastaa
      1. akitaanila Kirjoittaja

        Antamiesi tietojen pohjalta en oikein osaa antaa vinkkiä sopivasta analyysimenetelmästä. Pitäisi hieman tarkemmin tuntea tutkimusastelma ja mitatut muuttujat.

  22. Tullut nukuttua tilaston tunneilla

    Iso kiitos tästä blogista! Lineaarinen malli oli selitetty niin yksinkertaisen ytimekkäästi että aukesi samalta istumalta.

    Vastaa
  23. Minna

    Hei, kiitos blogista, tästä on ollut jo paljon apua. Mutta lisää kaivataan. 🙂 Tutkimuksessani käytän kahta aineistoa, jotka on kerätty eri tavoin ja kahdelta eri ryhmältä. Aineistot käsittelevät osittain samaa asiaa ja tähän tutkimus siis perustuukin, siis vertailuun näiden kahden ryhmän kesken. Millaisia testejä olisi mahdollista käyttää ja mitä otettava huomioon? Aineistot ovat suuria/ suurehkoja (n1=5000 ja n2=400) ja kohdehenkilöistä on kerätty tietoa useista eri muuttujista (sadoista) ja asteikot näissä muuttujissa vaihtelevat. Miten esimerkiksi erojen merkitsevyyttä voi analysoida näiden ryhmien välillä? Onko esim. kahden riippumattoman ryhmän t-testi luotettava tällaisessa tapauksessa? Toki ryhmistä saa sellaisenaankin mielenkiintoista tietoa, mutta tärkeää olisi myös erojen ja niiden merkitsevyyden arviointi. Kiitos etukäteen jo vastauksestasi!

    Vastaa
  24. Kirsi

    Hei! Teen tällä hetkellä graduani ja kaipaisin kommenttia SPSS:n exact-testien käytöstä. Normaalisiti olen tutkinut järjestysateikollisten muuttujien ja tiettyjen alueiden välistä riippuvuutta χ² -testin avulla tai Kruskall-Wallisin testillä (jos otoksien jakaumien muoto, hajonta ja keskiluvut ovat samansuuntaisia).

    Joissain tapauksissa, jos χ² -testin tai Kruskall-Wallisin testin ehdot eivät ole täyttyneet, olen käyttänyt Monte-Carlon testiä χ² -testin yhteydessä, luotettavamman p-arvon määrittämiseksi. Ymmärtääkseni Monte Carlon metodi on käyttökelpoinen ja luotettava testi silloin, kun otoskoot ovat pieniä, havainnot eivät ole normaalijakautuneita, havaintomatriisit ovat epätasaisia tai kun havainnot eivät täytä χ²-testin asettamia tilastollisia ehtoja.
    Osassa tutkimustapauksistani χ²-testin asettamat tilastolliset ehdot eivät täyttyneet, koska havaintomatriisi on epätasainen, eikä ole normaalijakautunut (suurin osa vastaajista on esimerkiksi tyytyväisiä tiettyihin olosuhteisiin). Itse otos on usein kuitenkin iso ja siksi raskas perinteisen exact p-arvon testaamiseksi, joten sen vuoksi päädyin Monte Carlon metodiin. Kuulostavatko tutkimusmetodini valinnat järkevältä ja perustelluilta? Voinko luottaa Monte Carlon testin antamiin tuloksiin, vaikka χ²-testin asettamat ehdot eivät ole toteutuneetkaan? Ainakin omasta mielestäni tulokset näyttävät järkeviltä.

    Vastaa
  25. Nimetön

    Kiitos Aki!! Tästä blogista on ollut suuri apu. Tämä on monessa kohtaa parempi kuin tilastomatematiikan kirjani, ja useimmat Wikipedian suomenkieliset tilastomatematiikan artikkelit taas ovat kuuluisasti aivan kamalia.

    Vastaa
  26. Nimetön

    Terve, koitin löytää blogistasi jo vastausta, mutta en törmännyt sopivaan artikkeliin. Teen gradua juuri markkinoinnista ja olen hukassa tilastollisten merkitsevyyksien kanssa. Teen AB testausta mainoskampanjoiden sisällä.

    Esimerkkinä ryhmä A jolle näytetään mainosvariaatiota 1 ja ryhmä B jolle näytetään mainosvariaatiota 2. Ryhmät koostuvat satunnaisesti valituista käyttäjistä saman kohdeyleisön sisältä. Sanotaan että esimerkiksi 3000 ihmistä (a) näki mainos 1 ja (b) 3000 ihmistä mainos 2. Mainosten klikkausprosentit ovat 3% ja 9%. Millä tesitllä kannattaisi ruveta todistamaan tilastollista riippuvuutta? Tiedossa on siis ainoastaan otoskoot, sekä keskiarvot.

    Kiitos etukäteen.

    Vastaa
      1. Nimetön

        Hei kiitos paljon tästä. Toimii mainiosti.

        Heräsi samalla toinen kysymys, jossa khiin neliö testi ei taida toimia.

        Miten tulisi toimia tapauksessa jossa keskiarvona on jokin arvo, esimerkiksi jos on ryhmän välillä on eroja siinä kuinka kauan vierailijat viipyvät palvelussa. Esim. A-ryhmän 100 viettävät keskimäärin 200 sekuntia sivulla ja B-ryhmän 100 kävijää ovat viettäneet keskimäärin 300 sekuntia sivulla. AdWordsista ei saa yksittäisen kävijän tarkkuudella dataa ulos.

      2. akitaanila Kirjoittaja

        Pelkät keskiarvot eivät riitä, vaan tarvitset myös keskihajonnat. Jos myös keskihajonnat ovat tiedossa, niin voit laskea kahden riippumattoman otoksen vertailutestin käyttämällä valmista Excel-laskentapohjaa. Löydät laskentapohjan artikkelin Kahden riippumattoman otoksen vertailu loppupuolelta Usein kysyttyä osiosta.

  27. Sanna L

    Hei!

    kaksi kysymystä, jos kiireiltäsi ehdit.

    1. Etan neliö: Löytyykö etan neliölle jostakin (ehkä menetelmäoppaasta) suuntaa-antavia raja-arvoja, jotka kuvaavat efektin voimakkuutta?
    Nummenmaan opuksessa sanotaan sen olevan verrattavissa korrelaatiokertoimeen efektikoon estimaattina ja löytämässäni esitelmässä taas mainitaan etan neliön laskukaavan rinnalla Cohenin määrittelemät efektin raja-arvot.
    http://people.uta.fi/~petri.nokelainen/s33/luennot/luento3.ppt
    Mitä raja-arvoja käyttäisit?

    2. Kumman tavan valitsisisit yleisesti lukujen raportointiin:

    0.01 vai .01?

    Kiitän jo etukäteen!

    Vastaa
    1. akitaanila Kirjoittaja

      1. Usein käytetyt suuntaa-antavat raja-arvot etan neliölle ovat 0,02- pieni, 0,13- keskiverto, 0,26- suuri (ks. esim. http://en.wikiversity.org/wiki/Eta-squared ja http://imaging.mrc-cbu.cam.ac.uk/statswiki/FAQ/effectSize). Tässä on syytä olla tarkkana, onko raja-arvot esitetty etalle vai etan neliölle. Nummenmaan tarkoittama vertailu korrelaatioon efektikoon estimaattina tarkoittaa, että eta on verrattavissa korrelaatiokertoimeen (ja etan neliö on verrattavissa selityskertoimeen eli korrelaatiokertoimen neliöön). Suuntaa-antavat raja-arvot ovat vain karkeita nyrkkisääntöjä.
      2. Tästä voi olla eri tieteenaloilla omia käytäntöjään. Jos lukijana on tilastollisten menetelmien kanssa vähemmän tekemisissä olevat, niin käyttäisin merkintää 0.01, mutta tieteellisemmin suuntautuneelle yleisölle käyttäisin lyhennysmerkintää .01

      Vastaa
  28. Reetta

    Hei!
    Minulla on iso joukko maastomittauksia, joita on kerätty erilaisin välimatkoin. Haluan katsoa onko kussakin maastotyypissä eri tiheyksillä mitattujen parametrien keskiarvoilla tilastollista eroa ts. miten paljon mittaustiheys vaikuttaa lopputulokseen. Aineiston jako maastotyyppien mukaan sekä keräystiheyden mukaan johtaa siihen, että kussakin ryhmässä mittausten määrät ovat hyvin erisuuret (esim. 151\21). Otokset eivät myöskään liiemmin noudata normaaliakaumaa, kun tutkii histogrammeja tai kun tekee Kolmogorov_Smirnov:n testin kullekin ryhmälle. Onko tässä tapauksessa sopivaa käyttää Mann-Whitneyn U-testiä? Tuleeko minun silloin poimia kummastakin joukosta yhtä suuret määrät mittausarvoja? Jostain luin, että tässä testissä otantojen tulisi olla yhtä suuret.
    Kiitos paljon!

    Vastaa
    1. Aki Taanila Kirjoittaja

      Eri suuruiset otokset eivät ole ongelma Mann-Whitneyn U-testissä eikä myöskään Kruskall-Wallisin testissä.

      Vastaa
  29. roosa

    Hei Aki! Onko niin, että jos vertaillaan useita ryhmiä (vaikka yli 5 ryhmää) keskenään niin silloinhan mahdollisuus, että ryhmien välillä on merkitseviä eroja on pienempi (kuin jos ryhmiä olisi vähemmän)? Näin siis itse järkeilin,mutta tiedätkö onko tästä jossain mustaa valkoisella? 🙂

    Vastaa
    1. Aki Taanila Kirjoittaja

      Jos useamman ryhmän vertailuun käytetty testi osoittaa merkitseviä eroja, niin tämä tarkoittaa sitä, että ainakin kahden ryhmän välillä olisi merkitevä ero. Useamman ryhmän testi ei kuitenkaan kerro minkä ryhmien välillä merkitseviä eroja on. Tämä selviää parivertailujen avulla. En osaa ottaa kantaa siihen, onko mahdollisuus ryhmien väliseen merkitsevään eroon pienempi useamman ryhmän vertailutestissä.

      Vastaa
  30. malla

    Hei!

    Vieläköhän tänne voi jättää kysymyksiä 🙂 aloin sellasta kysymään, että voiko Mann-whitneyn u-testiä käyttää silloin, jos vertaa kahta riippumatonta ryhmää toisiinsa pistemäärien osalta ja toisen ryhmän jäsenet ovat kaikki saaneet 0 pistettä ja toisessa ryhmässä esim kaksi henkilöä on saanut yhden pisteen (pistemäärämaksimi 5 p. ja koehenkilöitä molemmissa ryhmissä 15 kpl). eli onko tuo 0 pistettäki aivan ”kelpaava” tulos vai toimiiko ko testi silloin. spss kyllä antoi verrata tämänkaltaisia mann-whitneyllä mutta ”voiko” niin tehdä?

    Vastaa
  31. Milka

    Haluaisin hieman selvennystä testien parametrisyydestä ja ei-parametrisyydestä, jotta ymmärtäisin testejä paremmin: ei-parametrisiä testejä sanotaan jakaumasta vapaiksi testeiksi ja parametrisia testejä taas jakaumaoletuksia edellyttäviksi testeiksi. Mitä tämä ero käytännössä tarkoittaa? Luin Käyttäytymistieteiden tilastolliset menetelmät -kirjasta, että khiin neliön riippumattomuus- testi sekä -yhteensopivuustesti ovat ei-parametrisiä testejä. Eikö havaintojen kuitenkin tässä tapauksessa pidä ”noudattaa” khiin neliö -jakaumaa, tai voidaanko näin edes sanoa kun puhutaan luokitteluasteisista muuttujista. Eikö khiin neliön -jakauma ole jollain tavalla johdettu normaalijakaumasta? Eikö silloin muuttujien pitäisi olla likimain normaalisti jakautuneita? Luokitteluasteiset muuttujat eivät tietenkään voi olla normaalisti jakautuneita, joten siksikö testi ei ole parametrinen. Onko siis niin, että ”parametrisyys” määräytyy sillä perusteella, noudattaako muuttujat (joille testiä käytetään) likimain normaalijakaumaa? Ja onko niin, että mikäli otos on pienempi kuin 30 niin voidaan automaattisesti melkein olettaa, että aineisto ei ole normaalisti jakautunut ja parametristä testiä ei voida käyttää? (tai sitten pienen otoskoon takia muut ehdot eivät täyty ja sen takia parametrista testiä ei voi käyttää?) Ja mikäli otos on suurempi niin tietyissä tapauksissa voidaan olettaa normaalijakautumisen ehdon täyttyneen ja testiä voidaan käyttää tai sitten täytyy vielä erikseen testata Smirnov-Kolmogorovin testillä normaalijakautuvuus? Minulle ei ole selvää vaatiiko parametrisen testin käyttö aina muuttujilta normaalistijakautuneisuutta. T-testeissä ja F-testeissä täytyy olla normaalisti jakautunut mutta miksi khiin testeissä ei vaikka johdettu normaalijakaumasta? Onko Levenen testi myös epäparametrinen? Pearsonin korrelaation merkitsevyys -testi on t-testi, joten sekin siis parametrinen kun molemmat muuttujat muutenkin vähintään määrällisiä niin voivat oll normaalisti jakautuneita, mutta entä Spearmanin merkitsevyystesti? Molemmat muuttujat voi olla järjestysasteikollisia niin miten ne voivat noudattaa normaalijakaumaa?
    Anteeksi, että oli vaikeasti selitetty, mutta en pääse tästä asiasta yli enkä ympäri, kun en asiaa käsitä, joten toivon edes jonkinlaista vastausta vaikka parametrisyys taitanee olla monimutkaisempi asiana mitä kuvittelenkaan.

    Vastaa
    1. Aki Taanila Kirjoittaja

      Parametrisissä testeissä testin käyttöedellytyksiin kuuluu, että havainnot ovat peräisin tiettyä jakaumaa noudattavasta perusjoukosta. Testien laskenta taas perustuu siihen että havaintojen perusteella laskettu niin kutsuttu testimuuttuja noudattaa jotain tiettyä jakaumaa. Tästä jakaumasta saadaan testin p-arvo.

      Joissain testeissä (parametrisissä) testimuuttujan voidaan osoittaa noudattavan tiettyä jakaumaa vain jos havainnot ovat peräisin tiettyä jakaumaa noudattavasta perusjoukosta. Toisissa testeissä (ei-parametrisissä) taas testimuuttuja noudattaa tiettyä jakaumaa riippumatta siitä minkälaisesta jakaumasta havainnot ovat peräisin.

      Perusjoukon jakauma ja testimuuttujan jakauma ovat siis kaksi eri asiaa. Testin parametrisyys liittyy siihen täytyykö perusjoukon jakaumalta edellyttää jotain.

      Vastaa

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s