Täydentävää tietoa tämän sivun aiheisiin: Data-analytiikka Pythonilla – extrat.
Python-ohjelmointikieli on suosittu, monipuolinen, tehokas ja ilmainen väline, jolla sujuu datan siivoaminen, kuvaileva analytiikka, selittävä analytiikka, aikasarjojen analysointi, ennakoiva analytiikka ja koneoppimisen mallit.
Vaikka et olisi aiemmin koodannut, niin data-analytiikkaan tarvittavat Python taidot opit helposti.
Jos osaat data-analytiikkaa Pythonilla, niin osaat myös automatisoida data-analytiikkaa!
Näin pääset alkuun
- Asenna Anaconda tai Miniconda
- Käynnistä Jupyter
- Aloita data-analytiikka pandas1-muistiosta (myös videona). Parhaiten opit kirjoittamalla esimerkki-muistion koodit itse Jupyter-muistioon ja tekemällä siinä ohessa omia kokeiluja. Sinulla ei tarvitse olla aiempaa koodauskokemusta!
- Halutessasi voit kopioida koodiesimerkkieni Jupyter-muistiot omalle koneellesi: Github – koodiesimerkit omalle koneelle
- Artikkeli: Miksi Python?
- Artikkeli: Data-analytiikka Pythonilla
Dataan tutustuminen ja datan valmistelu
- Dataframe
- Avaa data Excel-tiedostosta
- Avaa data csv-tiedostosta
- Dataan tutustuminen (myös videona)
- Datan muunnokset (myös videona)
- Suodatusta ja poimintaa (myös videona)
- Datojen yhdistäminen vierekkäin ja allekkain
Kuvaileva analytiikka
- Diasarja: Kuvaileva analytiikka – keskeiset menetelmät
- Frekvenssitaulukko (myös videona)
- Luokiteltu jakauma (myös videona)
- Tilastollisia tunnuslukuja (myös videona)
- Dummy-muuttujien kuvailu
- Kuvaileva analytiikka – parhaat käytänteet
- Artikkeli: Lukumäärä- ja prosenttiyhteenvedot Pythonilla
Selittävä analytiikka
- Diasarja: Selittävä analytiikka – keskeiset menetelmät
- Ristiintaulukointi (myös videona)
- Tunnuslukujen vertailu (myös videona)
- Laskentaa ryhmittäin groupby-toiminolla (myös videona)
- Korrelaatio (myös videona)
- Dummy-muuttujat selittävän muuttujan määräämissä ryhmissä
- Pivot-taulukot (myös videona)
- Selittävä analytiikka – parhaat käytänteet
Grafiikka
- Artikkeli: Kuviot ja kaaviot Pythonilla
- Matplotlib perusteet
- Matplotlib – osa 1: yksinkertainen pylväskaavio
- Matplotlib – osa 2: usean arvosarjan pylväskaavio
- Matplotlib – osa 3: histogrammi
- Matplotlib – osa 4: värien ja värikarttojen käyttö
- Matplotlib – osa 5: kaavioiden oletusparametrit (fontit ym.)
- Matplotlib – osa 6: kahden arvoakselin kaavio
- Matplotlib – osa 7: usean kaavion kuviot
- Kaaviot: opettavainen kokoelma esimerkkejä
Seaborn-grafiikka
- Seaborn – vaikuttavia kaavioita helpolla tavalla
- sns_count – Kategorisen muuttujan lukumääräyhteenveto (countplot)
- sns_hist – Määrällisen muuttujan luokiteltu jakauma (histplot)
- sns_bar – Keskiarvot pylväinä (barplot)
- sns_box – Tilastollisia tunnuslukuja grafiikkana (boxplot)
- sns_scatter – Kahden määrällisen muuttujan välinen riippuvuus (scatterplot, pairplot)
Aikasarjat
- Aikaleimat – tekstimuotoisten aikatietojen avaaminen ja aikatietojen luominen
- Aikasarjat (myös videona) – aikasarjojen käsittely ja esittäminen
- Aikasarjaennustaminen 1 – yksinkertainen eksponentiaalinen tasoitus
- Aikasarjaennustaminen 2 – kaksinkertainen eksponentiaalinen tasoitus eli Holtin malli
- Aikasarjaennustaminen 3 – kolminkertainen eksponentiaalinen tasoitus eli Holt-Winterin malli (myös videona)
- Aikasarjan korjaus – puuttuvat aikaleimat, puuttuvat ja/tai päällekkäiset havainnot
Ennakoiva analytiikka
- Artikkeli: Koneoppimisen käsitteitä
- Artikkeli: Koneoppiminen ja scikit-learn -kirjasto
- Datan valmistelu koneoppimisen malleja varten
Kategorisen muuttujan ennakointi (luokittelu)
- Luokittelu 1 – klassinen esimerkki kurjenmiekkojen luokittelusta menetelmänä päätöspuu (decision tree) (myös videona)
- Luokittelu 2 – sydämen kunnon ennakointi menetelminä logistinen regressio, päätöspuu, satunnaismetsä (RandomForestClassifier) ja gradienttitehostus (GradientBoostingClassifier) (myös videona)
- Luokittelu 3 – luottokorttipetosten ennakointi, mukana myös datan tasapainottaminen (myös videona)
- Luokittelu 4 – ohjaamaton luokittelualgoritmi KMeans
- Esimerkki sopivien hyperparametrien etsimisestä
- Syväoppimisen ”Hello World” – Keinotekoinen neuroverkko käsinkirjoitettujen numeroiden tunnistamiseen
- Esimerkki konvoluutioneuroverkosta – Parempi malli käsinkirjoitettujen numeroiden tunnistamiseen
Määrällisen muuttujan ennakointi
- Lineaarinen regressio 1 – lineaarinen regressio – yksi selittävä muuttuja (myös videona)
- Lineaarinen regressio 2 – lineaarinen regressio – useampi selittävä muuttuja (myös videona)
- Myynnin ennustaminen – lineaarinen regressio, satunnaismetsä (RandomForestRegressor), gradienttitehostus (GradientBoostingRegressor) (myös videona)
- Käytetyn auton hinnan ennustaminen – mukana myös kategoristen muuttujien muuttaminen dummy-muuttujiksi
Muuttujarakenteen yksinkertaistaminen
Lisämateriaali
- Videoita
- Lisää koodiesimerkkejä: Data-analytiikka Pythonilla – extrat