Täydentävää tietoa tämän sivun aiheisiin: Data-analytiikka Pythonilla – extrat.
Python-ohjelmointikieli on monipuolinen, tehokas ja ilmainen väline, jolla sujuu datan siivoaminen, kuvaileva analytiikka, selittävä analytiikka, aikasarjojen analysointi, ennakoiva analytiikka ja koneoppimisen mallit. Jos osaat data-analytiikkaa Pythonilla, niin osaat myös automatisoida data-analytiikkaa.
Näin pääset alkuun
- Asenna Anaconda tai Miniconda
- Käynnistä Jupyter
- Voit sukeltaa suoraan data-analytiikkaan aloittamalla pandas1-muistiosta. Parhaiten opit kirjoittamalla esimerkki-muistion koodit itse Jupyter-muistioon ja tekemällä siinä ohessa omia kokeiluja. Sinulla ei tarvitse olla aiempaa ohjelmointikokemusta! Voit käyttää tukena videota.
- Halutessasi voit kopioida koodiesimerkkini jupyter muistiot omalle koneellesi: Github – koodiesimerkit omalle koneelle
- Artikkeli: Miksi Python?
- Artikkeli: Data-analytiikka Pythonilla
Dataan tutustuminen ja datan valmistelu
- Dataframe
- Avaa data Excel-tiedostosta
- Avaa data csv-tiedostosta
- Dataan tutustuminen (myös videona)
- Datan muunnokset (myös videona)
- Suodatusta ja poimintaa (myös videona)
- Datojen yhdistäminen vierekkäin ja allekkain
Kuvaileva analytiikka
- Diasarja: Kuvaileva analytiikka – keskeiset menetelmät
- Frekvenssitaulukko (myös videona)
- Luokiteltu jakauma (myös videona)
- Tilastollisia tunnuslukuja (myös videona)
- Dummy-muuttujien kuvailu
- Kuvaileva analytiikka – parhaat käytänteet
- Artikkeli: Lukumäärä- ja prosenttiyhteenvedot Pythonilla
Selittävä analytiikka
- Diasarja: Selittävä analytiikka – keskeiset menetelmät
- Ristiintaulukointi (myös videona)
- Tunnuslukujen vertailu (myös videona)
- Laskentaa ryhmittäin groupby-toiminolla (myös videona)
- Korrelaatio (myös videona)
- Dummy-muuttujat selittävän muuttujan määräämissä ryhmissä
- Pivot-taulukot (myös videona)
- Selittävä analytiikka – parhaat käytänteet
Grafiikka
- Artikkeli: Kuviot ja kaaviot Pythonilla
- Matplotlib perusteet
- Matplotlib – osa 1: yksinkertainen pylväskaavio
- Matplotlib – osa 2: usean arvosarjan pylväskaavio
- Matplotlib – osa 3: histogrammi
- Matplotlib – osa 4: värien ja värikarttojen käyttö
- Matplotlib – osa 5: kaavioiden oletusparametrit (fontit ym.)
- Matplotlib – osa 6: kahden arvoakselin kaavio
- Matplotlib – osa 7: usean kaavion kuviot
- Kaaviot: opettavainen kokoelma esimerkkejä
- Seaborn – vaikuttavia kaavioita helpolla tavalla
Aikasarjat
- Aikaleimat – tekstimuotoisten aikatietojen avaaminen ja aikatietojen luominen
- Aikasarjat – aikasarjojen käsittely ja esittäminen
- Artikkeli: Aikasarjaennustaminen 1 – yksinkertainen eksponentiaalinen tasoitus
- Artikkeli: Aikasarjaennustaminen 2 – kaksinkertainen eksponentiaalinen tasoitus eli Holtin malli
- Artikkeli: Aikasarjaennustaminen 3 – kolminkertainen eksponentiaalinen tasoitus eli Holt-Winterin malli
Ennakoiva analytiikka
- Artikkeli: Koneoppimisen käsitteitä
- Artikkeli: Koneoppiminen ja scikit-learn -kirjasto
- Datan valmistelu koneoppimisen malleja varten
Kategorisen muuttujan ennakointi (luokittelu)
- Luokittelu 1 – klassinen esimerkki kurjenmiekkojen luokittelusta menetelmänä päätöspuu (decision tree)
- Luokittelu 2 – sydämen kunnon ennakointi menetelminä logistinen regressio, päätöspuu, satunnaismetsä (RandomForestClassifier) ja gradienttitehostus (GradientBoostingClassifier)
- Luokittelu 3 – luottokorttipetosten ennakointi, mukana myös datan tasapainottaminen
- Luokittelu 4 – ohjaamaton luokittelualgoritmi KMeans
- Esimerkki sopivien hyperparametrien etsimisestä
- Syväoppimisen ”Hello World” – Keinotekoinen neuroverkko käsinkirjoitettujen numeroiden tunnistamiseen
- Esimerkki konvoluutioneuroverkosta – Parempi malli käsinkirjoitettujen numeroiden tunnistamiseen
Määrällisen muuttujan ennakointi
- Lineaarinen regressio 1 – lineaarinen regressio – yksi selittävä muuttuja
- Lineaarinen regressio 2 – lineaarinen regressio – useampi selittävä muuttuja
- Myynnin ennustaminen – lineaarinen regressio, satunnaismetsä (RandomForestRegressor), gradienttitehostus (GradientBoostingRegressor)
- Käytetyn auton hinnan ennustaminen – mukana myös kategoristen muuttujien muuttaminen dummy-muuttujiksi
Muuttujarakenteen yksinkertaistaminen
Lisämateriaali
- Videoita
- Lisää koodiesimerkkejä: Data-analytiikka Pythonilla – extrat