Data-analytiikka Pythonilla

Täydentävää tietoa tämän sivun aiheisiin: Data-analytiikka Pythonilla – extrat.

Python-ohjelmointikieli on joustava, tehokas ja ilmainen väline, jolla sujuu datan siivoaminen, kuvaileva analytiikka, selittävä analytiikka, aikasarjojen analysointi, ennakoiva analytiikka ja koneoppimisen mallit.

Python on tällä hetkellä suosittu ohjelmointikieli:

Näin pääset alkuun

  • Asenna Anaconda
  • Käynnistä Jupyter – Anacondan mukana tuleva ohjelmointiympäristö
  • Voit sukeltaa suoraan data-analytiikkaan aloittamalla pandas1-muistiosta. Parhaiten opit kirjoittamalla esimerkki-muistion koodit itse Jupyter-muistioon ja tekemällä siinä ohessa omia kokeiluja. Sinulla ei tarvitse olla aiempaa ohjelmointikokemusta! Voit käyttää tukena videota.
  • Halutessasi voit kopioida koodiesimerkkini jupyter muistiot omalle koneellesi: Github – koodiesimerkit omalle koneelle

Dataan tutustuminen ja datan valmistelu

Kuvaileva analytiikka

Selittävä analytiikka

Grafiikka

Aikasarjat

Ennakoiva analytiikka

Kategorisen muuttujan ennakointi (luokittelu)

  • Luokittelu 1 – klassinen esimerkki kurjenmiekkojen luokittelusta menetelmänä päätöspuu (decision tree)
  • Luokittelu 2 – sydämen kunnon ennakointi menetelminä logistinen regressio, päätöspuu, satunnaismetsä (RandomForest) ja gradienttitehostus (GradientBoosting)
  • Luokittelu 3 – luottokorttipetosten ennakointi, mukana myös datan tasapainottaminen
  • Luokittelu 4 – ohjaamaton luokittelualgoritmi KMeans

Määrällisen muuttujan ennakointi

Lisämateriaali