Data-analytiikka Pythonilla

Täydentävää tietoa tämän sivun aiheisiin: Data-analytiikka Pythonilla – extrat.

Python-ohjelmointikieli on joustava, tehokas ja ilmainen väline, jolla sujuu datan siivoaminen, kuvaileva analytiikka, selittävä analytiikka, aikasarjojen analysointi, ennakoiva analytiikka ja koneoppimisen mallit.

Python on tällä hetkellä suosittu ohjelmointikieli:

Näin pääset alkuun

  • Asenna Anaconda
  • Käynnistä Jupyter – Anacondan mukana tuleva ohjelmointiympäristö
  • Jos haluat opetella Python-ohjelmoinnin perusteita, niin kokeile Jupyterilla Teemu Sirkiän esimerkit
  • Jos haluat sukeltaa suoraan data-analytiikkaan, niin aloita tästä. Parhaiten opit kirjoittamalla koodit itse Jupyter muistioon ja tekemällä siinä ohessa omia kokeiluja. Sinulla ei tarvitse olla aiempaa ohjelmointikokemusta! Voit käyttää tukena videota.
  • Halutessasi voit kopioida koodiesimerkkini omalle koneellesi: Github – koodiesimerkit omalle koneelle

Dataan tutustuminen ja datan valmistelu

Kuvaileva analytiikka

Selittävä analytiikka

Grafiikka

Aikasarjat

  • Aikaleimat – tekstimuotoisten aikatietojen avaaminen ja aikatietojen luominen
  • Aikasarjat – aikasarjojen käsittely ja esittäminen
  • Aikasarjaennustaminen 1 – artikkelin aiheena yksinkertainen eksponentiaalinen tasoitus
  • Aikasarjaennustaminen 2 – artikkelin aiheena kaksinkertainen eksponentiaalinen tasoitus eli Holtin malli
  • Aikasarjaennustaminen 3 – artikkelin aiheena kolminkertainen eksponentiaalinen tasoitus eli Holt-Winterin malli

Ennakoiva analytiikka

Kategorisen muuttujan ennakointi (luokittelu)

  • Luokittelu 1 – klassinen esimerkki kurjenmiekkojen luokittelusta menetelmänä päätöspuu (decision tree)
  • Luokittelu 2 – sydämen kunnon ennakointi menetelminä logistinen regressio, päätöspuu, satunnaismetsä (RandomForest) ja GradientBoosting
  • Luokittelu 3 – luottokorttipetosten ennakointi, mukana myös datan tasapainottaminen
  • Luokittelu 4 – ohjaamaton luokittelualgoritmi KMeans

Määrällisen muuttujan ennakointi

Lisämateriaali