Data-analytiikka Pythonilla

Python-ohjelmointikieli on joustava, tehokas ja ilmainen väline, jolla sujuu datan siivoaminen, kuvaileva analytiikka, selittävä analytiikka, aikasarjojen analysointi, ennakoiva analytiikka ja koneoppimisen mallit.

Python on tällä hetkellä suosittu ohjelmointikieli:

Näin pääset alkuun

  • Asenna Anaconda
  • Käynnistä Jupyter – Anacondan mukana tuleva ohjelmointiympäristö
  • Jos haluat opetella Python-ohjelmoinnin perusteita, niin kokeile Jupyterilla Teemu Sirkiän esimerkit
  • Jos haluat aloittaa suoraan data-analytiikasta, niin kokeile Jupyterilla tämän sivun esimerkkikoodeja. Parhaiten opit kirjoittamalla koodit itse Jupyter-notebookiin ja tekemällä siinä ohessa omia kokeiluja.
  • Github – koodiesimerkit omalle koneelle – Voit kloonata koodiesimerkkini omalle koneelle oheisen ohjeen mukaan. Katso VIDEO.

Artikkeleita

Koodeja (tähdelliset ovat tähdellisiä!)

Dataan tutustuminen ja datan valmistelu

Kuvaileva ja selittävä analytiikka

Tilastollinen merkitsevyys

Aikasarjat

  • Aikaleimat – tekstimuotoisten aikatietojen avaaminen ja aikatietojen luominen.
  • Aikasarjat – aikasarjojen käsittely ja esittäminen. Myös VIDEOINA.
  • Quandl – esimerkkejä Quandl-palvelun aikasarjojen käytöstä.

Grafiikka

  • Matplotlib – DataFrame matplotlib -grafiikaksi – perusasiat.
  • Esimerkkikokoelma kaavioiden laadinnasta.
  • Seaborn1 – pylväskaavioita seaborn-kirjastoa käyttäen.
  • Seaborn2 – kaavioita määrällisille muuttujille seaborn-kirjastosta.
  • Seaborn3 – tehokkaita menetelmiä määrällisille muuttujille.

Ennakoiva analytiikka

Aikasarjaennustaminen

Regressiomalleja

Luokittelumalleja

Data tietokannasta

Tuloksia suoraan Exceliin