Data-analytiikka Pythonilla

Python-ohjelmointikieli on joustava, tehokas ja ilmainen väline, jolla sujuu datan siivoaminen, kuvaileva analytiikka, selittävä analytiikka, aikasarjojen analysointi, ennakoiva analytiikka ja koneoppimisen mallit.

Python on tällä hetkellä suosittu ohjelmointikieli:

Näin pääset alkuun

  • Asenna Anaconda
  • Käynnistä Jupyter Notebook – Anacondan mukana tuleva ohjelmointiympäristö
  • Jos haluat opetella Python-ohjelmoinnin perusteita, niin kokeile Jupyter Notebookilla Teemu Sirkiän esimerkit
  • Jos haluat aloittaa suoraan data-analytiikasta, niin kokeile Jupyter Notebookilla tältä sivulta löytyviä  koodiesimerkkejä. Parhaiten opit kirjoittamalla koodit itse Jupyter Notebookiin ja tekemällä siinä ohessa omia kokeiluja.
  • Lisää koodiesimerkkejä sivulla Data-analytiikka Pythonilla – extrat.
  • Github – koodiesimerkit omalle koneelle – Voit kloonata koodiesimerkkini omalle koneelle oheisen ohjeen mukaan.

Dataan tutustuminen ja datan valmistelu

Kuvaileva analytiikka

Selittävä analytiikka

  • Ristiintaulukointi – näin laadit ristiintaulukoinnin, esität sen graafisesti ja testaat onko riippuvuus tilastollisesti merkitsevää.
  • Tunnuslukujen vertailu – näin vertailet tilastollisia tunnuslukuja eri ryhmissä ja  testaat erojen merkitsevyyttä.
  • Korrelaatio – hajontakaavio, korrelaatiokerroin ja sen merkitsevyyden testaaminen.

Aikasarjat

  • Aikaleimat – tekstimuotoisten aikatietojen avaaminen ja aikatietojen luominen.
  • Aikasarjat – aikasarjojen käsittely ja esittäminen.

Ennakoiva analytiikka – Aikasarjaennustaminen

Ennakoiva analytiikka – Regressiomalleja

Ennakoiva analytiikka – Luokittelumalleja

Lisämateriaali