Python-ohjelmointikieli lukuisine ohjelmakirjastoineen on joustava ja tehokas tapa datojen analysointiin ja visualisointiin.
Artikkeleita
- Data-analytiikkaa Pythonilla
- Asenna Anaconda – Anaconda sisältää kaiken tarvittavan datojen analysointiin.
- Jupyter – kätevä väline Python-ohjelmien kirjoittamiseen ja ajamiseen.
- Github – esimerkit omalle koneelle – ohje esimerkkikoodieni kloonaamiseen omalle koneellesi.
Kuvailu
- Dataframe – ensimmäinen tutustuminen dataframeen.
- Avaa data dataframeen – Excel- ja csv-muotoisten datojen avaaminen dataframeen.
- Temppuja dataframella – opit muiden muassa järjestämään, suodattamaan, laskemaan frekvenssejä, laskemaan tunnuslukuja ja laskemaan korrelaatioita.
- Ryhmittelyjä groupby-toiminnolla – tätä ryhmittely-työkalua ei kannata ohittaa!
- Lukumääriä ja prosentteja – parhaat käytännöt lukumäärä- ja prosenttiyhteenvetojen laskemiseen eri tyyppisissä tilanteissa value_counts– ja pd.crosstab -funktioilla.
- Olennaiset taidot kuvailevaan analyysiin – Datojen avaaminen – Dataan tutustuminen – Datan valmistelu – Data analysointi – Tulosten viimeistely.
- Pivot-taulukoita Pythonilla – pivot_table mahdollistaa monipuolisen raportoinnin.
- Luokiteltu jakauma – luokittele määrällinen muuttuja ennen frekvenssien tai tilastollisten tunnuslukujen laskemista.
- Tunnuslukuja – tunnuslukuja ja korrelaatioita.
- Kuviot Pythonilla 1 – matplotlib.pyplot -kirjaston käytön alkeita.
- Pylväskaavioita Pythonilla – yleisimmät pylväskaavion käyttötapaukset.
- Kuviot Pythonilla 2 – pylväskuvioita seaborn-kirjastoa käyttäen.
- Kuviot Pythonilla 3 – kuvioita määrällisille muuttujille.
- Tunnusluvut Exceliin – laske tunnuslukuja ja kirjoita tulokset Exceliin.
- Frekvenssitaulukot Exceliin – laske aineiston kaikille muuttujille frekvenssitaulukot.
- Ristiintaulukointi – crosstab() – laske ristiintaulukoinnit crosstab-toiminnolla ja tallenna tulokset Exceliin.
- Datan pika-analyysi Pythonilla – kaikki frekvenssitaulukot, ristiintaulukoinnit ja keskeiset tunnusluvut nopeasti Exceliin.
Tilastollinen merkitsevyys / p-arvot
- Merkitsevyystestausta Pythonilla – yleisimmät testit tilastollisen merkitsevyyden testaamiseen.
Aikasarjat
- Aikasarjat – Aikasarjojen käsittely ja esittäminen.
- Quandl – Esimerkkejä Quandl-palvelun aikasarjojen käytöstä.
- Aikasarjaennustaminen 1 – Yksinkertainen eksponentiaalinen tasoitus.
- keskeiset tunnusluvut nopeasti.
- Aikasarjaennustaminen 2 – Kaksinkertainen eksponentiaalinen tasoitus eli Holtin malli.
- Aikasarjaennustaminen 3 – Kolminkertainen eksponentiaalinen tasoitus eli Holt-Winterin malli.
Mallit
- Lineaarinen regressio 1 – Tästä artikkelista opit sklearn-kirjaston käyttöliittymän koneoppimisen malleihin.
- Lineaarinen regressio 2 – Useamman selittävän muuttujan regressio.
- Lineaarinen regressio 3 – Tässä on mukana erikseen opetusdata ja testidata.