Koneoppimisen käsitteitä

Data-analytiikan tasot

Data-analytiikka voidaan jakaa neljään tasoon seuraavasti:

dataportaat

Kahdella alimmalla tasolla selvitään yleensä kuvailevilla menetelmillä ja tilastollisten merkitsevyyksien laskemisella. Kahdella ylimmällä tasolla tarvitaan koneoppimisen malleja.

Koneoppimisen menetelmien jaottelu

Koneoppimisalgoritmit voidaan luokitella  seuraavasti (suomennokset eivät ole vakiintuneita):

  • Supervised learning (ohjattu oppiminen): Algoritmi opetetaan opetusdatalla (training data). Esimerkiksi roskapostisuodatin opetetaan sähköpostidatalla, jossa on erilaisia tietoja kustakin sähköpostiviestistä sekä tieto siitä oliko sähköpostiviesti roskapostia. Tämän datan perusteella muodostuu malli, jota käyttäen tulevista sähköpostiviesteistä voidaan tunnistaa roskapostiviestit.
  • Unsupervised learning (ohjaamaton oppiminen): Esimerkiksi asiakkaiden jakaminen asiakassegmentteihin.
  • Reinforcement learning (vahvistusoppiminen): Algoritmi suorittaa toimia ja saa niistä palautetta palkkioiden ja rangaistuksen muodoissa. Algoritmi oppii saamistaan palkkioista ja rangaistuksista. Vahvistettua oppimista käytetään esimerkiksi robotiikassa.

Seuraavassa jaotellaan ohjattu ja ohjaamaton oppiminen edelleen alatyyppeihin:

kone1

Ohjattu oppiminen

Ohjatussa oppimisessa:

  • Kone muodostaa (oppii) mallin opetusdatan (training set) avulla.
  • Opetusdata koostuu selittävistä muuttujista (feature matrix) ja selitettävästä eli ennustettavasta muuttujasta (target).
  • Opetusdatassa ennustettavan muuttujan arvot (labels) ovat tiedossa.
  • Opitun mallin avulla kone osaa ennustaa ennustettavan muuttujan arvoja (labels) uudelle datalle.

ohjattu1

Ohjatun oppisen prosessi etenee seuraavan kaavion mukaisesti:

ohjattu2

Ohjattua oppimista, jossa ennustettava muuttuja on kategorinen (discrete label) käytetään esimerkiksi seuraavissa:

  • Roskapostisuodatin
  • Sairauden diagnosointi
  • Maksuhäiriön ennakointi
  • Vakuutuspetoksen tunnistaminen
  • Auton rekisterinumeron koneellinen lukeminen
  • Esineiden tunnistaminen valokuvasta

Tällaisissa tilanteissa kyse on luokittelusta (classification) ja käytettäviä malleja ovat esimerkiksi:

  • Naiivi Bayes
  • Logistinen regressio
  • Päätöspuut (decision trees)
  • K lähintä naapuria (K nearest neighbor)

Käytännössä lineaarisesti erotettavissa olevat luokat ovat helpompia erotella:

luokittelu1

Ohjattua oppimista, jossa ennustettava muuttuja on määrällinen (continuous label) käytetään esimerkiksi seuraavissa:

  • Kysynnän ennustaminen
  • Asunnon hinta
  • Käytetyn auton hinta

Tällaisissa tilanteissa käytetään eniten erilaisia regressiomalleja, esimerkiksi lineaarista regressiota.

regressio1.PNG

Ohjaamaton oppiminen

Ohjaamatonta oppimista voidaan käyttää esimerkiksi asiakassegmenttien muodostamiseen. Ohjaamattomassa oppimisessa on käytössä ainoastaan selittävät muuttujat (feature matrix).

ohjaamaton1.PNG

Käytetyin menetelmä on K-means klusterointi, missä K viittaa muodostettavien klusterien lukumäärään, joka tässä mentelmässä päätetään etukäteen.

Datan yksinkertaistamiseen, havainnollistamiseen ja taustalla olevien rakenteiden tunnistamiseen voidaan käyttää pääkomponenttianalyysia (Principal component analysis). Tällä menetelmällä selittävistä muuttujista (feature matrix) muodostetaan laskennallisesti pienempi joukko muuttujia.  Seuraavissa kuvioissa on pelkistetty alkuperäinen kolmen muuttujan asetelma kahden muuttujan asetelmaksi.

ohjaamaton2

Pääkomponenttianalyysillä voidaan esimerkiksi eri oppiaineissa menestymisen takaa tunnistaa erilaisia lahjakkuuksia (verbaalinen, matemaattinen jne.).

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out /  Muuta )

Google photo

Olet kommentoimassa Google -tilin nimissä. Log Out /  Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out /  Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out /  Muuta )

Muodostetaan yhteyttä palveluun %s