Skip to content

Tuhma vai kiltti – binäärin luokittelijan ja modernin data-alustan käyttö Korvatunturin liiketoiminnan ohjaamiseen

Dec 14, 2023 7:35:43 AM Joonas Ollila

"Nyt nimien kirjaan merkitään taas:
Tuhma vai kiltti, ajatelkaas!"

Joululaulussa se sanotaan suoraan – joulupukilla on hyvin kattava rekisteri potentiaalisista lahjansaajista. Toisaalta AI-menetelmien hyödyntäminen työn tuottavuuden kasvattamiseksi on megatrendi, jonka vaikutukset tuntuvat Korvatunturillakin. Näistä seikoista voimme päätellä, että joulupukki käyttää koneoppimista yhdessä ajantasaisen data-alustan kanssa. Rekisteriä nimittäin päivitetään jatkuvasti ("merkitään taas") ja sinne kertyvien tietojen perusteella tuotetaan liiketoiminnan lopputuotokseen eli lahjojen jakamiseen vaikuttavaa dataa ("tuhma vai kiltti").

Siirtymä kurkistelevista tontuista markkinointievästeisiin

Koneoppimisessa kaiken pohjana toimii ajantasainen ja helposti käytettävissä oleva data. Perinteinen tapa koostaa dataa on tuttu ja työläs tonttu-kierrevihko-iltahämärä-menetelmä, joka ei kuitenkaan nykyaikana ole tarkoituksenmukainen tai edes tarpeellinen. Jätämme jatkuvasti digitaalisia jälkiä ja niiden jälkien avulla tontut saavat paljon kattavamman kuvan siitä, kuka lahjat ansaitsee.

Tuhma vai kiltti -luokitteluun tarvittavaa tietoa Korvatunturi voi saada vaikka seuraavista lähteistä:

  • some-päivitykset (omat ja muiden)
  • selailuhistoria
  • sijaintihistoria
  • puhelutiedot
  • aktiivisuustiedot älykelloista ja vastaavista
  • kodin IoT-laitteet

Datan hyödyntäminen luokitteluun kuitenkin onnistuu vain, jos laajat tietomassat saadaan yhdistettyä oikeisiin henkilöihin. Osa perinteisestä tiedonkeruusta vapautetuista tontuista on löytänyt uuden uran data engineering ja data cleaning -puolelta.

Tiedonhallinta tonttujen data-alustassa ei ole yksinkertainen toimenpide (seurattavia kohteita kun on yli 8 000 000 000), vaan tonttujen on otettava huomioon alustan määrittelyssä mm.

  • Skaalautuva ja joustava arkkitehtuuri
  • Integraatiomenetelmät, jotka tukevat erilaisia lähdejärjestelmiä ja integraatiotyyppejä (eräajot, streaming, viestit)
  • Asiantunteva tietomallinnus

Tonttujoukon on luotava tiedonhallintamalli, joka takaa datan laadun ja tietoturvan. Tämä varmistaa, että lahjat menevät oikeisiin osoitteisiin eivätkä tuhmat pääse käsiksi Korvatunturin salaiseen dataan. Lisäksi on tärkeää huomioida tietojen elinkaaren hallinta, jotta edellisten vuosien tuhmuudet eivät vaikuta rekisterissä pidemmälle ja Joulupukki välttää GDPR-sanktiot.

Ohjattuun oppimiseen perustuvan binäärin luokittelijan opettaminen ajantasaisen datan ja asiantuntijanäkemyksen avulla

Vuosisatojen aikana tontut ovat oppineet erottamaan tuhmat ja kiltit lahjansaajat toisistaan erinomaisesti. Tonttuhavaintojen pohjalta saadaan joukko opetusdataa, jonka avulla opetetaan binääri luokittelumalli. Binäärin luokittelumallin juju on luokitella havainnot kahteen joukkoon. Arkipäivän esimerkkejä ovat mm. saapuvien sähköpostien luokittelu roskaposteiksi ja oikeiksi viesteiksi.

Opetusdataa kertyy jatkuvasti lisää (kaikkia ikkunan taa kurkkivia tonttuja ei ole suinkaan siirretty datatyöhön) ja samoin myös dataa käyttäytymisestä, jolloin itse mallikin vaatii jatkuvaa tuunaamista. Uusien mallien opettaminen tuotantoympäristössä kulkee nimellä MLOps ja olemme kuvanneet MLOps-toiminnan parhaat käytännöt uuteen whitepaperiimme tontuille ja muille aiheesta kiinnostuneille.

Ohjatussa oppimisessa opetusdata jaetaan kolmeen osaan: harjoitusdataan, validointidataan ja testidataan. Harjoitusdatan avulla opetetaan luokittelumalli ennustamaan, kumpaan luokkaan havainto kuuluu, tuhmaan vai kilttiin, näyttämällä mallille esimerkkejä luokkiin kuuluvista havainnoista. Validointidata puolestaan kertoo, miten hyvin malli suoriutuu tehtävästään. Kun erilaisista malleista on valittu validointidatan ja tonttujen asiantuntija-arvion mukaan parhaiten tilanteeseen soveltuva, määritetään sen suorituskyky testidatan avulla ja malli on valmis käyttöön.

tuhma-vai-kiltti-data

Uuden, tonttujen keräämän datan perusteella mallin suorituskykyä tarkkaillaan jatkuvasti. Yksi havainnollistava työkalu tähän on sekaannusmatriisi (confusion matrix). Sekaannusmatriisin avulla seurataan, miten paljon malli ennustaa väärin. Luokittelussa on yleistä, että ennustevirheet eivät ole samanarvoisia. Esimerkiksi lentokoneen osien laaduntarkkailussa on pahimmillaan hengenvaarallista ennustaa osan olevan kunnossa, jos siinä oikeasti onkin vikaa. Toiseen suuntaan ennustevirheen seuraukset ovat paljon lievemmät. Alla esimerkki tonttujen sekaannusmatriisista.

tuhma-vai-kiltti-matriisi

Henkilötietojen käyttäminen ja vinoumat AI-avusteisessa päätöksenteossa

Henkilötietojen keräämiseen tulee aina olla laillinen henkilötietojen käsittelyperuste. Peruste voi olla joku seuraavista:

  • rekisteröidyn suostumus
  • sopimus
  • rekisterinpitäjän lakisääteinen velvoite
  • elintärkeiden etujen suojaaminen
  • yleistä etua koskeva tehtävä tai julkinen valta
  • rekisterinpitäjän tai kolmannen osapuolen oikeutettu etu

Näistä perusteista hetken miettimisen jälkeen jää jäljelle oikeastaan vain yleistä etua koskeva tehtävä. Lahjojen jakaminen tuottaa niin paljon iloa, että ainakin kirjoittajan mielestä vaatimus täyttyy ja kunnes asiaa on puitu tuomioistuimessa, lienee pukki syytön, kunnes toisin todetaan. Pukilla on varmuuden vuoksi toinenkin ässä hihassaan, nimittäin amerikkalaisen uskomuksen mukainen sijainti pääkonttorille Pohjoisnavalla. Pohjoisnapa lasketaan kansainväliseksi merialueeksi, jolloin lainsäädäntö määräytyy aluksen kotisataman perusteella ja pukki selviää tilanteesta kuivin jaloin.

Henkilötietojen laillisen käsittelyperusteen ohella tekoälyavusteisessa päätöksenteossa on kiinnitettävä huomiota mm. siihen, että päätökset eivät syrji ketään. Korvatunturin AI-strategiassa, jota en yrityksistä huolimatta vielä löytänyt, otetaan oletettavasti kantaa luokittelijan opettamiseen käytetyn datan edustavuuteen sekä mallin suorituskyvyn seurantaan. Strategian mukaisesti AI-tontuille on tähdennetty, että tekoälyn tekemien päätösten pitää olla perusteltavissa, toistettavissa ja jäljennettävissä. Jotta luottamus joulupukin organisaation oikeudenmukaiseen toimintaan säilyy, on AI-strategian huolellinen laatiminen, päivittäminen ja noudattaminen avainasemassa.

Lopulta kun henkilödataa on rikastettu digitaalisista jäljistä tehdyillä päätelmillä, on aika hakea nimien kirjan merkinnät laulussa tuttuun tyyliin:

He's making a database
He's sorting it twice
SELECT * from contacts
WHERE behavior = nice
SQL Clause is coming to town

Pakettien perille toimittamisen mysteeri onkin ratkaistu jo aiemmin, joten ei muuta kuin odottamaan pukkia kuusen ympärille. Löydät blogistamme myös ohjeet, kuinka optimoit piparkakkutaikinan hävikin.

Hauskaa joulua kaikille!

Aiheeseen liittyvät artikkelit