Kirjallisuutta: Datatiede

Kelleher, J. D. ja Tierney, Br.: Datatiede. Terra Cognita 2021, 258 sivua.

Datatiede on kirja datatieteestä. Se taas on puolestaan yksi tietojenkäsittelytieteestä eriytyneistä tieteenaloista. Sen rinnakkaisnimityksinä käytetään tekijöiden mukaan usein termejä koneoppiminen ja tiedonlouhinta. Ne antavat ymmärtää, että tekoälystä on kyse. 

Tekijöistä toinen, Kelleher, on kirjoittanut tekoälystä toisenkin kirjan nimeltään Syväoppiminen. Kaisa Vähähyyppä esitteli sen tässä lehdessä helmikuulla. Se käsitteli tekoälyn teknologiaa niin yksityiskohtaisesti, että Datatiede olisi tarpeellinen pohja sen lukemiseen.

Laajasti käsitettynä datatiede on tekoälyä tutkiva tieteenala, joka pitää sisällään kone- ja syväoppimisen, tiedonlouhinnan, hahmontunnistuksen, suuraineistoteknologiat, suurten rakenteettomien aineistojen, kuten sosiaalisen median ja muiden verkkosisältöjen tunnistamisen ja kokoamisen sekä aineistoetiikan sääntelyn.

Datatiede on nuori tiede, syntynyt vähitellen 1990-luvulta alkaen. Sen merkitys on käynyt erityisen ilmeiseksi viimeisen vuosikymmenen aikana tiedon määrän valtavan kasvun takia. On arvioitu, että kirjoitustaidon keksimisestä vuoteen 2013 asti syntyneen aineiston määrä olisi noin viisi eksatavua (= triljoonaa tavua). Tätä nykyä tuotetaan ja tallennetaan sama määrä dataa päivittäin! Tämä perustelee käsitteen suuraineisto eli big data tarpeellisuuden. 

Kirja ei pitäydy vain nykytilaan, vaan siinä on hyviä katsauksia historialliseen kehitykseen, esimerkiksi aineiston kirjaamisesta esihistoriasta lähtien, tilastotieteen kehityksestä, tietokannoista, aineistojen graafisesta esittämisestä ja tietosuojalainsäädännöstä.

Pääpaino, seitsemän kahdeksasosaa kirjan sisällöstä sivumäärällä mitaten, on kuitenkin nykyisyydessä. Kirjan suurin ansio onkin ehkä sen ajantasaisuus. Käsittelyn kohteina ovat tietoaineistojen rakenteet ja arkkitehtuuri, aineistojen ymmärtämiseen tähtäävät analyysit, koneoppimisen perusteet neuroverkot ja itseoppivien algoritmien tuottamien mallien vinoutumat mukaan lukien sekä suuraineistojen kokoamiseen ja käyttöön liittyvät eettiset kysymykset.    

Aiheiden suuresta määrästä huolimatta käsittelytapa ei suinkaan rajoitu abstrakteihin yleispiirteisiin, vaan perusasioita käsitellään myös konkreettisella yksityiskohtatasolla. Esimerkkinä voisivat olla aineistojen luokittelytyypit, aihe joka on sisältynyt ainakin ihmistieteiden metodiopintoihin vuosikymmenet. Siinä kirjoittaja ei tavoita rakenteellista eikä terminologista selkeyttä, kun hänen luettelonsa on ”numeerinen, nominaalinen ja ordinaalinen aineisto”. Vaikka suomentajan tehtäviin ei kuulukaan välttämättä alkuperäisen kirjoittajan sanoman selkiyttäminen, niin tässä kohdassa olisi kyllä toivonut tavanomaisia suomalaisia termejä luokittelu-, järjestys- ja suhdeasteikko konkreettisuusjärjestyksessä. 

Toinen konkreettinen kohta on tilastolliset perusanalyysit. Esimerkiksi korrelaatio selostetaan aivan alusta pitäen: ”korrelaatio kuvaa kahden piirteen yhteyden vahvuutta”. Pearsonin korrelaatiokerrointa selostetaan usean sivun verran havainnollistaen asiaa puolella tusinalla kahden muuttujan yhteisjakaumakuvioita (engl. scatter diagram). Regressioanalyysi selitetään myös perusteellisesti, vaikkakin keskittyen lineaariseen regressioon.

Näistä tilastollisista perusanalyyseistä siirrytään suoraan neuroverkkoihin perustuvien syväoppivien algoritmien tarjoamiin epälineaarisiin jatkoanalyysimahdollisuuksiin. Siirtymäkohdassa tavallinen lukija saa olla tarkkana, sillä niihin ei johdatella samalla kärsivällisyydellä kuin korrelaatioon ja lineaariseen regressioon, vaan syöksytään suoraan yksityiskohtiin, ehkä siksi, että juuri ne ovat kirjoittajien arkipäivää ja siksi heille itsestään selviä. Aktivaatiofunktioista esitellään kaksi tavallisinta: logistinen funktio ja hyperbolinen tangentti. Myös muita kuin numeerisen aineiston analysoimiseen tarkoitettuja menetelmiä käsitellään: esimerkiksi lukion todennäköisyyslaskennan kirjoista tuttuja päätöspuita. 

Datatieteen tehtävistä nostetaan kirjassa esille tärkeimmät: ryvästys, poikkeavuuden havainnointi, assosiaatiosääntöihin perustuva tiedon louhinta ja ennustaminen. Esimerkiksi sairauteen viittaavia poikkeavia löydöksiä etsitään lääketieteellisten laboratorio- tai kuvantamistutkimusten tuloksista. Tai vakuutuspetosyrityksiä tai luottokorttihuijauksia omista aineistoistaan. Niiden koneellinen etsintä ei olisi edes mahdollista ilman suuraineistoja ja niitä analysoivia algoritmeja. 

Datatieteen kaupallinen merkitys perustuu kuluttajakäyttäymisestä kerättyihin aineistoihin. Muodostetut assosiaatiosäännöt kertovat, mitä muuta tietyn tuotteen ostavalle asiakkaalle kannattaisi tarjota. Esimerkiksi hampurilaisen tilanneelle asiakkaalle tehdyn kysymyksen ”Otatko myös ranskalaiset?” takana on tällainen assosiaatiosääntö.

Suurin datatieteen tulevaisuuden ongelmista on ehkä saadun tiedon käyttö. Yhdistämällä eri lähteistä saadut yksilöä koskevat tiedot päästäisiin niin tarkkoihin profiileihin, että algoritmit tuntevat ihmisen usein tarkemmin kuin läheisimmät perheenjäsenet. Tämä ei koske ainoastaan kaupallista kulutuskäyttäytymistä, vaan myös kaikkea yhteiskunnallista toimintaa ja jopa psykologista suuntautumista. Valvontaan, ohjaamiseen ja jopa pakottamiseen on paremmat mahdollisuudet kuin koskaan ennen. Samoin monenlaiseen harhauttavaan tai vihamieliseen toimintaan. Näitäkin eettisiä kysymyksiä valotetaan kirjan loppupuolella.