SOM – Kohosen kartta

Joulukuussa 2021 menehtyi tieteen akateemikko Teuvo Kohonen. Hän oli maailman merkittävimpiä neuroverkkojen tutkijoita. Tunnetuin hän on itseorganisoituvan kartan nimellä tunnetusta data-analyysialgoritmistaan.

Suomessa Teuvo Kohonen tunnetaan elektroniikan ja tietotekniikan koulutuksen ja tutkimuksen uranuurtajana. Hän oli opiskellut Teknillisessä korkeakoulussa, jossa hän myös työskenteli koko uransa ajan. Koulutuksestaan hän kertoi myöhemmin (HS 1.10.1999) näin:

Opiskeluaikojen ainoa pahempi pettymys oli – matematiikka. Teknillisen fysiikan opiskelija ei saanut koulustaan sellaista teoreettisen matematiikan opetusta, jota olisi kaivannut. ”Olen vähän harmissani siitä vieläkin”, Kohonen sanoo yllättäen. ”Laajemmista matematiikan tiedoista olisi voinut olla paljon apua – olisi vielä nykyisinkin.”

Jossain vaiheessa paljon ennen nykyistä tietokoneiden aikakautta hän sai tietoa oppivista koneista. Niihin aikoihin käytettiin yleisemmin nimitystä oppiva kone, nykyään puhutaan neuroverkoista ja neurolaskennasta. Suomessa oli silloin tutkimuskäytössä Teknillisessä korkeakoulussa vain yksi tietokone, nimeltään ESKO (Elektroninen SarjaKOmputaattori). Liike-elämässä oli käytössä yksi IBM-tietokone, nimeltään Ensi. 

Mustavalkovalokuva Teuvo Kohosesta kädet vanhan tietokoneen näppäimistöllä.
Kuva 1: Akatemiaprofessori Teuvo Kohonen [1].

Nykyajan opiskelijasta, jopa koululaisesta tilanne tuntuu varmasti mahdottomalta. Tietokoneiden olemassaolo ei ole kuitenkaan edellytys oivalluksille, joista Kohonen paljon puhui. Hänen mukaansa niitä syntyy, kun asioita pohtii tarpeeksi. Mieli on silloin valmistautunut uusiin ajatuksiin. Perustiedot pitää tietenkin olla kunnossa. Samassa haastattelussa Kohonen sanoi keksimisestä näin:

Kohonen erottaa keksijät ja kirjanoppineet toisistaan. Hänen mukaansa kirjanoppinut on tutkija, joka kokoaa kirjallisuudesta tietoja ja selittää tämän tiedon perusteella monia asioita mahdollisimman tarkasti. Keksijä on tutkija, joka luo kokonaan uutta: uusia ajatuksia, uusia malleja, uusia menetelmiä; kaikkea, mitä kukaan ei ole ennen huomannut ajatella.

Oivallus

Kohonen opiskeluala oli alunperin ydin- ja hiukkasfysiikka. Hänen väitöskirjansa käsitteli positronifysiikkaa. Hän kiinnostui kuitenkin jo 1960-luvulla tietokoneista. Vuonna 1982 hän keksi itseorganisoituvan kartan (engl. Self-Organizing Map, SOM). Sitä kutsutaan usein myös Kohosen kartaksi. Se kuvaa datajoukkojen alkioiden välisiä tilastollisia yhteyksiä. Ne voidaan muuntaa geometrisiksi suhteiksi ja esittää kaksiulotteisina karttoina. Nykyisen puhetavan mukaan itseorganisoituva kartta olisi ohjaamattoman syväoppimisen tekniikka [2] tai neuroverkkomalli. 

Karttojen sovelluksista kerrottaessa käytetään usein esimerkkinä vertailua, jossa maat on luokiteltu hyvinvoinnin mukaan erivärisiin rypäisiin (kuva 1). Köyhyyteen ja rikkauteen vaikuttavia tekijöitä on kymmeniä tai satoja. Kuvasta voi tarkastella valtioiden suhteellista sijoittumista helposti yhdellä silmäyksellä tarvitsematta käydä läpi suunnatonta määrää taulukkodataa.

Sateenkaaren väreissä oleva, kuusikulmioista muodostuva kartta, jossa eri maat on merkitty lyhenteillä.
Kuva 2: Itseorganisoituvan kartan menetelmällä tuotettu kuva valtioiden ryvästymisestä hyvinvoinnin tekijöiden mukaan. [3]

Kohosen kartta luotiin alun perin puheen tunnistamisen avuksi, mutta nykyisin se on vakiomenetelmä, kun halutaan visualisoida laajoja ja moniulotteisia data-aineistoja. Sitä on käytetty muun muassa kasvojen tunnistuksessa, kulutustottumusten analysoinnissa, lukemisvaikeuksien tutkimisessa, dokumenttien ja kuvien analysoinnissa, patenttihakemusten ryhmittelyssä, prosessi- ja sähkötekniikassa, kemiassa sekä lääke-, talous- ja kielitieteessä. Niiden avulla voidaan havainnollistaa asioita, joissa on jopa satoja muuttujia. Niinpä sitä on käytetty myös internet-aineistojen luokitteluun. [4] 

Kohosen kartan perusidea on etsiä rakenteita monimutkaisista aineistoista. Kartta projisioi moniulotteisen avaruuden tasoon ryhmitellen samankaltaiset tapaukset lähekkäin. Yksinkertainen konkreettinen analogia voisi olla kasvipuristin, joka litistää kolmiulotteisen kukkakasvin kasvistoon lisättäväksi kaksiulotteiseksi kohokuvaksi. Kolmiulotteisen avaruuden ihminen pystyy hahmottamaan, mutta jo neljän ulottuvuuden (ominaisuuden) tapauksessa tarvitaan apuvälineitä hahmottamiseen ja havainnollistamiseen. Kun muuttujia (ominaisuuksia, ulottuvuuksia) on satoja, niin tavanomaiset tilastolliset ryvästysmenetelmät eivät pysty tilannetta analysoimaan, varsinkaan silloin kun ennakolta ei ole tiedossa, millaisia rypäitä tai luokkia olisi tarkoituksenmukaista muodostaa. [5]

Jäätyään juuri eläkkeelle vuonna 1999 Kohonen kuvasi itseorganisoituvien karttojen perusideaa Helsingin Sanomien haastattelussa [6] näin: 

[Se] on tiedon järjestämisen tapa, jossa asiat pannaan itse järjestämään itsensä. Samanlaiset hakeutuvat samanlaisten seuraan, lähelle toisiaan. Prosessi muistuttaa kemiallista reaktiota. Algoritmi on puhdasta matematiikkaa, sovellukset usein hyvin käytännöllisiä asioita.

Tulos

Kohosesta on kirjoitettu paljon sanoma- ja aikakauslehdissä sekä tieteellisissä julkaisuissa. Hänen karttansa on ehkä suomalaisen tiedehistorian siteeratuin yksittäinen keksintö. Google-haku ”Teuvo Kohonen” tuottaa lähes 60 000 osumaa. Siihen nähden on aika yllättävää, miten hankalaa tavallisen ihmisen on yrittää perehtyä itseorganisoituvien karttojen tekemiseen. Hänen omaa kirjaansa [7] on saatavissa kymmenestä yliopisto- tai korkeakoulukirjastosta, mutta Finnan mukaan ei yhdestäkään kunnallisesta kirjastosta. Samoin itseorganisoituvia karttoja koskevista artikkeleista monet ovat käyttörajoitettua aineistoa eivätkä siten ole yleisön tavoitettavissa [8]. Mitään selvää periaatetta ei näyttäisi olevan siitä, mitä verkossa on julkisesti saatavissa ja mitä ei. Niinpä esimerkiksi Kohosen kaksiosaisesta julkaisusta kiinan kielen sanojen luokittelusta ensimmäinen osa [9] ei ole verkossa vapaasti saatavissa, mutta toinen [10] on.

Kohosen itsensä vuonna 2014 kirjoittama opas [11] on ylivoimaisesti paras lähde itseorganisoituvien karttojen menetelmän ymmärtämiseen. Menetelmästä oli jo tuolloin kirjoitettu yli 10 000 tieteellistä artikkelia ja kymmeniä kirjoja sekä sen jälkeen useita satoja vuosittain. Yleistä, täsmällistä matemaattista todistusta sille, että algoritmi konvergoisi millä tahansa ulottuvuuksien määrällä ja aineiston rakenteella, ei ole esitetty, vaikkakin useissa yksinkertaisissa tapauksissa konvergointi on voitu osoittaa. Sopivilla parametrien valinnoilla algoritmi toimii kuitenkin käytännössä ja tuottaa havainnollisia ja aineistoa oikein kuvaavia karttoja.  

Itseorganisoituvia karttoja tuottavia ohjelmistopaketteja on tuotettu monenlaisille ohjelmointialustoille sekä ilmaisohjelmina että kaupallisesti. Mitään yleistä standardointia ei ole olemassa, sillä monet ratkaisut on suunniteltu erityistarkoituksiin. Yksi käytännön vaikeuksista on siinä, että Kohosen ryhmä kirjoitti algoritminsa alun perin MATLABilla ja siten muita alustoja käytettäessä ei ole aina selvää, miten oikeat (molemmissa englanninkielisissä merkityksissään ”proper” ja ”correct”) toiminnot pitäisi ohjelmoida. Toinen yleinen ongelma-alue on Kohosen mielestä datan, erityisesti harjoitusdatan, laatu. Eikä monimutkaisen ja epälineaarisen laskentaprosessin vaatimuksiakaan ole aina ymmärretty.

Julkaisussaan [11] Kohonen selostaa itseorganisoituvan kartan muodostumista vaihe vaiheelta. Esimerkkeinä hän käyttää tv-signaalin demodulointia, metallisia alkuaineita, värejä, valtioiden hyvinvointia, tieteellisten artikkeleiden luokittelua ja kiinan kielen sanoja.

Satunnaiset värineliöt ja oikeanpuolimmaisessa kuvassa nätisti sävytetty versio värineliökuvasta.
Kuva 3: 25 × 25 satunnaista värineliötä ja saman aineiston värivektoreiden neliöjuurten perusteella muodostettu SOM-kartta (CIE-värikaavio) (lähde [11]).

Itseorganisoituvien karttojen merkitys ja käyttö on vain kasvanut viime vuosina. Kuvaava esimerkki on aivotutkimuksen tuloksia hyödyntävä dynaaminen näköanturi (engl. dynamic vision sensor, DVS camera) [12], [13]. Toista, aivan erilaista sovellusaluetta edustaa Geologian tutkimuskeskuksen uusi, ympäristöystävällinen malminetsintäohjelmisto [14], [15], jonka Euroopan komissio nimesi viime vuoden lopulla korkean tason innovaatioksi [16]. Sekin hyödyntää Kohosen karttoja.

Lähteet ja lisää luettavaa

[1] Akatemiaprofessori Teuvo Kohonen. Aalto-yliopiston arkisto, Teknillisen korkeakoulun valokuvat, CC BY 4.0

[2] Ali, Amir: Self Organizing Map (SOM) with Practical Implementation. Wavy AI Research Foundation, 2019, osoitteessa https://medium.com/machine-learning-researcher/self-organizing-map-som-c296561e2117

[3] Äkräs, Tapio: Kohosen kartta – itseoppivan tekoälyn mahdollistaja, Kolster 4.6.2019, osoitteessa https://www.kolster.fi/blog/kohosen-kartta-itseoppivan-tekoalyn-mahdollistaja

[4] Kohonen, Teuvo ym.:  WEBSOM – Self-organizing maps of document collections. Neurocomputing, vol. 21, Issues 1–3, 6.11. 1998, s. 101–117

[5] Werner, Stefan: Itseorganisoituvat kartat intonaatiotutkimuksen apuvälineenä. Puhe ja kieli 21:4, 153-162 (2001), osoitteessa https://docplayer.fi/16005000-Itseorganisoituvat-kartat-intonaatiotutkimuksen-apuvalineena.html

[6] Korhonen, Johanna: Neurovelhon elämän työ. Helsingin Sanomat 1.10.1999 osoitteessa https://www.hs.fi/kotimaa/art-2000003831322.html

[7] Kohonen, Teuvo: Self-organizing maps. Springer 1997, 2001, 2004.

[8] Esimerkiksi Kohonen, Teuvo: Uudet informaation käsittelyn menetelmät ja niiden tulevaisuusrelevanssi. Tulevaisuuden tutkimuksen seura, Futura 17 (1998) : 4, s. 37-54. Osoitteessa https://www.doria.fi/handle/10024/23840

[9] Kohonen Teuvo ja Xing, Hongbing: Contextually Self-Organized Maps of Chinese Words. Julkaisussa Laaksonen J., Honkela T. (eds): Advances in Self-Organizing Maps. WSOM 2011. Lecture Notes in Computer Science, vol 6731. Springer, Berlin, Heidelberg. Abstrakti osoitteessa https://link.springer.com/chapter/10.1007/978-3-642-21566-7_2

[10] Kohonen, Teuvo: Contextually self-organized maps of Chinese words, part II. AALTO ICS, Espoo 2010. Saatavissa osoitteesta https://aaltodoc.aalto.fi/handle/123456789/913

[11] Kohonen, Teuvo: MATLAB Implementations and Applications of the Self-Organizing Map, Unigrafia Oy, Helsinki, Finland, 2014.

[12] Khacef, Lyes ym.: Reentrant Self-Organizing Map: Toward Brain-Inspired Multimodal Association. ERCIM-uutiset 125, 2021 osoitteessa https://ercim-news.ercim.eu/en125/special/reentrant-self-organizing-map-toward-brain-inspired-multimodal-association

[13] Event-based Vision, Event Cameras, Event Camera SLAM. University of Züric, Department of Informatics, Institute of Neuroinformatics osoitteessa https://rpg.ifi.uzh.ch/research_dvs.html

[14] Geologian tutkimuskeskus: GisSOM-ohjelmisto monimuuttuja-aineiston klusterointiin ‒ Katsaus klusterointiin ja itseorganisoituviin karttoihin osoitteessa [15] Geologian tutkimuskeskus, 7.9.2021: GisSOM-ohjelmisto monimuuttuja-aineiston klusterointiin – Itseorganisoituvat kartat osoitteessa https://www.gtk.fi/ajankohtaista/gissom-ohjelmisto-monimuuttuja-aineiston-klusterointiin-itseorganisoituvat-kartat/

[16] Geologian tutkimuskeskus, 28.9.2021: Euroopan komissio luokitteli uuden, ympäristöystävällisen malminetsintämenetelmän korkean tason innovaatioksi osoitteessa https://www.gtk.fi/ajankohtaista/euroopan-komissio-luokitteli-uuden-ymparistoystavallisen-malminetsintamenetelman-korkean-tason-innovaatioksi/


Tilaa Dimension uutiskirje – saat sähköpostiisi aina kuunvaihteessa koosteen tuoreimmista artikkeleista.

Kirjoittajat