Riskisuhde ja ristisuhde

Tilastotiede ei ole mikä tahansa tiede, sillä sen tuloksia käyttävät myös monet, jotka eivät tunne tieteenalan menetelmiä eivätkä ymmärrä päätelmien matemaattisia perusteluja. Siksi tilastotieteilijöiden olisi tarpeen selostaa tuloksiaan myös yleistajuisesti. Selitysten puuttuminen saattaa nimittäin johtaa vakaviin väärinkäsityksiin.

Yliopistonlehtori Pekka Pere kirjoittaa Yliopisto-lehdessä [1] tilastotieteellisestä väärinkäsityksestä, jota hän pitää yleisenä ja joka hänen esimerkkiensä runsaudesta päätellen sellainen onkin. Tilastollisten päätelmien loppukäyttäjät sekoittavat nimittäin usein käsitteet riskisuhde (engl. risk ratio) ja ristisuhde (engl. odds ratio). Lisää sekavuutta tuottaa se, että sanalla ”ristisuhde” on muitakin erikoismerkityksiä muun muassa geometriassa ja kankaankudonnassa.

Käsitteiden sekaantumisen mahdollisuus on suuri jo sen takia, että suomenkieliset termit ovat hyvin lähellä toisiaan. Nimissä on vain yhden kirjaimen ero: riskisuhde vs. ristisuhde. Kyse on kuitenkin ihan eri asioista. Riskisuhde kertoo kahden tapahtuman todennäköisyyksien suhteen.  Ristisuhde on puolestaan kahden kaksiarvoisen (dikotomisen) muuttujan välisen riippuvuuden mitta [2].  

Olkoot tarkasteltavina tapahtumat 1 ja 2 ja niiden esiintymistodennäköisyydet p1 ja p2. Tällöin niiden riskisuhde on $ r_{12}=\frac{p_1}{p_2}$ ja ristisuhde $v_{12}=\frac{\frac{p_1}{1-p_1}}{\frac{p_2}{1-p_2}}$. Käytän tässä selvyyden vuoksi ristisuhteen tunnuksena kirjainta ”v”, joka tulee sen aikaisemmin käytetystä nimityksestä vetosuhde [3] tai vedonlyöntisuhde [4], mikä vastaisi sanasanaisena käännöksenä paremmin englanninkielistä nimeä. 

Pere käyttää esimerkkinä tutkimusta, jonka tulosta on tulkittu niin, että akateemisesti koulutetun perheen nuori pääsee yliopistoon kahdeksankertaisella todennäköisyydellä verrattuna ei-akateemisessa perheessä kasvaneeseen nuoreen. Yksittäisillä lukuarvoilla ei ehkä olisi suurtakaan merkitystä, ellei niitä käytettäisi argumentteina yhteiskunnallisessa päätöksenteossa hallitusohjelmaa myöten. 

Tarkasti lukien Peren siteeraamassa tutkimuksessa on laskettu ristisuhde, joka on sitten tulkittu virheellisesti todennäköisyyksien suhteeksi eli riskisuhteeksi. Todellisuudessa koulutetun perheen nuoren yliopistoonpääsytodennäköisyys on käytetyn aineiston mukaan vain lähes kolminkertainen eikä kahdeksankertainen. Riskisuhde voidaan laskea tarkasti, kun tunnetaan todennäköisyydet, ja likimäärin pelkästä ristisuhteesta [5]:
     $r=v\frac{1-p_2\ }{1-p_1}\approx\sqrt{v}=\sqrt{8}\approx2{,}8$.

Väljään samaistamiseen voi johtaa myös se, että riskisuhteen ja ristisuhteen arvot ovat lähellä toisiaan, kun molemmat todennäköisyydet ovat pieniä (< 0,1), tai täysin samat (= 1), kun todennäköisyydet ovat yhtä suuret. Sekaannusta on omiaan aiheuttamaan myös suomenkielisen terminologian vakiintumattomuus, sillä ristisuhteesta on käytetty myös nimityksiä ristitulosuhde, kerroinsuhde, vedonlyöntikertoimien suhde tai vetosuhde. Tilastoseuran uudessa sanastossa [6] tarjotaan ensisijaisesti suomennosta ”ristisuhde” ja toissijaisesti ”vetosuhde” tilanteesta riippuen.  

Sekaannuksen todellinen syy on kuitenkin paljon syvemmällä kuin suomenkielisten nimitysten samankaltaisuudessa tai vakiintumattomuudessa. Virheellisen tulkinnan mahdollisuudesta puhutaan nimittäin sudenkuoppana myös englanninkielisessä kirjallisuudessa [7]. Kyse on siitä, verrataanko suotuisten tapahtumien (lääketieteessä usein positiivisten, altistuneiden (engl. exposed) tai sairastuneiden) määrää koko populaatioon vai ei-suotuisiin (negatiivisiin, ei-sairastuneisiin). Edellisessä tapauksessa kyseessä on empiirisenä todennäköisyytenä ilmoitettava riski ja jälkimmäisessä tapahtuman ja sen vastatapahtuman todennäköisyyksien suhde (engl. odds), josta käytetään suomennoksia mahdollisuus [2] ja vastasuhde tai vetokerroin [6].  Siis esimerkiksi verrataanko koronakuolemia kaikkiin sairastuneisiin (riski, todennäköisyys) vai koronasta toipuneisiin (mahdollisuus).   

Käsitteiden sekaantumisen ongelmaan on ainakin kaksi erilaista ratkaisua. Yliopisto-lehden artikkelissaan [1] Pere puhuu koulutuksen puolesta: ”Sovellusaloilla tulee huolehtia riittävästä tilastotieteen osaamisesta. Se tarkoittaa muun muassa riittävien resurssien osoittamista tilastotieteen koulutukseen.” Tämä on tietysti hyvä tie, mutta hidas, eikä se koskaan tavoita kaikkia, jotka tarvitsisivat tilastotieteellistä ymmärrystä. Koulutuksen vaikutus kyllä säteilee koulutettavien ulkopuolellekin verkosta julkisesti saatavan opetusmateriaalin kautta, esimerkkinä mainio Matemaattinen tilastotiede [4].

Toinen mahdollisuus on, että tilastotieteilijät ja yleensäkin tieteentekijät muuttaisivat raportointitapaansa lähemmäksi tulosten loppukäyttäjien ymmärryksen tasoa tai kirjoittaisivat ainakin yhteiskunnallisesti tärkeistä tuloksistaan tieteellisen artikkelin ohella kansanpainoksen, jossa selitettäisiin myös, mitä tulokset merkitsevät ja mitä eivät.  Tieteellisissä artikkeleissahan tällaisia selityksiä ei tarvita, sillä ne kirjoitetaan tieteenalan omalla kielellä toisille tieteentekijöille. 

Suorin tie koko kansan tieteellisen tiedon tason nostamiseen ja tieteen tulosten laaja-alaiseen käyttöön olisi avoimen julkaisemisen yleistyminen. Nythän suuri osa julkaistusta tieteellisestä tiedosta, myös suomeksi julkaistusta kansantajuisesta, on tavallisten ihmisten, myös opettajien ja koululaisten, tavoittamattomissa maksullisissa tiedelehdissä tai esimerkiksi Elektra-aineistoina, joihin on pääsy vain sopimuksen tehneiden oppilaitosten henkilökunnalla ja opiskelijoilla.

Yhteiskuntapolitiikka-lehti on hyvä esimerkki avoimuudesta, sillä sen artikkelit julkaistaan kokonaisuudessaan avoimina verkossa heti printtilehden ilmestyttyä [8]. Sen sijaan esimerkiksi Sosiologia-lehden [9] artikkelit ja siten myös se artikkeli, josta Pere on alussa mainitun yliopistoonpääsyesimerkkinsä ottanut, ovat käyttörajoitettua Elektra-aineistoa. Näin ollen on helppo ymmärtää, että Yhteiskuntapolitiikka-lehteen kirjoitetun artikkelin yhteiskunnallinen vaikuttavuus on suurempi kuin Sosiologia-lehteen kirjoitetun, olipa lehden tieteellinen taso mikä tahansa lehden oman toimituksen mielestä. 

Lähteitä ja lisää luettavaa:

[1] Pere, Pekka: Tarkkuutta tilastotietoihin. Yliopisto 4/2021 s. 59.

[2] Sarna, Seppo: Kliinisen biostatistiikan kurssin sanasto (2012) osoitteessa https://www.mv.helsinki.fi/home/sarna/Opetus/Sanasto

[3] Rita, Hannu: Vetosuhde (odds ratio) ei ole todennäköisyyksien suhde. Metsätieteen aikakauskirja 2/2007 s. 207–211.

[4] Liski, Erkki: Matemaattinen tilastotiede. Matematiikan, tilastotieteen ja filosofian Laitos, Tampereen Yliopisto, 2005, s. 10, osoitteessa https://webpages.tuni.fi/uta_statistics/liski-arkisto/mtt05/Luennot05/Luku1_05.pdf

[5] Pere, Pekka: Kätevä arvio riskisuhteesta avuksi yhteiskuntatieteilijöille. Yhteiskuntapolitiikka 85 (2020): 4, s. 434–436.

[6] Alho, J., Arjas, E., Läärä, E. ja Pere, P.: Tilastotieteen sanasto. Tilastoseura. Ilmestyy loppuvuodesta 2021.

[7] Ranganathan, Priya, Aggarwal, Rakesh ja Pramesh, C. S.: Common pitfalls in statistical analysis: Odds versus risk. Perspectives in Clinical Research (2015) 6(4) s. 222–224 osoitteessa https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4640017/

[8] Yhteiskuntapolitiikka-lehti osoitteessa https://yplehti.fi/lehdet/

[9] Sosiologia-lehti osoitteessa https://www.sosiologia.fi/indeksi/ (käyttörajoitettu Elektra-aineisto)

Kirjoittaja