Todennäköisyyslaskenta ja vasta-aineet

Mihin matematiikan tunnilla opittuja asioita tarvitaan? Korona-aikana tähän löytyy paljon vastauksia aina eksponentiaalisesta kasvusta ennustemalleihin. Yksi ajankohtainen ilmiö ovat vasta-ainetestit ja niihin liittyvät todennäköisyydet.

Verinäytteestä voidaan tutkia, onko henkilöllä pandemian aiheuttaneen SARS-Cov-2 –viruksen vasta-aineita. Niiden löytyminen on merkki sairastetusta virusinfektiosta. Testitulosten luotettavuus riippuu kuitenkin – ehkä hieman yllättäen –  siitä, kuinka suurella osalla väestöstä on vasta-aineita.

Sama ilmiö liittyy myös muihin lääketieteellisiin testeihin. Asia on hahmotettavissa lukion todennäköisyyslaskennan pohjalta ja saattaa kiinnostaa esim. lääketieteen opinnoista haaveilevaa lukiolaista. Sen käsitteleminen on hyvä tapa tuoda esiin, miten monella alueella matematiikkaa sovelletaan. Lisäksi se toimii muistutuksena siitä, kuinka matematiikka auttaa ymmärtämään ilmiöitä, joissa arkinen intuitio vie harhaan.

Tarkkuus ja herkkyys

Lääketieteellisiin testeihin liitetään kaksi arvoa: herkkyys ja tarkkuus. Herkkyys on todennäköisyys sille, että testi tunnistaa positiivisen näytteen (eli näytteen jossa on vasta-aineita), ja tarkkuus todennäköisyys sille, että testi tunnistaa negatiivisen näytteen (näytteen jossa ei ole vasta-aineita). Erään markkinoilla olevan SARS-Cov-2 –vasta-ainetestin herkkyys on n. 9

Äkkiseltään ehkä kuvittelisi, että näillä luvuilla testitulos on varsin luotettava. Todennäköisyyslaskenta on kuitenkin epäintuitiivista. Asian ydin on siinä, että on erotettava toisistaan seuraavat kysymykset:

  1. Millä todennäköisyydellä saan positiivisen testituloksen, jos veressäni on vasta-aineita?
  2. Millä todennäköisyydellä veressäni on vasta-aineita, jos saan positiivisen tuloksen?

  Testin herkkyys antaa vastauksen ensimmäiseen kysymykseen, mutta toinen kysymys on vaikeampi.

Tarkastellaan tilannetta, jossa vasta-aineita on prosentilla väestöstä. Nyt 100 testihenkilön joukossa keskimäärin yhdellä on vasta-aineita. Tämä saa 9

Kun taudin on sairastanut 5

Positiivisen tuloksen luotettavuus kasvaa, kun suurempi osa väestöstä sairastaa taudin. Voi tuntua hämmentävältä, että muiden vasta-aineet vaikuttavat oman tuloksen luotettavuuteen. Todennäköisyysilmiönä tämä eroaa kuitenkin esim. nopanheittojen sarjasta siinä, että tapaukset riippuvat toisistaan. Voin saada testistä paikkansapitävän positiivisen tuloksen vain, jos veressäni on vasta-aineita. Niinpä oikean positiivisen todennäköisyys riippuu todennäköisyydestä sille, että minulla on vasta-aineita.  Ensimmäisessä esimerkissä jälkimmäinen on

Jos yllä esitetyt argumentit epäilyttävät, voi asiasta varmistua myös klassisen todennäköisyyden kautta. Todennäköisyys sille, että saa testistä oikean positiivisen, on sama kuin todennäköisyys sille että 1) veressä on vasta-aineita (

Luotettavuutta toistojen kautta

Ongelmaa voi korjata testaamalla positiivisen tuloksen saaneet uudelleen. Jos vasta-aineiden esiintyvyys koko väestössä on

On kuitenkin syytä muistaa, että lääketieteelliset testit eivät ole puhdasta todennäköisyyslaskentaa. Niissä voi tapahtua systemaattisia virheitä, jotka vain toistuvat testiä uusittaessa. Yksi esimerkki on tilanne, jossa jonkin muun viruksen vasta-aineet aiheuttavat väärän positiivisen.

Positiivisen tuloksen luotettavuus kasvaa kun esiintyvyys kasvaa, mutta samalla pienenee negatiivisen tuloksen luotettavuus. Jos vasta-aineiden esiintyvyys on 9

Vaikka testitulos voi olla yksilön kohdalla epäluotettava, voi satunnaisotannalla tehdyillä vasta-ainetesteillä silti saadaan suhteellisen luotettavia arvioita siitä, kuinka suurella osalla koko väestöstä on vasta-aineita, kunhan otoskoko on riittävän suuri. Tulos heittää vähän, mutta kun testin herkkyys ja tarkkuus tiedetään, pystytään niiden avulla laskemaan tarkempi arvio. Tällaista väestötason tietoa puolestaan voi käyttää sen arvioimiseen, kuinka luotettavia testit ovat yksilön kohdalla.

Bayesin teoreema

 Kun kysytään, millä todennäköisyydellä positiivinen testitulos pitää paikkansa, lasketaan itse asiassa todennäköisyyttä sille, että veressä on vasta-aineita, kun toteutuu ehto, joka sanoo että tulos on positiivinen. Ehdollisiin todennäköisyyksiin liittyviä kysymyksiä tutki 1700-luvulla brittiläinen pastori ja matemaatikko Thomas Bayes. Hänen mukaansa on nimetty Bayesin teoreema, jonka kautta niitä voidaan tarkastella.

Ehdollista todennäköisyyttä merkitään $P(A|B)$ (todennäköisyys, että $A$ tapahtuu, kun ehto $B$ on voimassa). Bayesin teoreema sanoo, että

$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}.$$

Lasketaan tästä todennäköisyys positiivisen testituloksen pätevyydelle ensimmäisessä esimerkissä, jossa vasta-aineiden esiintyvyys oli

Jotta voitaisiin laskea haluttu todennäköisyys Bayesin teoreeman antamasta kaavasta,  on vielä laskettava $P(B)$ eli todennäköisyys sille, että testitulos on positiivinen. Se saadaan laskemalla yhteen oikean ja väärän positiivisen tuloksen todennäköisyydet (kts osio Tarkkuus ja herkkyys): $P(B)=0,97 \cdot 0,01+(1-0,96)(1-0,01)$. Eli

$$P(A|B)=\frac{0,97 \cdot 0,01}{0,97 \cdot 0,01+(1-0,96)(1-0,01)}=20%.$$

Mutta miksi teoreema pitää paikkansa? Asian voi perustella seuraavasti. Todennäköisyyden, että sekä $A$ ja $B$ ovat voimassa yhtä aikaa, voi laskea kahdella tavalla. Koska tiedetään, että todennäköisyys tapahtumalle $B$ kun $A$ on voimassa, on $P(B|A)$, saadaan todennäköisyys sille, että molemmat ovat voimassa kertomalla tapahtuman $A$ todennäköisyys tällä todennäköisyydellä: $P(A \textrm{ ja } B)=P(A) \cdot P(B|A)$. Toisaalta tiedetään myös, että todennäköisyys tapahtumalle $A$ kun $B$ on voimassa, on $P(A|B)$, eli $P(A \textrm{ ja } B)=P(B) \cdot P(A|B)$. Siispä $P(B)P(A|B)=P(A)P(B|A)$, ja jakamalla puolittain termillä $P(B)$ saadaan Bayesin teoreeman kaava.

Aloituskuva: https://unsplash.com/photos/egT3xtDu9DQ

Kirjoittaja