Læknablaðið - 01.09.2015, Qupperneq 40
428 LÆKNAblaðið 2015/101
a ð S E n T E F n i
Helgi Tómasson
prófessor í hagrannsóknum
og tölfræði við Háskóla Íslands
helgito@hi.is
Háhitasvæði og
krabbamein:
misskilin tölfræði
Inngangur
Við mat á þýðingu áhættuþátta og tiltekinnar stærðar þarf að
byggja á tölfræði. Í greinum sínum vitna höfundar1,2 í umfjöllun
um grein um háhitasvæði og krabbamein3 til hugtaksins Spurio-
us Correlation, sem á íslensku hefur verið þýtt sem dellufylgni.
Uppruna hugtaksins má að minnsta kosti rekja til ársins 19264
þegar sýnt var er fram á mikla fylgni á milli dánartíðni (mortality)
og markaðshlutdeildar Ensku biskupakirkjunnar í brúðkaupum.
Greinin4 er kennslubókardæmi þar sem eðli fyrirbærisins er
skýrt. Fyrirbærið Spurious Correlation hefur greinilega verið þekkt
á þessum tíma því að áður höfðu birst5 svipuð rök í greiningu
heilsufarsgagna.
Villa sú sem ályktun um tengsl búsetu á háhitasvæðum og
krabbameinsáhættu3 byggir á er af skyldum toga. Í dellufylgni
liggur villan í því að gögnum er safnað í ákveðnu mynstri sem
venjulegar fylgniformúlur taka ekki á. Í greininni um Biskupa-
kirkjuna4 er þetta mynstur tímaraðamynstur. Ef gögn eru tíma-
röðuð er nauðsynlegt að taka tillit til þess mynsturs í ályktunum.
Í greininni um háhitasvæðin3 er einnig mynstur. Það mynstur
er raðhending (OS: Order Statistics), það er að tíðni krabbameina
er raðað. Þegar slík mynstur koma við sögu í fyrirbærum sem
stundum er talað um Galton fallacy og/eða Stein paradox. Í grein6
þar sem meðal annars er athugað nýgengi tiltekins blóðsjúkdóms
(toxoplasmosis) í 36 borgum í El Salvador rekja höfundar6 kennslu-
bókardæmi með skírskotun til tölfræði um íþróttamenn. Einhver
íþróttamaður hlýtur að vinna og sigur hans er samsettur úr
heppni og færni. Sama á við um borgirnar 36 í El Salvador. Ein-
hver er óheppnust og hugsanlega eru sumar borgir af einhverjum
ástæðum betri/verri. Ýktustu gildin eru sennilega ofmat/vanmat
á raunverulegu nýgengi. Í greininni6 er fyrirbærið skýrt og stung-
ið upp á endurbættum tölfræðiaðferðum. Hugtakið Galton fallacy
er kennt við 19. aldar vísindamanninn Francis Galton sem árið
18777 áttaði sig á því að stórvaxnir foreldrar hafa tilhneigingu til
að eignast sér minni afkomendur sem eru þó stærri en meðalein-
staklingurinn. Í nýlegri kennslubók er sagt8 að þetta sé oft upp-
spretta rangra ályktana, Galton fallacy: .. which has been the source of
incorrect inferences countless of times.
Þessi grein er þannig byggð upp að fyrst er hugtakið raðhend-
ing (OS) skýrt með einföldu dæmi. Síðan er lýst hvernig meta
megi áhættuhlutföll (HR: Hazard-Ratio) og hvernig eðlilegt er
að matið dreifist. Sýnt er reiknað dæmi sem byggir á einni töflu
úr greininni um háhitasvæði.3 Byggt er á Taylor-nálgunum á
öryggismörkum fyrir áhættuhlutföll. Slíkar nálganir eru alsiða í
hagnýtri tölfræði.
Hvað er raðhending (OS: Order Statistics)? Einfalt dæmi
Ef gefnir eru tveir biðtímar T1 og T2 sem báðir eru veldisdreifðar
(exponential) slembistærðir (random variable), með meðaltal 1 ár. Þá
skilgreinum við Tmin sem lægra gildið og Tmax sem stærra gildið.
Stærðirnar Tmin og Tmax eru ekki óháðar. Samkvæmt skilgrein-
ingu þarf að bíða skemur eftir lægra gildinu en hærra gildinu.
Með einfaldri líkindafræði er hægt að sjá að væntanlegur biðtími
eftir lægra gildinu er 1/2 ár og biðtími eftir hærra gildinu 3/2 ár. Í
einföldum tilfellum er eðlilegt að stysti tíminn sé minni en með-
altími (ef hann er til) og að lengsti tími sé stærri en meðaltími.
Nánari útfærslur á eiginleikum OS eru skýrðar í kennslubókum
eins og til dæmis.9
Um talningarbreytur og áhættuhlutföll
Poisson-dreifing er nærtækur kostur til að lýsa fjölda atburða á
tilteknu tímabili. Eins og í dæminu um biðtímann er eðlilegt að
ef mældar eru margar einsdreifðar óháðar Poisson-breytur með
sama meðaltal að þá verði hæsta mæligildið fyrir ofan væntanlegt
gildi og það lægsta fyrir neðan. Fyrir Poisson-dreifingu, flestar
aðrar dreifingar og hvað þá fyrir hlutföll af slíkum breytum, gild-
ir að ekki eru aðgengilegar nákvæmar formúlur fyrir dreifingu á
OS. Því er nauðsynlegt að notast við nálganir eða hermanir til að
reikna dreifingu slíkra stærða. Hér er notast við Taylor-nálgun,
sem einnig er stundum nefnd delta-aðferð.9
Gefnar eru tvær óháðar Poisson-dreifðar hendingar, X1 og
X2. Þær lýsa fjölda atburða á tveim jafnfjölmennum svæðum
á tilteknu tímabili. Væntanlegur fjöldi atburða af þessari gerð
eru λ1 og λ2. Áhættuhlutfallið (HR)=λ1/λ2 er áhugaverð stærð.
Þess vegna er dreifing stærðarinnar X1/X2, áhugaverð en ekki
auðreiknanleg með einfaldri líkindafræði. Gróf Taylor-nálgun
á dreifni (variance) metins áhættuhlutfalls (gildir ef λ1 og λ2 eru
stórar tölur) gefur:
(1)
þar sem Jg er Jacobi-afleiða g(x1,x2) = x1/x2 það er óvissan í reikn-
uðu HR er háð óvissu í teljara og nefnara.
Einnig mætti hugsa sér að vinna með logaritma HR og þá fæst
með Taylor-nálgun að:
V(log(X1/X2)) = V(log(X1) – log(X2)) ≅ 1/λ1 + 1/λ2 (2)
Nálgun við 95% öryggismörk fyrir HR má því fá með því að
beita annaðhvort jöfnu (1) eða (2). Ef λ1 og λ2 eru stórar tölur er
útkoman svipuð.
Ef svæðin eru misfjölmenn þarf að samræma kvarðann, til
dæmis í nýgengi per 100.000. Þá þarfa að margfalda Xi með ci =
100.000/pi, þar sem pi er stærðin á hóp i. Til að meta breytileika í
metnu áhættuhlutfalli þarf því að reikna: