Noter i statistik

Cohens kappa-koefficient

Mange analyser - især indenfor patologi og nuklearmedicin - er baseret på en lægefaglig, og til dels subjektiv, vurdering af et billede. Det kan være et mikroskopibillede af et vævssnit, et billede fra et gammakamera eller lignende.

Det kan derfor være relevant at undersøge i hvor høj grad to personer vurderer billeder ens, eller med andre ord: Om analyseresultatet afhænger af hvem der bedømmer billederne.

Mere formelt er der altså her tale om at analysere data på en nominal- eller ordinal-skala, hvor de metoder der indtil nu er gennemgået har beskæftiget sig med data på en interval/ratio-skala (se side 2.2).

Eksempel 1

To bioanalytikere har vurderet et antal blodprøver med henblik på om de er lipæmiske eller ej. Dette gav nedenstående resultater:

    bioanalytiker 1
    lipæmisk ikke lipæmisk i alt
bioanalytiker 2 lipæmisk 24 3 27
ikke lipæmisk 5 28 33
i alt 29 31 60

Nu kunne man selvfølgelig blot konstatere at de to bioanalytikere er enige i 52/60 = 87% af tilfældene. Problemet med denne beregning er, at selv hvis bioanalytikerne blot gætter tilfældigt så vil de stadig være enige om en del af tilfældene. Så man har brug for et mål der relaterer den observerede enighed (87%) til den enighed bioanalytikerne vil opnå hvis de gætter. 

Kappa-koefficienten

Til dette formål anvendes ofte den såkaldte kappa-koefficient. Det er allerede her relevant at bemærke, at der blandt forskere er stor uenighed om brugbarheden af kappa-koefficienten. Denne uenighed har mange forskellige årsager, som ikke gennemgås nærmere her. Uanset denne uenighed, så anvendes kappa-koefficienten ofte, og derfor er det relevant at se nærmere på den.

Kappa er defineret som:

$$
\kappa=\frac{p_0-p_t}{1-p_t}
$$

\(p_0\) er den observerede overensstemmelse, mens \(p_t\) er den overensstemmelse man vil få, hvis man gætter uafhængigt af hinanden. Hvorledes disse størrelser bestemmes bliver gennemgået i eksemplet nedenfor.

Tælleren udtrykker hvor meget den observerede overensstemmelse er bedre end "tilfældigt", og nævneren udtrykker hvor meget bedre den observerede overenstemmelse potentielt kan blive - hvis der er perfekt overensstemmelse. Kappa-koefficienten er så forholdet mellem disse to tal.

Bemærk at \(\kappa\) er et tal mellem -1 og 1. Hvis \(\kappa\) er nul betyder det er der ikke er nogen overensstemmelse overhovedet, idet dette sker hvis den observerede overensstemmelse er lig den "tilfældige" overensstemmelse. Hvis \(\kappa\) er 1 er der perfekt overensstemmelse, og hvis \(\kappa\) er negativ er der noget galt (f.eks. at den ene bioanalytiker har byttet om på lipæmisk/ikke lipæmisk), idet den observerede overensstemmelse så er mindre end den man kan opnå ved at gætte.

Eksempel 1 - fortsat

\(p_0\) beregnes som summen af det antal hvor bioanalytikerne er enige, delt med det totale antal. I eksempel 1 fås altså:

$$
p_0=\frac{24+28}{60}=0{,}87
$$

\(p_t\) er lidt mere kompliceret, og beregnes vha. de tal der er markeret med rødt i eksemplet (altså summerne af rækkerne og søjlerne):

$$
p_t=\frac{29}{60}\cdot\frac{27}{60}+\frac{31}{60}\cdot\frac{33}{60}=0{,}50
$$

Nu kan \(\kappa\) beregnes som:

$$
\kappa=\frac{0{,}87-0{,}5}{1-0{,}5}=0{,}74
$$

Beregning af \(p_t\)

Som nævnt angiver \(p_t\) sandsynligheden for at bioanalytikerne er enige hvis de svarer tilfældigt - dvs. helt uafhængigt af hinanden. Beregningen af \(p_t\) kan forstås på følgende måde:

Med antagelsen om at bioanalytikerne svarer tilfældigt, er sandsynligheden for at bioanalytiker 1 erklærer en prøve for lipæmisk 29/60, mens den for bioanalytiker 2 er 27/60. Dermed bliver sandsynligheden for at de begge erklærer en prøve for lipæmisk lig med 29/60 * 27/60. Tilsvarende bliver sandsynligheden for at de begge erklærer en prøve for ikke lipæmisk lig med 31/60 * 33/60. Og da de netop er enige hvis de begge erklærer en prøve for lipæmisk, eller hvis de begge erklærer en prøve for ikke lipæmisk, fås det angivne udtryk for \(p_t\).

Fortolkning af kappa-koefficienten

Efter at have beregnet \(\kappa\) er spørgsmålet nu om en kappa-koefficient på 0,74 tyder på en god eller dårlig overensstemmelse mellem de to bioanalytikere? Dette er netop et af problemerne med kappa-koefficienten, for der findes ikke nogen universel skala til at besvare dette spørgsmål. Nedenstående skala (af Landis og Koch1) er en af dem der ofte anvendes, men det er vigtigt at understrege, at den ikke er endegyldig, og at forfatterne ikke har angivet nogen objektiv argumentation for deres valg:

<0 Ingen overensstemmelse
0 - 0,2 Svag
0,2 - 0,4  
0,4 - 0,6 Moderat
0,6 - 0,8 God
0,8 - 1 Næsten perfekt

Mere om kappa-koefficienten

Ovenstående metode kan uden videre udvides til situationer hvor man har mere end 2 kategorier - men ikke til situationer med mere end to bedømmere. Hvis man har data på en ordinal-skala (altså hvor der findes en naturlig rangordning mellem kategorierne) kan man med fordel anvende den såkaldt vægtede kappa-koefficient, som forklares nærmere på side 9.3.


Referencer

  1. Landis, J.R.; & Koch, G.G. "The measurement of observer agreement for categorical data". Biometrics 33 (1977):
© Thomas Bendsen • 2009 - 2017 • VIA University College Bioanalytikeruddannelsen