\(\chi^2\)-testen
(\(\chi\) er det græske bogstav "chi"; navnet på testen udtales "ki i anden")
De hypotesetest der er gennemgået indtil nu har alle haft det til fælles at de analyserer data på en interval/ratio-skala. Som nævnt på side 2.2 foretages også analyser som resulterer i måledata på en ordinal eller nomial-skala. Hvis man ønsker at sammenligne data fra sådanne forsøg, er der altså brug for andre test. Den oftest anvendte test til dette formål er sandsynligvis \(\chi^2\)-testen (inden man kaster sig ud i denne test, skal man lige sørge for at læse nederst på denne side om testens forudsætninger).
\(\chi^2\)-testen er formentlig nemmest at forstå ved at betragte et eksempel.
Eksempel
På en nuklearmedicinsk afdeling ønsker man at undersøge om det har betydning for billedkvaliteten, hvor lang tid der går efter injektion af et sporstof, før man laver en scintigrafi.
Man undersøger derfor billeder fra en række patienter, hvor billedet er taget henholdsvis efter 1, 2 og 10 minutter. Billederne kategoriseres som egnede eller uegnede til en stille en diagnose, og man tæller antal billeder i hver kategori. Dette giver følgende:
|
Egnet |
Uegnet |
Total |
|
1 min |
32 |
10 |
42 |
2 min |
50 |
6 |
56 |
10 min |
94 |
8 |
102 |
|
Total |
176 |
24 |
200 |
Nul-hypotesen siger altså at "søjlesandsynlighederne" er uafhængige af rækkerne og omvendt. Eller med andre ord at sandsynligheden for at et billede er egnet, ikke afhænger af om det er taget efter 1, 2 eller 10 minutter.
Teststørrelsen
Som ved enhver anden hypotesetest foretages denne vurdering ved, at beregne en teststørrelse, som bruges til at beregne en p-værdi.
Til beregning af teststørrelsen skal man først beregne en tabel med de forventede værdier, givet at nul-hypotesen er sand, dvs. givet at sandsynligheden for egnet/uegnet ikke afhænger af tiden. Under denne antagelse forventer man, at antal egnede billeder efter 1 minut er lig
Antal(egnet, 1 min) = 42·176/200 = 36,96
Denne beregning kan forstås således: Under nul-hypotesen er sandsynligheden for at et billede er egnet lig 176/200 (uafhængigt af tiden!). Og da der ialt er taget 42 billeder efter 1 minut, forventer man 42·176/200 egnede billeder. Efter 10 minutter forventer man således 102·176/200 egnede billeder og 102·24/200 uegnede billeder.
Alt i alt ser tabellen med forventede værdier altså således ud (afrundet til hele tal):
|
Egnet |
Uegnet |
Total |
|
1 min |
37 |
5 |
42 |
2 min |
49 |
7 |
56 |
10 min |
90 |
12 |
102 |
|
Total |
176 |
24 |
200 |
Bemærk at række- og søjlesummerne i de to tabeller er ens. Hvis dette ikke er tilfældet har man lavet en regnefejl.
Indgangene i tabellen med observerede tællinger betegnes nu \(O_{i,j}\) hvor i angiver rækkenummeret (1, 2, 3) og j angiver søjlenummeret (1, 2), og indgangene i tabellen med forventede værdier betegnes \(F_{i,j}\). Indgangen med tallet 50 i den øverste tabel betegnes altså \(O_{2,1}\).
Endelig beregnes nu teststørrelsen:
$$\begin{equation}\label{statistic}\chi^2=\sum_{i,j}\frac{(O_{i,j}-F_{i,j})^2}{F_{i,j}}\end{equation}$$
Dette skal læses således at man for hver celle beregner \((O-F)^2/F\), og så summerer disse for alle celler.
For eksemplet fås altså:
$$\chi^2=\frac{(32-37)^2}{37}+\cdots+\frac{(8-12)^2}{12}=7{,}35$$
\(\chi^2\)-fordelingen og p-værdien
Figur 1: \(\chi^2\)-fordelingen med 2 frihedsgrader. Arealet af det røde område markerer p-værdien svarende til eksemplets teststørrelse på 7,35.
Baseret på denne teststørrelse, beregnes nu p-værdien. I modsætning til f.eks. t-testene, så er denne test i sin natur enkeltsidet, idet det kun er store værdier af teststørrelsen som "taler imod" nul-hypotesen. P-værdien beregnes derfor som det arealet af det røde område på figur 1. Bemærk at \(\chi^2\)-fordelingen afhænger af et antal frihedsgrader. Disse bestemmes som: Frihedsgrader = (antal søjler - 1)*(antal rækker - 1). I eksemplet fås altså antal frihedsgrader = (2-1)*(3-1) = 2.
Arealet af det røde område bestemmes let i Excel som: "=1-CHI2.FORDELING(teststørrelse;frihedsgrader;SAND)" hvilket med tallene fra eksemplet giver: p = 0,025. Med et sædvanligt signifikansniveau på 5%, må man altså konstatere at nul-hypotesen forkastes, og det har betydning for billedkvaliteten, hvor lang tid man bruger på at optage billederne.
Forudsætninger
\(\chi^2\)-testen er ikke en eksakt test, dvs. at der ligger nogle approximationer (tilnærmelser) til grund for beregningerne. Disse approximationer er kun gyldige under forudsætning af at der er tilpas mange tællinger i tabellen. Der findes ikke en entydig måde at specificere et krav til antallet af tællinger, men en af de formuleringer man ofte ser er, at der ikke må være tal under 5 i tabellen med de forventede værdier.
Hvis dette krav ikke er opfyldt må man anvende andre metoder. F.eks. Fishers eksakte test. Fishers test gennemføres lettest med brug af egentlig statistiksoftware (f.eks. R).
Kontinuitetskorrektion
Bemærk: Nedenstående eksempel duer ikke. Yates korrektion anvendes kun ved 2x2 tabeller.
\(\chi^2\)-fordelingen, som vist i figur 1, er en kontinuert fordelingen, dvs. beregningen af p-værdien er egentlig baseret på at det er muligt at få alle værdier af \(\chi^2\)-teststørrelsen. Dette er naturligvis ikke tilfældet, idet vi altid tæller hele antal - det er sjældent (for ikke at sige aldrig) meningsfuldt at tale om at 3,5 personer er syge og 5,5 er raske. For at korrigere for dette matematiske problem, udføres \(\chi^2\)-testen ofte med en såkaldt kontinuitetskorrektion, dvs. at formlen for teststørrelsen beregnes lidt anderledes end vist i formel \(\ref{statistic}\). Med den såkaldte Yates korrektion er formlen:
$$\chi^2=\sum_{i,j}\frac{(\left|O_{i,j}-F_{i,j}\right|-0,5)^2}{F_{i,j}}$$
De to lodrette streger betyder "numerisk værdi" dvs. forskellen skal beregnes uden fortegn. I Excel kan dette gøres ved at skrive "=ABS(observeret - forventet)".
Med tallene fra eksemplet fås:
$$\begin{aligned}\chi^2&=\frac{(|32-37|-0{,}5)^2}{37}+\cdots+\frac{(|8-12|-0{,}5)^2}{12}\\ &=0{,}55 +\cdots+1{,}02\\ &=5{,}8 \end{aligned}$$
hvilket giver en p-værdi på 0,055. I dette tilfælde ændrer kontinuitetskorrektionen altså konklusionen til at effekten ikke længere er signifikant. Men som altid skal man huske på at der ikke er noget specielt ved et signifikansniveau på 0,05, så den endelige konklusion bør måske være noget i stil med, at man skal undersøge nogle flere billeder. |