Princippet bag statistisk hypotesetest
Denne side forsøger at give en mere generel fremstilling af eksemplet på side 6.2. En fornuftig fremgangsmåde er formentlig, at læse denne side (meget) hurtigt og derefter studere nogle af de konkrete tests på de følgende sider. Derefter kan man vende tilbage til denne side, og bruge den som opsamling. Det skal bemærkes, at den konkrete udførelse af en hypotesetest i praksis er noget simplere, end denne side giver indtryk af.
En hypotesetest handler om at teste en hypotese som udtaler sig om en eller anden egenskab ved en eller flere populationer. Det kan f.eks. være en hypotese som siger at to populationernes middelværdier er ens, men man kan også teste hypoteser om f.eks. medianer, spredninger eller fordelingens overordnede form.
Bemærk at hypoteserne altid udtaler sig om populationerne, mens de beregninger der laves for at teste hypoteserne, selvfølgelig tager udgangspunkt i stikprøver fra populationerne.
Princippet i enhver statisktisk hypotesetest består af følgende trin:
Trin 1: Opstilling af hypoteser og valg af signifikansniveau
Opstil de to hypoteser der skal testes. Den ene kaldes nul-hypotesen (\(H_0\)) og det er typisk den der, i en eller anden nærmere defineret mening, siger at "der er ikke forskel på populationerne". Den anden kaldes modhypotesen (eller 1-hypotesen, \(H_1\)), og siger at "der er forskel på populationerne". Hvis man ønsker at sammenligne middelværdierne i to populationer kan hypoteserne f.eks. være:
\(H_0: \mu_1=\mu_2\) \(H_1: \mu_1\neq\mu_2\)
Bemærk at disse hypoteser udtaler sig om middelværdierne i populationerne (som man jo ikke kender). Middelværdierne i de aktuelle stikprøver vil (næsten) altid være forskellige. Så spørgsmålet er, som nævnt på side 6.1: Er stikprøvernes middelværdi så forskellige at de nødvendigvis må stamme fra populationer med forskellige middelværdier?
Eller med reference til mønt-eksemplet på side 6.2 er spørgsmålet: Er de akuelle antal plat og krone i forsøget med de 10 kast, så forskellige at de tyder på en grundlæggende forskel i sandsynlighederne for at få plat hhv. krone?
Samtidig med at man opstiller hypoteserne, skal man specificere det såkaldte signifikansniveau (som er nærmere beskrevet på side 6.4). I princippet vælger man selv signifikansniveauet, men indenfor sundhedsvidenskab sættes det ofte til 0,05 (5%), omend der kan være god grund til at sætte spørgsmåltegn ved dette valg.
Trin 2: Lav et passende forsøg
Dvs. man skal selvfølgelig bruge nogle stikprøver fra de populationer man ønsker at undersøge. I en klinisk sammenhæng kan man skrive en hel lærebog, blot om hvordan man skal udvælge disse stikprøver. Men disse noter tager udgangspunkt i, at der foreligger repræsentative stikprøver fra de relevante populationer.
Trin 3: Antag at nul-hypotesen er sand
Princippet i de følgende trin, er at lave nogle beregninger med udgangspunkt i en antagelse om at nul-hypotesen er sand. Hvis disse beregninger så fører til noget urimeligt, dvs. noget meget lidt sandsynligt, så må antagelsen være forkert. Eller med andre ord: Så må det være \(H_1\)-hypotesen der er den rigtige.
Trin 4: Beregning af en teststørrelse
På grundlag af stikprøverne fra trin 2, er det muligt at beregne en såkaldt teststørrelse. Hvordan denne størrelse præcist beregnes afhænger af den konkrete hypotesetest. Formlerne fremgår af hver enkelt af de følgende sider, hvori de konkrete tests gennemgås.
Test-størrelsen har f.eks. den egenskab at en (numerisk) stor værdi svarer til at der er stor forskel mellem stikprøverne, mens en lille værdi svarer til at der en god overenstemmelse mellem stikprøverne.
Hvis man nu forestiller sig at man gentager eksperimentet fra trin 2 mange gange, får man selvfølgelig en ny teststørrelse hver gang. Idet man anvender antagelsen fra punkt 3 (dvs. at der ikke er forskel på de populationer man sammenligner, eller med andre ord at nul-hypotesen er korrekt), er det muligt at beregne hvorledes disse teststørrelser vil fordele sig. Et eksempel på dette kan ses på figur 1, som viser fordelingen af teststørrelsen når man laver en t-test (se f.eks. side 6.7). Betydningen af denne figur er præcis den samme som f.eks. figurerne på side 3.5, dvs. at sandsynligheden for at teststørrelsen ligger i et bestemt interval, kan aflæses som arealet under kurven, over dette interval.
Figur 1: Den blå kurve viser t-fordelingen med et stort antal frihedsgrader. Arealet af de røde områder angiver p-værdien svarende til en teststørrelse på 2,4 (forklares i trin 5).
Stadig under den antagelse at nul-hypotesen gælder, er det altså ikke særligt sandsynligt at få teststørrelser som ligger langt væk fra nul. Dvs. hvis dette alligevel sker, så vælger man at tro at antagelsen må være forkert, og man konkluderer derfor at der er forskel på de to populationer.
Trin 5: Beregning af p-værdi (testsandsynlighed)
Vurderingen nævnt i trin 4 foretages mere specifikt således, at hvis den aktuelle teststørrelse (\(t_{stikprøve}\)) er f.eks. 2,4 (se figur 1), så beregnes sandsynligheden for at få en teststørrelse som er længere væk fra nul end 2,4. Dvs. man beregner \(P(X<-t_{stikprøve})+P(X>t_{stikprøve})\) - dette er arealet af de røde områder på figur 1, og dette er netop p-værdien. Hvordan denne beregning konkret foretages forklares på de følgende sider. Hvis denne sandsynlighed er mindre end det signifikansniveau man valgte i trin 1, så forkastes nul-hypotesen. At p-værdien er mindre end signifikansniveauet betyder jo at hvis nul-hypotesen er sand, så er den foreliggende stikprøve usandsynlig, eller med andre ord: Den observerede stikprøve er ikke i overensstemmelse med nul-hypotesen. Og derfor vælger man at tro at nul-hypotesen må være forkert.
Dvs. at konklusionen på testen foretages således:
$$p < \text{signifikansniveau} \Rightarrow H_0 \text{ forkastes}$$
$$p > \text{signifikansniveau} \Rightarrow H_0 \text{ accepteres}$$
Signifikansniveauet vælges som hovedregel til 0,05 (5%), men kan varieres. Det vigtige er blot at grænsen er valgt inden undersøgelsen påbegyndes.
Side 7.1 indeholder en mere detaljeret diskussion af betydningen af p-værdien, og bør læses så snart man har været igennem et par konkrete eksempler på beregning og fortolkning af p-værdier.
Trin 6: Formulering af resultatet
Hvis testen er endt med at der ikke er forskel på stikprøverne skal resultatet formuleres som:
Nul-hypotesen accepteres
eller
Der er ikke påvist nogen signifikant forskel på stikprøverne
Man må således ikke skrive at det er påvist at populationerne er ens. Det siger testen intet om. Den siger blot at man ikke har kunnet påvise en forskel. Formentlig vil der altid være en forskel, men nogen gange skal man blot udføre utroligt mange målinger for at kunne påvise den, og ofte vil dette være klinisk irrelevant - dvs. forskellen vil ikke have nogen betydning i forhold til behandling og diagnostik.
Hvis testen derimod er endt med at nul-hypotesen er afvist kan man formulere resultatet som
Nul-hypotesen er afvist
eller
Der er påvist en signifikant forskel
I modsætning til det første tilfælde er dette en såkaldt "stærk konklusion". Man har altså påvist noget; nemlig at der er forskel på populationerne. Her skal man dog stadig huske på dilemmaet fra før - at man ikke helt kan afvise at der blot er tale om uheld i forbindelse med forsøget. Ordet "påvist" må altså ikke læses som "påvist uden nogen form for tvivl". |