Signifikansniveau og fejltyper
Først en meget kort opsummering af principperne fra side 6.3.
- Opstil hypoteserne \(H_0\) og \(H_1\)
- Antag at \(H_0\) er sand
- Beregn, på baggrund af de aktuelle stikprøver, en passende teststørrelse, som typisk har den egenskab at værdier tæt på nul taler for \(H_0\), mens værdier langt fra nul taler mod \(H_0\)
- Beregn p-værdien, dvs. sandsynligheden for at et nyt forsøg vil give en teststørrelse som er endnu mere usandsynligt (under den antagelse at \(H_0\) er korrekt).
- Hvis p-værdien er under (typisk) 5% forkastes \(H_0\).
Bemærk at hvis p-værdien er under 5% er der to muligheder:
- Nul-hypotesen er faktisk sand, og man har blot været "uheldig". Hvis nul-hypotesen er sand, vil man jo netop i 5% af tilfældene få en teststørrelse som ligger udenfor 0,025- og 0,975-fraktilerne (dette er jo præcis definitionen af en fraktil). Eller med andre ord: I den virkelige verden forekommer usandsynlige ting jo (det kan f.eks. godt lade sig gøre at vinde i Lotto).
- Nul-hypotesen er faktisk forkert, og testsandsynligheden er derfor beregnet på et forkert grundlag, hvilket forklarer hvorfor den er så "lille".
Det helt store dilemma i statistikken er, at der ikke er nogen metode til at afgøre om den ene eller den anden forklaring er korrekt. Man er således nødt til at vedtage en grænse hvor man skifter fra den ene forklaring til den anden, og som nævnt vælges denne grænse sædvanligvis til en p-værdi på 0,05 (5%).
Signifikansniveau
Den sandsynlighed der bliver anvendt til at skelne mellem accept og forkastelse af nul-hypotesen, betegnes signifikansniveauet. Som nævnt vælges dette sædvanligvis til 0,05 (5%).
Type 1 fejl
Signifikansniveauet angiver således sandsynligheden for - fejlagtigt - at forkaste nul-hypotesen, i de tilfælde hvor der faktisk ikke er nogen forskel på populationerne. Denne fejl kaldes også for type 1 fejl (nogle gange kaldes det også \(\alpha\)-fejl)
Man kan således frit fastsætte hvor stor en type 1 fejl man vil acceptere, idet man blot kan vælge signifikansniveauet derefter. Dette medfører naturligt spørgsmålet: Hvorfor vælger man ikke altid et meget lavt signifikansniveau, således at man ikke kommer til, fejlagtigt, at forkaste nul-hypotesen?
Type 2 fejl
Problemet med at vælge et meget lavt signifikansniveau, og dermed sikre en lille type 1 fejl, er at man så i stedet får en meget stor type 2 fejl. En type 2 fejl betyder at man accepterer nul-hypotesen selv om denne er forkert. Det er klart at jo større krav man stiller for at forkaste nul-hypotesen (altså jo lavere signifikansniveau man vælger), jo større er risikoen for at man overser en forskel; altså fejlagtigt accepterer \(H_0\). Type 2 fejlen benævnes også \(\beta\)-fejlen.
Mens det er nemt at beregne størrelsen af type 1 fejlen (idet denne er lig signifikansniveauet), så er det umuligt generelt at beregne type 2 fejlen. Problemet er at type 2 fejlen afhænger af præcist hvor stor forskel der er mellem de populationer man sammenligner. Og dette bliver ikke specificeret af \(H_1\) hypotesen, som jo blot siger at der er en forskel. Jo mindre forskellen er mellem de to hypoteser, jo større bliver risikoen selvfølgelig for at overse denne.
Selv hvis man specificerer størrelsen af den interessante forskel, bliver beregningerne nemt meget komplicerede. Dvs. i praksis er man nødt til at have statistisk software til denne opgave. Type 2 fejlen uddybes i kapitel 7, hvor der også er regnemaskiner som kan bruges til at beregne denne for udvalgte tests.
Teststyrke
Teststyrken (\(\pi\)) er defineret som \(1-\beta\), hvor \(\beta\) henviser til type 2 fejlen. Teststyrken er således sandsynligheden for at testen opdager en forskel på de to populationer, eller med andre ord: Sandsynligheden for at \(H_0\) forkastes, hvis der faktisk er en forskel. Som nævnt tidligere kan teststyrken kun beregnes hvis man specificerer størrelsen af forskellen, den kan altså ikke udtrykkes som et tal der gælder for \(H_1\) generelt. |