Mere om p-værdier
På side 6.3 trin 5 blev begrebet "p-værdi" introduceret, ligesom det i det foregående kapitel er forklaret hvordan man beregner denne for en række forskellige tests.
For at opnå en dybere forståelse af p-værdien er det relevant at gentage princippet bag enhver statistisk hypotesetest. I det følgende gøres dette, med udgangspunkt i en t-test med 1 stikprøve.
Eksempel
I forbindelse med kvalitetskontrol af en analyse, måler man 10 gange på en kontrolprøve med en certificeret koncentration på
\(\mu_0= 11{,}0 \text{ mmol/L}\)
De 10 målinger giver følgende resultat:
14,8 |
13,0 |
15,7 |
10,8 |
13,4 |
14,3 |
12,6 |
13,8 |
10,0 |
10,9 |
For at undersøge om der er tegn på at analysen er behæftet med en systematisk fejl opstilles hypoteserne:
$$H_0: \mu=11{,}0 \text{ mmol/L}$$
$$H_1: \mu\neq 11{,}0 \text{ mmol/L}$$
hvor \(\mu\) er den middelværdi apparatet giver hvis man måler uendeligt mange gange på kontrolprøven (altså populationens gennemsnit)
Stikprøvens gennemsnit er \(\overline{x} = 12{,}9 \text{ mmol/L}\)
og man får en beregnet t-teststørrelse på \(t = 3{,}3\).
t-test med 1 stikprøve
På grundlag af ovenstående stikprøve, vil man nu gerne kunne udtale sig om hvorvidt nul-hypotesen er korrekt eller ej. I princippet er dette bare ikke muligt, omend man tit ser netop en sådan formulering i videnskabelige artikler. Det eneste man kan gøre er at lave følgende beregning:
Hvis nul-hypotesen er korrekt, hvad er så sandsynligheden for at få den observerede stikprøve (eller en anden endnu mere usandsynligt stikprøve)? Denne sandsynlighed er netop p-værdien.
P-værdien kan bestemmes på flere forskellige måder: I praksis vil man ofte benytte statistisk software, f.eks. Excel som gennemgået under de enkelte tests i forrige kapitel. Men hvis man ønsker en dybere forståelse af hvad det handler om, kan det være en fordel at kigge på en simulering, som kan bruges til at bestemme en omtrentlig p-værdi:
Nedenstående tal viser en simulering af hvad resultatet kunne blive, hvis man måler 10 gange på kontrolprøven med ovennævnte apparat, samt den t-værdi man får, hvis man efterfølgende udfører en t-test (simuleringen udføres under den forudsætning at \(H_0\) er korrekt).
Simulerede målinger: 11,0 - 12,0 - 8,46 - 10,5 - 9,57 - 9,76 - 12,7 - 10,1 - 9,75 - 11,2 Beregnet teststørrelse: t = -1,25
|
Her er det oplagte spørgsmål så: Hvordan kan computeren vide hvad apparatet giver? Det er her at antagelsen om at \(H_0\) er korrekt kommer ind i billedet. Denne antagelse specificerer lige netop hvordan tallene vil fordele sig, hvis man udfører det skitserede eksperiment, og derfor er det muligt at få en computer til at simulere det (ligesom det er muligt at få en computer til at simulere hvad der sker hvis man kaster 10 gange med en terning). \(H_0\) specificerer netop middelværdien for fordelingen (i dette tilfælde 11,0).
Hvordan hjælper denne simulering med at beslutte om man, med udgangspunkt i den konkrete stikprøve fra eksemplet, skal forkaste eller acceptere nul-hypotesen?
I eksemplet har man altså en stikprøve med en teststørrelse \(t = 3{,}3\), og derefter stiller man følgende spørgsmål:
"Hvis \(H_0\) er korrekt, er det så sandsynligt at man får en t-værdi som er større end 3,3 eller mindre end -3,3?"
Dette spørgsmål kan besvares vha. simuleringen: Hver gang denne side genindlæses køres en ny simulering. Prøv derfor at genindlæse siden adskillige gange, og se om nogle af disse simuleringer giver en t-værdi der er større end 3,3 (eller mindre end -3,3). Det er ikke helt umuligt, men det sker ikke ret tit. P-værdien angiver netop sandsynligheden for at dette sker. P-værdien kan selvfølgelig ikke bestemmes nøjagtigt vha. denne simulering, men den er heldigvis nem at beregne i f.eks. Excel (og giver i dette tilfælde 0,009 - dvs. det sker ca. 1 ud af 100 gange man kører simuleringen).
Konklusionen bliver derfor, at hvis nul-hypotesen er korrekt, så er det meget usandsynligt at få en stikprøve med teststørrelse på 3,3 - men det har man jo netop fået i eksemplet. Så hvis man ikke tror på usandsynlige hændelser, så må udgangspunktet for simuleringen/beregningen af p-værdien være forkert. Dette udgangspunkt var netop nul-hypotesen, som derfor må forkastes. Grænsen for hvor usandsynlig hændelsen skal være, før man forkaster \(H_0\) er netop signifikansniveauet, som altså typisk er 0,05.
Bemærk: P-værdien siger altså ikke noget som helst om sandsynligheden for at nul-hypotesen er rigtig eller forkert. Det den siger er: Hvis nul-hypotesen er rigtig, så er det usandsynligt at få den observerede stikprøve - og derfor vælger man så at tro at nul-hypotesen må være forkert. |