Noter i statistik

Mann-Whitney-testen

Mann-Whitney (kaldes også "Wilcoxon Rank Sum" eller "Wilcoxon Two Sample") kan anvendes til at sammenligne to uparrede stikprøver, dvs. det er en ikke-parametrisk udgave af "t-test med to uparrede stikprøver".

En generel formulering af nul-hypotesen i forbindelse med Mann-Whitney testen er matematisk kompliceret. Men under passende omstændigheder (hvis man antager at de to fordelinger der sammenlignes har samme "facon"), så siger nul-hypotesen at de to fordelinger har samme median.

Fremgangsmåden er overordnet identisk med t-testene, dvs. at man beregner en passende teststørrelse, som siger noget om sandsynligheden for (givet at nul-hypotesen er sand) at observere det givne datasæt, eller et som er endnu mere usandsynligt. Baseret på denne teststørrelse beregnes en p-værdi. Problemet er at Excel ikke umiddelbart er i stand til at beregne disse p-værdier. Hvis man har adgang til mere specialiseret software (SPSS, SAS, R eller lignende) så kan disse programmer beregne p-værdier. Alternativt kan man anvende regnemaskinen på side 13.2.

Beregning af test-størrelsen

Teststørrelsen (U) findes på følgende måde: For hvert element i den ene stikprøve, tælles hvor mange elementer i den anden stikprøve der er større (se eksemplet herunder, for illustration af hvorledes dette gøres i praksis). Disse antal summeres hvorved man får teststørrelsen.

Det er en forudsætning for brug af Mann-Whitney-testen at der ikke findes såkaldte "ties" i stikprøverne, dvs. at der ikke findes identiske tal i de to stikprøver. Hvis antallet af "ties" er lille, betyder det dog sjældent noget, og testen kan gennemføres alligevel. Eksemplet viser ligeledes hvordan man kan håndtere ties.

Der findes alternative måder at beregne en teststørrelse på, som dog giver samme konklusion som ovennævnte. Fordelen ved ovennævnte beregning, er at den er nem at udføre i Excel.

Eksempel (inklusiv Excel)

Betragt igen eksemplet på side 6.15. Nedenfor er et udsnit af data fra eksemplet vist indtastet i Excel. I kolonne D, er der, for hvert element i stikprøve 2, optalt hvor mange tal fra stikprøve 1 der er større end tallet fra stikprøve 2. I formellinien kan man se hvorledes denne optælling foretages. Denne formel trækkes naturligvis ned langs alle række (i række 3 er C2 således erstattet med C3 osv.).

Teststørrelsen kan nu beregnes ved at summere alle tallene i kolonne D.

 

Ties

Hvis der er ties (som i eksemplet), så kan man i princippet ikke bruge Mann-Whitney testen. Man kan dog lave en approxtimativ beregning på følgende måde:

  1. Find først teststørrelsen som vist ovenfor (dvs. for hvert tal i kolonne C tælles hvor mange tal fra kolonne B som er større ">").
  2. Find nu teststørrelsen igen, men udskift ">" med ">=" (dvs. tæl antal elementer som er "større end eller lig med").
  3. Beregn gennemsnittet af de to teststørrelser som bestemt i punkt 1 og 2, og brug denne teststørrelse til at beregne p-værdien.
  4. Hvis man ønsker at sige noget om hvorvidt det er rimeligt at gennemføre testen på trods af forekomsten af ties, så kan man evt. sammenligne teststørrelserne fra punkt 1 og 2 herover, og se om disse to teststørrelser giver forskellige konklusioner. Hvis det er tilfældet, så skal man naturligvis være påpasselig med at anvende Wilcoxon-testen i det konkrete tilfælde.

Nedenstående spørgsmål tager udgangspunkt i ovenstående eksempel. Bemærk at eksemplet indeholder ties, hvorfor teststørrelsen skal beregnes som beskrevet ovenfor: Først som vist på figuren, og dernæst ved at erstatte ">" med ">=". Det svar der indtastes herunder skal være gennemsnittet af de to beregnede teststørrelser.

Angiv teststørrelsen:
Angiv p-værdien for Mann-Whitney testen (2 betydende cifre):
Angiv om nul-hypotesen accepteres eller forkastes:
Nul-hypotesen forkastes
Nul-hypotesen accepteres

Normalfordelingsapproximation

Hvis man har tilstrækkeligt store stikprøver (hvad det betyder er ikke klart defineret, men større end 20 er et godt bud), kan man anvende en såkaldt normalfordelingsapproximation til at beregne p-værdien. Denne er baseret på at, hvis nul-hypotesen gælder, er teststørrelsen tilnærmelsesvist normalfordelt med middelværdi

$$\mu=\frac{n_1n_2}{2}$$

og spredning

$$\sigma=\sqrt{\frac{n_1n_2(n_1+n_2+1)}{12}}$$

hvor \(n_1\) hhv \(n_2\) er antal elementer i de to stikprøver. Hvorledes man anvender denne normalfordelingsapproximation er nærmere beskrevet på side 8.6.

© Thomas Bendsen • 2009 - 2017 • VIA University College Bioanalytikeruddannelsen