Noter i statistik

Variansanalyse

Formål

De tests der er blevet gennemgået indtil nu, har alle haft til formål at sammenligne to populationer. Ikke sjældent har man imidlertid behov for at sammenligne mere end to populationer. Eksempelvis hvis man ønsker at sammenligne korrektheden på 3 eller 4 forskellige analyseapparater. For to apparater kan man gøre dette ved at foretage gentagne målinger på en kontrolprøve med begge apparater, og så sammenligne disse stikprøver med en uparret t-test.

Skal man i stedet sammenligne 3 apparater, kunne man selvfølgelig foretage parvise sammenligninger vha. t-tests. Dvs. sammenligne apparat 1 med apparat 2, apparat 1 med apparat 3 og apparat 2 med apparat 3. Dette er ikke en acceptabel løsning fra et statistisk synspunkt.

Problemet er signifikansniveauet. Som forklaret på side 6.4 angiver signifikansniveauet sandsynligheden for at få en falsk forkastelse af nul-hypotesen. I tilfældet med sammenligning af 3 apparater siger nul-hypotesen naturligvis at alle apparater har samme middelværdi, når de måler på kontrolprøven. Hvis man foretager de 3 parvise sammenligninger, hver med et signifikansniveau på 5%, så har man for hver sammenligning en type 1 fejl på 5%. Dvs. sammenlagt får man en sandsynlighed på ca. 15% for en falsk forkastelse af nul-hypotesen (helt præcist 14,3%, men denne beregning kræver at man kan huske sin kombinatorik).

En mulig løsning på dette problem, kan være at gennemføre de tre t-test med et lavere signifikansniveau, således at den samlede type 1 fejl bliver 5%. Dette giver imidlertid problemer med test-styrken, som bliver dårligere - især hvis man skal sammenligne mange populationer.

Den korrekte løsning på problemet er således at anvende variansanalyse (engelsk: Analysis of variance eller ANOVA). Formålet med variansanalyse er altså at sammenligne middelværdier i mere end 2 populationer.

Princippet i variansanalyse er det samme som i de foregående tests, dvs. beregn en passende teststørrelse på grundlag af stikprøverne, og beregn derudfra en testsandsynlighed (som forklaret på side 6.3 trin 5). Der hvor variansanalysen i praksis adskiller sig fra de øvrige tests, er at teststørrelsen er mere kompliceret at beregne.

Ofte vil man således vælge at anvende Excel eller et andet statistikprogram/lommeregner der specifikt kan lave variansanalyse. Derfor vil resten af denne side beskæftige sig med tankegangen bag den teststørrelse der bruges, og andre relevante aspekter af variansanalysen. Hvis man så har lyst, er teknikken beskrevet i detaljer på side 6.17, og brugen af Excel til at udføre en variansanalyse er beskrevet på side 6.19.

Forudsætninger

Ligesom den uparrede t-test har variansanalysen som forudsætning at alle populationer er normalfordelte og med identiske spredninger. I modsætning til t-testen er variansanalysen imidlertid ikke voldsomt følsom overfor om dette krav er opfyldt1. Derfor vil man ofte nøjes med at foretage en visuel vurdering (f.eks. vha. en graf som på figur 1), til at vurdere om disse forudsætninger er nogenlunde opfyldt.

Hvis det vurderes at forudsætninger ikke er opfyldt i tilstrækkelig grad, så kan man som alternativ anvende en såkaldt Kruskal-Wallis test (ikke gennemgået i disse noter).

Hvis man har mulighed for det, er det en fordel at tilrettelægge forsøget, så der er lige mange elementer i hver stikprøve.

Teststørrelsen

Figur 1 illustrerer målinger af en kontrolprøve på 4 forskellige apparater. De blå streger repræsenterer de enkelte målinger, mens de røde firkanter repræsenterer middelværdien for hvert apparat.

Figur 1: Sammenligning af 4 apparater til bestemmelse af P-folat, stofk.

Princippet er nu at sammenligne variationen mellem de 4 middelværdier med variationen indenfor hver gruppe. Hvis variationen mellem middelværdierne er tilpas stor i forhold til variationen indenfor grupperne tyder det på at der er en forskel mellem populationerne (bemærk at de nævnte variationer selvfølgelig skal beregnes på "den rigtige" måde. Hvad dette præcist betyder er specificeret på side 6.17).

Sammenligningen af disse to variationer foretages med en F-test (side 6.14). Bemærk at denne F-test bliver enkeltsidet, da variationen mellem middelværdierne principielt aldrig kan blive mindre end variationen indenfor hver enkelt population.

Konklusionen

Hvis variansanalysen resulterer i forkastelse af \(\mathrm{H_0}\), så ved man altså er der er forskel på middelværdierne i populationerne; mere præcst at mindst 2 middelværdier er forskellige. Man ved derimod ikke noget om hvilke populationer der har forskellige middelværdier. Hvis man herefter ønsker at afgøre præcist hvilke middelværdier der er forskellige, findes der forskellige teknikker, som dog ikke vil blive beskrevet i større detalje her. Ofte vil det imidlertid være tilstrækkeligt at lave et plot som på figur 1, og bruge sin sunde fornuft. Alternativt kan man beregne konfidensintervaller for middelværdien i hver af stikprøver, eller lave boxplot (se side 2.7).


Referencer

  1. ZAR JH: "Biostatisitcal Analysis", Second edition, Prentice Hall 1984. ISBN: 0-13-077925-3. Side 170.

 

© Thomas Bendsen • 2009 - 2017 • VIA University College Bioanalytikeruddannelsen