//

Noter i statistik

t-test med to uparrede stikprøver

Formål

Denne test har til formål at sammenligne middelværdierne i to uparrede populationer. Dvs. ud fra en stikprøve fra hver population, at afgøre om populationernes middelværdier kan accepteres at være ens, eller om de er forskellige. På side 6.12 kan man læse nærmere om hvad det betyder at stikprøverne skal være uparrede. Denne side indeholder også en opgave med brug af en uparret t-test.

Forudsætninger og notation

De to stikprøver skal stamme fra normalfordelte populationer. Dette kan f.eks. undersøges vha. et qq-plot (se side 3.8). Det er et åbent spørgsmål hvor vigtigt det er, om denne forudsætning er overholdt, men generelt kan man sige at jo flere målinger jo mindre vigtig er forudsætningen (for de teoretisk interesserede skyldes dette det der normalt omtales som "den centrale grænseværdisætning").

Derudover er det i princippet nødvendigt at de to populationer kan antages at have identiske spredninger (såkaldt varianshomogenitet). Dette kan undersøges vha. en F-test (se side 6.14). Så længe en eventuel forskel i varianserne ikke er alt for stor, har denne forudsætning sandsynligvis ikke den store betydning, idet det er muligt at korrigere testen for en eventuel forskel (se nedenfor).

Antal elementer i de to stikprøver benævnes hhv. \(n_1\) og \(n_2\). Middelværdierne for de to stikprøver benævnes hhv. \(\overline{x}_1\) og \(\overline{x}_2\), og spredningerne hhv. \(SD_1\) og \(SD_2\). For de populationer som stikprøverne stammer fra bruges symbolerne μ og σ om hhv. middelværdi og spredning. Hypoteserne for testen er således:

 

\(H_0:\mu_1=\mu_2\)

\(H_1:\mu_1\neq\mu_2\)

Fremgangsmåde

I princippet skal det afgøres om der er varianshomogenitet, dvs. om standardafvigelserne for de to populationer kan antages at være identiske. Det gøres med F-testen. (Bemærk: I praksis vil man ofte springe dette trin over, og uden videre vælge at gennemføre testen uden at antage varianshomogenitet - se længere nede på denne side).

Varianshomogenitet

I det tilfælde hvor F-testen viser at der er varianshomogenitet, beregnes først det bedste bud på den fælles spredning for populationerne, dvs:

$$SD = \sqrt{\frac{SD_1^2\cdot (n_1-1)+SD_2^2\cdot (n_2-1)}{n_1+n_2-2}}$$

Dernæst beregnes test-størrelsen:

$$t=\frac{\overline{x}_1-\overline{x}_2}{\sqrt{\frac{SD^2}{n_1}+\frac{SD^2}{n_2}}}$$

Bemærk at denne test-størrelse minder meget om teststørrelsen fra t-test med èn stikprøve. Tallet under brøkstregen er således igen usikkerheden på forskellen mellem de to middelværdier. Resten af fremgangsmåden er således også identisk med de andre t-tests.

Dvs. at p-værdien beregnes på samme måde som på side 6.6 eller som vist på side 13.5, idet antallet af frihedsgrader er \(f=n_1+n_2-2\), og der konkluderes endeligt:

$$p>0{,}05 \Rightarrow H_0 \text{ accepteres}$$

$$p<0{,}05 \Rightarrow H_0 \text{ forkastes}$$

Ikke varianshomogenitet

I det tilfælde hvor der ikke er varianshomogenitet (dvs. hvor 0-hypotesen i F-testen bliver forkastet) kan man ikke beregne en fælles spredning. Man kan så beregne test-størrelsen efter formlen:

$$t=\frac{\overline{x}_1-\overline{x}_2}{\sqrt{\frac{SD_1^2}{n_1}+\frac{SD_2^2}{n_2}}}$$

P-værdien beregnes herefter på samme måde som for de øvrige t-tests, dog skal antal frihedsgrader (\(f\)) beregnes som vist herunder, idet man først laver en mellemregning (c):

$$c=\frac{\frac{SD_1^2}{n_1}}{\frac{SD_1^2}{n_1}+\frac{SD_2^2}{n_2}}$$

og endelig

$$f=\frac{1}{\frac{c^2}{n_1-1}+\frac{(1-c)^2}{n_2-1}}$$

© Thomas Bendsen • 2009 - 2022 • thbe@via.dk