Noter i statistik

Konfidensinterval for differens af 2 middelværdier

Ofte er det relevant at kunne beregne et konfidensinterval for differensen af 2 middelværdier. Dette kan gøres på stort set samme måde, som konfidensintervallet for 1 middelværdi, blot skal spredningen beregnes lidt anderledes.

Beregningen gennemgås vha. et eksempel: For at vurdere forskellen i kalcium-koncentrationen hos raske mænd og kvinder, har man målt P-Kalcium(total), stofk. hos 10 raske mænd og kvinder. Dette gav følgende resultater:

P-Kalcium(total), stofk. (mmol/L)
Mænd Kvinder
2,45 2,34
2,42 2,52
2,33 2,32
2,40 2,31
2,46 2,31
2,24 2,39
2,29 2,25
2,26 2,27
2,33 2,43
2,24 2,41

 Nu kan man selvfølgelig beregne:

$$
\begin{aligned}
\overline{x}_{mænd} &= 2{,}342 \text{ mmol/L}\\
\overline{x}_{kvinder} &= 2{,}355 \text{ mmol/L}
\end{aligned}
$$

og dermed også:
$$d=\overline{x}_{mænd}-\overline{x}_{kvinder} = -0{,}013 \text{ mmol/L}
$$

Men som sædvanligt så ved vi selvfølgelig godt at denne forskel ikke er lig den sande gennemsnitlige forskel mellem mænd og kvinder. For at finde et konfidensinterval som udtrykker denne "sande" forskel, er det først nødvendigt at beregne et tal som udtrykker usikkerheden på \(d\).

Usikkerhed på differens af 2 middelværdier

Når man skal beregne et konfidensinterval for en middelværdi, er usikkerheden på middelværdien givet ved \(SEM = \frac{SD}{\sqrt{n}}\) (se side 5.2). Usikkerheden på en differens af to middelværdier kan ikke altid beregnes matematisk korrekt, men er tilnærmelsesvist lig med:

$$\begin{equation}
SE_{diff}=\sqrt{\frac{SD_1^2}{n_1}+\frac{SD_2^2}{n_2}}
\end{equation}
$$

Bemærk at udtrykket ikke adskiller sig meget fra SEM, idet SEM også kan beregnes som \(SEM = \sqrt{\frac{SD^2}{n}}\).

Med tallene fra eksemplet giver ligning 1:

$$SE_{diff} = \sqrt{\frac{0{,}0853^2}{10}+\frac{0{,}0822^2}{10}}\text{ mmol/L} = 0{,}0375 \text{ mmol/L}$$

For at kunne beregne et konfidensinterval skal man udover usikkerheden på differensen også bruge et antal frihedsgrader hørende til denne usikkerhed. Hvis man anvender ovenstående approximation til at beregne usikkerheden, så beregnes antallet af frihedsgrader som vist her:

Beregn først:

$$
c=\frac{\frac{SD_1^2}{n_1}}{\frac{SD_1^2}{n_1}+\frac{SD_2^2}{n_2}}
$$

hvilket med tallene fra eksemplet giver $$c=0{,}519$$

og dernæst:

$$
\begin{equation}
f=\frac{1}{\frac{c^2}{n_1-1}+\frac{(1-c)^2}{n_2-1}}
\end{equation}
$$

hvilket med tallene fra eksemplet giver $$f=17{,}974$$

Endelig er det nu muligt at beregne konfidensintervallet, som beregnes på samme måde som konfidensintervallet for en middelværdi:

$$\begin{equation}\begin{aligned}
\textit{95%-konfidensinterval}&=\left[d-t_{0{,}975}(f)\cdot SE_{diff}\ ;\ d+t_{0{,}975}(f)\cdot SE_{diff}\right]\\
\end{aligned}\end{equation}$$

Hvilket med tallene fra eksemplet giver:

$$\begin{aligned}
\textit{95%-konfidensinterval}&=\left[-0{,}013-2{,}101\cdot 0{,}0375\ ;\ -0{,}013+2{,}101\cdot 0{,}0375\right] \text{ mmol/L}\\
&=[-0{,}0918\ ; 0{,}0658] \text{ mmol/L}\\
\end{aligned}$$

Baseret på de 10 målinger af Kalcium-koncentrationen hos mænd og kvinder, vil man altså forvente at forskellen mellem mænds og kvinders Kalcium-koncentration ligger et sted i intervallet \([-0{,}092\ ; 0{,}066] \text{ mmol/L}\). Specielt er det muligt at forskellen er lig med nul, dvs. man kan ikke påvise en statistisk signifikant forskel - baseret på disse målinger. Hvis man målte på 1000 mænd og 1000 kvinder er det meget muligt at man ville kunne påvise en forskel. Dette kan man læse meget mere om i kapitel 6.

© Thomas Bendsen • 2009 - 2017 • VIA University College Bioanalytikeruddannelsen