//

Noter i statistik

Normalfordelingen

Den ubetinget vigtigste fordeling indenfor den medicinske verden er normalfordelingen. I modsætning til f.eks. den uniforme fordeling der beskriver kast med en terning, så beskriver normalfordelingen en situation hvor der er uendelig mange mulige udfald. Dette besværliggør den matematiske beskrivelse noget, da man ikke blot kan angive sandsynligheden for hvert enkelt udfald.

Teknisk beskrivelse

En teknisk definition af normalfordelingen (som man ikke bliver ret klog af at læse), er at normalfordelingen er den klasse af fordelinger som beskrives af tæthedsfunktionen:

$$f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$

Grafen for denne funktion er vist (og nærmere beskrevet) på side 3.5.

Lidt mere relevant er det at vide at en normalfordeling er entydigt beskrevet af dens middelværdi og spredning (som benævnes \(\mu\) hhv. \(\sigma\) i formlen ovenfor). Konkret betyder dette, at hvis en population er normalfordelt, så er al relevant information om denne population indeholdt i middelværdien og spredningen.

Population eller stikprøve

Først og fremmest er det vigtigt at forstå at når man taler om fordelinger (normalfordelingen eller en hvilken som helst anden fordeling), så tænker man på hvordan populationen er fordelt - ikke stikprøven (se side 3.2). Af praktiske årsager kan man naturligvis kun måle på en stikprøve, og dermed kan man principielt kun udtale sig om denne. Men hele pointen med statistik er netop at man bruger denne stikprøve til at drage konklusioner om populationen.

Er data normalfordelt

Allerførst er det vigtigt at kunne afgøre om en given stikprøve kan antages at stamme fra en normalfordelt population. Her er groft sagt tre metoder:

  1. Erfaring: Erfaringen viser at når man foretager gentagne målinger på den samme prøve, så bliver resultaterne normalfordelte. Så i disse tilfælde kan man uden videre gå ud fra at der er tale om normalfordeling.
  2. Histogram: Hvis man har målt på forskellige prøver, kan man ikke uden videre antage, at der er tale om en normalfordeling (dvs. hvis der er tale om en population bestående af biologisk forskellige individer). Her er det nødvendigt at undersøge datasættet nærmere, hvilket kan gøres vha. et histogram (se f.eks. side 2.6) eller vha et:
  3. qq-plot (se side 3.8). Et plot hvor man afbilleder hver enkelt værdi i forhold til en tilsvarende værdi fra den normerede normalfordeling. Hvis dette plot ikke afviger væsentligt fra en ret linie, kan man antage at der er tale om en normalfordeling. Hvis man har adgang til en computer, er qq-plottet formentlig at foretrække frem for histogrammet til vurdering af normalfordeling. 

Hvad kan normalfordelingen bruges til

Hvis man på den ene eller anden måde har erfaret at en stikprøve stammer fra en normalfordelt population, så giver det flere fordele. Først og fremmest kan man bruge middelværdi og spredning til at opsummere stikprøven (eller populationen). Dvs. al nødvendig information om populationen er indeholdt i disse to parametre. Bla. er man herudfra i stand til at beregne sandsynligheder; eksempelvis hvor stor en del af raske mænd har en hæmoglobin-koncentration under 7,0 mmol/L

I denne forbindelse er det godt at være opmærksom på nedenstående symboler og hvordan de bruges:

\(\mu\)
Bruges om middelværdien for populationen. Dvs. det er egentlig denne parameter man gerne vil kende, men som man af praktiske årsager aldrig kan bestemme nøjagtigt (da man ikke kan måle på alle individer i populationen).
\(\overline{x}\)
Bruges om det beregnede gennemsnit for stikprøven. Dette tal er det bedste gæt på den sande værdi af \(\mu\).
\(\sigma\)
Bruges om spredningen for populationen. Ligesom med \(\mu\), er det egentlig denne parameter man gerne vil kende, men af praktiske grunde må man nøjes med at bruge \(SD\) som et gæt på dens værdi.
\(SD\)
Den spredning som man kan beregne ud fra stikprøven (som forklaret på side 2.9). Dette tal er det bedste gæt man kan komme med for værdien af \(\sigma\).

Det vil altså i sige at i praksis har man kun mulighed for at bestemme \(\overline{x}\) og \(SD\). Ideelt ville man helst kende \(\mu\) og \(\sigma\).

© Thomas Bendsen • 2009 - 2022 • thbe@via.dk