Noter i statistik

Sandsynlighed og fraktiler

Begrebet fraktil (engelsk: quantile) er fundamentalt i statistik. For at kunne definere dette begreb, er det nødvendigt at få lidt notation på plads.

Når man f.eks. taler om hæmoglobinkoncentrationen hos raske danskere, så er der tale om en såkaldt stokastisk variabel, eller med et andet udtryk: en tilfældig variabel. Dvs. at hver gang man foretager en måling af denne variabel (altså bestemmer hæmoglobinkoncentrationen hos en dansker) så får man en ny (og uforudsigelig) værdi. En sådan stokastisk variabel benævnes oftest med et stort bogstav (typisk \(X\)). Hvis \(x\) er et reelt tal (indenfor bioanalysen et positivt reelt tal) så angives sandsynligheden for at en måling af en stokastisk variabel antager en værdi der er mindre end \(x\), som \(P(X\leq x)\). En stor del af statistikken har til formål at beregne disse sandsynligheder under forskellige omstændigheder.

Hvis \(X\) er den stokastiske variabel som angiver hæmoglobin-koncentrationen hos raske danskere, så bruges notationen

$$P(X\leq 9{,}0 \text{ mmol/L})$$

 

i betydningen: Sandsynligheden for at en tilfældig udvalgt rask dansker har en hæmoglobinkoncentration (\(X\)) under 9,0 mmol/L.

Imidlertid ønsker man ofte at gå den anden vej, dvs. givet en sandsynlighed (\(p\)), så ønsker man at finde det tal (\(x\)) således at \(P(X\leq x)=p\). I denne sammenhæng kaldes \(x\) for \(p\)-fraktilen.

Hvis ovennævnte sandsynlighed f.eks. er 60%, så betegnes 9,0 mmol/L altså som 0,60-fraktilen. Bemærk at dette selvfølgelig afhænger af hvilken fordeling der er tale om. Hvis man i stedet for hæmoglobin kigger på glucose er 9,0 måske 0,99-fraktilen (afhængigt af middelværdien og spredningen af glucosekoncentrationen hos befolkningen).

Igen med reference til hæmoglobin-eksemplet kunne en opgave altså lyde: Find den hæmoglobin-koncentration (\(x\)) hvorom der gælder at 2,5% af befolkning har en lavere koncentration. Dette tal vil så kunne refereres til som 0,025-fraktilen (eller 2,5-percentilen hvis man foretrækker at angive sandsynligheder i procent).

Beregninger

På siderne 3.6 og 3.10 i dette kapitel gennemgås det hvordan man kan beregne disse sandsynligheder og fraktiler, i henholdsvis det tilfælde hvor der er tale om en normalfordelt population, og en population hvor man ikke kender fordelingen. Yderligere eksempler kan findes på siderne om referenceintervaller (4.13 og frem).

Nu er det selvfølgelig ikke udelukkende sandsynligheder af typen \(P(X ≤ x)\) man er interesseret i. Det kunne jo være man ønskede at bestemme sandsynligheden for at en tilfældig person havde en hæmoglobinkoncentration over 9 mmol/L, eller mellem 8 og 10 mmol/L. Til disse beregninger kan man benytte følgende formler:


\[\begin{equation}
P(X > x) = 1 - P(X \leq x)\\
\end{equation}
\]

og

\[
\begin{equation}
P(x \leq X \leq y) = P(X \leq y) - P(X < x)\\
\end{equation}
\]

Den sidste formel kan formuleres som: Sandsynligheden for at få en værdi mellem \(x\) og \(y\) er lig sandsynligheden for at få en værdi under \(y\) minus sandsynligheden for at få en værdi under \(x\).

Begge formler bør være relativt indlysende hvis man tænker lidt over det. F.eks. siger den første formel blot at sandsynligheden for at få en værdi over \(x\) plus sandsynligheden for at få en værdi under \(x\) er lig 1; eller med andre ord: At en måling enten vil give en værdi over eller under \(x\).

© Thomas Bendsen • 2009 - 2017 • VIA University College Bioanalytikeruddannelsen