Noter i statistik

Vælg sektion:

3.1	Introduktion
3.2	Population og stikprøve
3.3	Sandsynlighed og fraktiler - lidt notation
3.4	Normalfordelingen
3.5	Normalfordeling - grafisk repræsentation
3.6	Normalfordeling - beregning
3.7	Normalfordeling - eksempel
3.8	qq-plot
3.9	Log-normal fordelingen
3.10	Beregning - non-paramtrisk
3.11	Andre fordelinger

Variation

Konfidensintervaller

Hypotesetest

Mere om hypotesetest

Hypotesetest - ikke parametrisk

Øvrige test og metoder

Metodevurdering

Statistisk kvalitetskontrol

Uddrag af metodevalidering

Tabeller

Powerpoints

Lidt matematik

Beregninger - ikke-parametrisk

Hvis man ikke kan afgøre hvordan en stikprøve er fordelt, må man anvende såkaldte ikke-parametriske metoder til beregning af fraktiler. At metoderne er ikke-parametriske henviser til at fordelingen ikke kan beskrives ved en eller flere parametre, sådan som man jo kan med normalfordelingen, der beskrives fuldstændigt af middelværdien og spredningen.

I disse situationer bliver beregningerne lidt mere besværlige at udføre (men ikke at forstå).

Kort fortalt er fremgangsmåden for beregning af \(p\)-fraktilen følgende, som også blev anvendt til fremstilling af (uddybes i eksemplet nedenfor).

Tallene i stikprøven rangordnes (dvs. de sorteres i stigende rækkefølge, det laveste tal giver rang 1, det næste rang 2 osv.).
Rangnummeret (\(r\)) svarende til den ønskede \(p\)-fraktil kan nu tilnærmelsesvist beregnes efter formlen:
\(r = p\cdot (n+1)\)
hvor \(n\) er antal målinger i stikprøven (eller rangnummeret på det største tal).
Bemærk at det ikke er muligt at angive en eksakt formel for sammenhængen mellem \(p\) og \(r\), da denne afhænger af fordelingen - som jo ikke er kendt . Excel-funktionen "fraktil.medtag" bruger formlen \(r = p\cdot (n-1)+1\), mens Excel-funktionen "fraktil.udelad" (som er den der bør anvendes ved kontinuerte fordelinger) også anvender \(r = p\cdot (n+1)\).
Alle formler giver stort set samme resultat, så længe \(r\) ikke er for tæt på 1 eller \(n\). Man bør derfor sikre sig at stikprøverne er så store, at man ikke har brug for rangværdier der er tæt på 1 eller \(n\), og så kan man i øvrigt anvende den formel man selv foretrækker.
\(p\)-fraktilen er nu lig det tal fra stikprøven som har fået rangnummeret \(r\). Hvis \(r\) ikke er et helt tal, laves lineær interpolation mellem de to nærmeste tal.

Eksempel

Betragt følgende tal som stammer fra målinger af P-billirubin hos voksne danskere (alle tal er i μmol/L). Tallene er sorteret i stigende rækkefølge, og altså ikke opskrevet i den rækkefølge de er målt.

2,69	5,12	6,73	9,67	13,4
3,52	5,52	7,53	10,4	14,3
3,98	5,88	8,23	11,0	18,7
4,83	6,33	8,62	11,7	19,5

På basis af disse tal bestemmes 0,3-fraktilen for fordelingen af P-billirubin hos voksne danskere - altså det tal hvorom det gælder at 30% af befolkningen har en lavere værdi.

Først rangordnes tallene, dvs. de sorteres i stigende rækkefølge (er gjort) og hvert tal tildeles en "rang" fra 1 til \(n\) (hvor \(n\) er det samlede antal målinger). I dette tilfælde får tallene altså følgende rangnumre

Måling Rang

2,69 1

3,52 2

...

8,23 11

....
Rangnummeret svarende til 0,3-fraktilen bestemmes nu som:

\(r = p\cdot (n+1) = 0{,}3\cdot 21 = 6{,}3\)
Da dette ikke er et helt tal bestemmes fraktilen vha. lineær interpolation mellem de to tal med rang 6 og 7 (dvs. tallene 5,52 og 5,88). Dette giver altså:

\(x = 5{,}52 + 0{,}3\cdot (5{,}88-5{,}52) = 5{,}628 \approx 5{,}63\)
Dvs. at baseret på denne stikprøve vil 30% af populationen have en S-billirubin koncentration der ligger under 5,63 μmol/L.

Beregn 0,5-fraktilen for tallene i ovenstående eksempel (3 betydende cifre):

Hvad er den korrekte betegnelse for det tal du har beregnet ovenfor?

Middelværdi

Modus

Median

Spredning