//

Noter i statistik

Beregninger

Den sidste mulighed for at skabe overblik over et større eller mindre datasæt er at beregne en eller flere parametre, som på fornuftig vis beskriver dette datasæt. Hvis en avis skal skrive en artikel om bioanalytikeres løn, så vil de nok referere til et gennemsnit af forskellige bioanalytikeres løn, frem for at opremse hver enkelt lønning.

Det er ikke helt trivielt at bruge en parameter som f.eks. middelværdi til at opsummere et datasæt, men korrekt anvendt kan det være et stærkt værktøj.

Nedenfor er en kort gennemgang af de mest anvendte parametre.

Middelværdi/gennemsnit

Middelværdien (eller mere korrekt: det aritmetiske gennemsnit) af et datasæt betegnes med \(\overline{x}\) og beregnes efter formlen:

$$\overline{x}=\frac{\sum_{i=1}^{n}x_i}{n}= \frac{x_1+x_2+x_3+\ldots+x_n }{n} $$

Forklaring: \(x_1,x_2,\ldots,x_n\) betegner de enkelte målinger i datasættet, og \(n\) er det samlede antal målinger. Formlen angiver altså at man skal lægge alle målinger sammen og dividere med antallet af målinger.

Spredning/varians

Spredningen af et datasæt betegnes SD og beregnes efter formlen:

$$SD=\sqrt{\frac{\sum_{i=1}^n(\overline{x}-x_i)^2}{n-1}}=\sqrt{\frac{(\overline{x}-x_1)^2+(\overline{x}-x_2)^2+\ldots +(\overline{x}-x_n)^2}{n-1}}$$

Bemærk at spredningen ofte betegnes standardafvigelse - deraf forkortelsen SD, som står for den engelske betegnelse standarddeviation.

Spredningen siger noget om hvor langt de enkelte målinger spreder sig fra middelværdien. Hvis man igen ser på bioanalytiker-lønninger så indikerer en stor værdi af SD altså at der er stor forskel på lønningerne, mens en lille værdi af SD indikerer at alle tjener nogenlunde det samme.

Variansen er kvadratet på spredningen, altså

$$varians = SD^2$$

Variationskoefficient

Variationskoefficient (CV - "Coefficient of Variation") er defineret som

$$CV = \frac{SD}{\overline{x}}$$

altså spredningen delt med middelværdien. Denne størrelse er interessant hvis man skal vurdere om en spredning er "stor" eller "lille". Betragt f.eks. en pipette hvor man har foretaget 10 afpippeteringer med samme volumen. Som man kan læse på side 4.3 er spredningen på disse tal et udtryk på pipettens usikkerhed. På grundlag af en sådan spredning er det altså oplagt at spørge om der er tale om en god eller dårlig pipette.

Men hvis man kun ved at spredningen er f.eks. 5 μL er det selvfølgelig umuligt at besvare spørgsmålet. Kender man derimod også middelværdien kan det besvares. Hvis de 10 afpippeteringer havde en middelværdi på 1000 μL må der være tale om en god pipette (CV = 0,005 = 0,5%) og hvis de 10 afpippeteringer havde en middelværdi på 20 μL må der være tale om en særdeles dårlig pipette (CV = 0,25 = 25%).

Standardfejl

Standardfejlen, eller på engelsk: Standarderror (\(SE\)) eller Standard error of Mean (\(SEM\)) er defineret som:

$$SEM = \frac{SD}{\sqrt{n}}$$

Kort fortalt udtrykker denne størrelse usikkerheden på gennemsnittet af \(n\) målinger (hvis \(SD\) er usikkerheden på hver af målingerne). Man kan i øvrigt læse meget mere om denne i kapitel 5, hvor den danner grundlaget for beregning af konfidensintervaller for middelværdier.

Her kan man blot lige bemærke en enkelt egenskab: Jo flere målinger man har, jo mindre bliver usikkerheden på gennemsnittet af målingerne. Dette bør være rimeligt intuitivt, og ellers kan man med fordel tænke lidt over hvad det betyder.

Median

Nogen gange kan det være uheldigt at bruge gennemsnittet. I et lille datasæt kan enkelte ekstreme værdier forrykke gennemsnittet markant. Hvis man f.eks. kigger på lønnen hos 10 bioanalytikere, hvor de 9 tjener 330.000,- om året, mens den sidste tjener 9.000.000,- (han/hun har måske vundet i lotto) så er det f.eks. ikke ret interessant at vide at gennemsnittet er 1.000.000,-.

Lidt teknisk må middelværdien egentlig kun bruges når datasættet er normalfordelt, (dvs. fordeler sig nogenlunde symmetrisk og klokkeformet omkring middelværdien - se side 3.4). I andre tilfælde kan man bruge medianen. Denne findes ved at opstille tallene i stigende rækkefølge og så vælge det midterste tal. Medianen af datasættet (3,5,6,7,2) er således 5. Hvis man har et datasæt med et lige antal data, hvor der således ikke er en ”midterste” værdi, vælger man gennemsnittet af de to tal i midten. Medianen af tallene (3,7,6,4) er således 5.

I eksemplet med bioanalytikernes løn, vil medianen være 330.000,- hvilket nok er noget mere interessant end middelværdien.

Medianen er også det samme som 0,5-fraktilen (se side 3.3 og 3.10).

Modus

Et begreb man kan støde på i forskellige sammenhænge, men som sjældent er specielt relevant (i hvert fald i sundhedsvidenskab) er modus. Dette er det tal i en stikprøve, som forekommer flest gange. Hvis flere forskellige tal forekommer lige mange gange, kan man anvende gennemsnittet (eller medianen) af de oftest forekomne tal. 

© Thomas Bendsen • 2009 - 2022 • thbe@via.dk