//

Noter i statistik

Fordelinger

Et af de mest fundamentale begreber i statistikken er begrebet "fordeling". Man kan godt lave statistik uden en nærmere forståelse for dette begreb, men skal man kunne forstå og vurdere hvad man gør, kommer man ikke udenom at sætte sig ind i det.

Indenfor den medicinske laboratorieverden bliver der ofte stillet spørgsmål som i bund og grund ikke kan besvares. Det kan være spørgsmål som: Er hr. Jensen HIV-inficeret, eller måler apparat A og B ens. Grunden til at disse spørgsmål ikke kan besvares er at enhver måling er behæftet med en usikkerhed eller en fejlrisiko. Nogle fejl kan og bør undgås med omhyggelig adfærd blandt sundhedspersonalet, mens andre fejl er indbyggede i de metoder der anvendes og ikke kan elimineres, men måske nok minimeres.

På trods af at de ovennævnte spørgsmål ikke kan besvares med 100% sikkerhed, så er det jo stadig spørgsmål som man er nødt til at besvare bedst muligt. Når man f.eks. skal afgøre om hr. Jensen er HIV-inficeret, så laver man selvfølgelig en test. Men i og med at testen kan tage fejl (af den ene eller den anden grund) så er det væsentligt at man kan sige noget om sandsynligheden for at svaret er korrekt.

Ligeledes hvis man måler fru Hansens kolesterol-tal. Så tager man en blodprøve, anbringer den i en maskine og får et tal ud. Men dette tal er ikke sandheden, omend det gerne skulle ligge "tæt på". Men igen er det selvfølgelig vigtigt at kunne uddybe hvad "tæt på" betyder. Det kan man f.eks. gøre med et såkaldt konfidensinterval (gennemgås nærmere i kapitel 5), dvs. at man siger: Med 95% sandsynlighed ligger fru Hansens kolesterol-tal i intervallet xx-yy (i den virkelige verden undlades dette oftest, således at man blot afleverer måleresultatet). Nogle gange er usikkerhederne så små at de er betydningsløse, og man ikke behøver tænke på dem. Andre gange kan de være så store at man den ene dag ville have behandlet fru Hansen, mens man en anden dag ville have sendt hende hjem igen uden behandling. Men uanset hvad, er det vigtigt at man er i stand til at vurdere disse usikkerheder.

Hvad er en fordeling?

For at kunne vurdere bl.a. de usikkerheder som omtales ovenfor, er det nødvendigt at vide noget om fordelinger. I dette tilfælde hvordan tallene ville fordele sig, hvis man foretog mange bestemmelser af fru Hansens kolesterol-tal.

Når man ønsker at udtale sig om sandsynligheden for en hændelse, skal man først og fremmest kende alle de mulige hændelser. Dernæst skal man bestemme sandsynligheden for hver af de mulige hændelser, under de betingelser som nu gælder. En fordeling er netop en sådan specifikation af sandsynligheder. Hvis man f.eks. slår med en terning, så er der seks mulige udfald. Hvis man samtidig specificerer at terningen ikke er falsk, så er der tale om en såkaldt uniform fordeling, dvs. at alle udfald har samme sandsynlighed (nemlig \(p=1/6\)). På de følgende sider kan man læse mere om de typer af fordelinger som oftest optræder i den medicinske verden.

Før man kan forstå fordelingsbegrebet er det imidlertid nødvendigt med en forståelse af begreber som population, stikprøve og fraktiler som de følgende sider handler om.

© Thomas Bendsen • 2009 - 2022 • thbe@via.dk