//

Noter i statistik

Statistisk hypotesetest

De foregående kapitler har primært beskæftiget sig med hvordan statistiske metoder kan bruges til at beskrive populationer og stikprøver/datasæt. I det følgende kigges på hvordan statistikken kan anvendes til at træffe beslutninger, såkaldt statistisk inferens. Et klassisk eksempel - fra bioanalysen - er spørgsmålet om hvorvidt to maskiner måler ens eller forskelligt. Problemet er, at selv hvis man analyserer den samme prøve på begge maskiner, så får man altid to forskellige resultater - også selv om maskinerne er fuldstændigt identiske. Dette skyldes som bekendt den analytiske variation (se bla. side 4.3). Man får altså ikke noget ud af at spørge om maskinerne måler forskelligt - for det gør de altid.

Løsningen ligger i at stille spørgsmålet på den rigtige måde. Man skal ikke spørge om maskinerne måler forskelligt, men om de måler signifikant forskelligt. Ordet "signifikant" henviser i denne sammenhæng til om de observerede forskelle er så store at de skyldes andet end den tilfældige variation som altid optræder. Dvs. om der er en systematisk forskel på de to apparater; eller med andre ord: Måler maskinerne forskelligt når man ser på middelværdien af mange målinger.

Som det fremgår af de følgende sider, findes der både tests til at undersøge forskelle i middelværdier og spredninger, i 2 eller flere populationer, og både når populationerne kan antages at være normalfordelt og når man ikke kan sige noget deres fordeling.

Klinisk relevans

Man ser tit at folk interesserer sig meget for den ovenfor omtalte statistiske signifikans. Når man gør det, er der imidlertid et andet spørgsmål man ALTID skal huske at stille (dette sker desværre ikke helt så tit):

Er den observerede forskel klinisk relevant?

Hvis man undersøger om to apparater måler forskelligt vil man i praksis altid kunne påvise en statistisk signifikant forskel, hvis blot man bruger tilstrækkeligt mange målinger i sin undersøgelse. En påvisning af at der er statistisk signifikant forskel på to apparater, eller to behandlinger eller lignende, er altså ikke interessant overhovedet, hvis man ikke samtidig redegør for at forskellen har en klinisk betydning.

På den anden side er det selvfølgelig heller ikke tilstrækkeligt, at påvise en klinisk relevant forskel på to apparater. Den kunne jo skyldes tilfældigheder, og man skal derfor altid undersøge om en sådan forskel også er statistisk relevant.

Et veldesignet forsøg er netop kendetegnet ved, at grænserne for klinisk relevans og statistisk signifikans er sammenfaldende. Grænsen for klinisk relevans har man typisk ingen indflydelse på, men grænsen for statistisk signifikans kan ændres, ved at justere det antal målinger der indgår i undersøgelsen. Men mere om dette i kapitel 7.

 

© Thomas Bendsen • 2009 - 2022 • thbe@via.dk