Noter i statistik

Teststyrke og stikprøvestørrelser

Nederst på side 6.4 blev begrebet teststyrke defineret. Kort fortalt er dette sandsynligheden for at testen forkaster \(H_0\), hvis der faktisk er forskel på populationerne. Eller med andre ord er det sandsynligheden for at testen opdager en forskel (deraf navnet: det er testens "styrke" - i forhold til at opdage en eventuel forskel).

I første omgang bør det være klart, at denne teststyrke afhænger af hvor stor en forskel man ønsker at testen skal opdage. Derudover afhænger den af antallet af målinger, og usikkerheden på de analyser der indgår (eller den biologiske variation hvis man sammenligner befolkningsgrupper).

Et af de første skridt i ethvert forsøgsdesign som involverer statistiske metoder, er derfor at bestemme den mindste relevante difference (forkortet MIREDIF). Dette er altså den mindste difference mellem de populationer man ønsker at sammenligne, som er relevant at kunne opdage. Denne størrelse vil typisk skulle fastlægges i samarbejde med klinikerne. Indledningsvist kan man eventuelt anvende denne database fra Westgard: http://www.westgard.com/biodatabase1.htm.

Det vigtige i denne sammenhæng er altså, at man skelner mellem begreberne statistisk signifikans og klinisk relevant. At en forskel er statisk signifikant betyder, at man har påvist at den ikke udelukkende kan skyldes tilfældigheder. At en forskel er klinisk relevant betyder, at den er vigtig for patienterne (og lægerne).

Hvis man laver en sammenligning af to populationer, med tilpas mange målinger af hver population, så vil man altid kunne påvise en statistisk signifikant forskel. Men det er jo spild af penge, hvis man kan påvise en forskel der er så lille at lægerne og patienter er ligeglade. Hvis man anvender for få målinger, risikerer man på den anden side, at der er en klinisk relevant forskel mellem populationerne, som den anvendte hypotesetest ikke kan opdage, hvorved man fejlagtigt konkluderer at forskellen blot skyldes tilfældigheder.

Kunsten i at designe et forsøg, består dermed i at vælge det antal målinger, som lige netop sikrer at den mindste (klinisk) relevante difference også bliver statistisk signifikant.

Eksempel

På et laboratorium ønsker man at sammenligne to apparater til bestemmelse af frit T3. I første omgang ønsker man at sammenligne apparaterne ved den høje ende af referenceintervallet, som er 4,3 - 8,0 pmol/L for voksne. Man designer derfor et forsøg hvor en kontrol med værdien 10,9 pmol/L måles et antal gange på hvert apparat.

Det typiske spørgsmål er nu hvor mange gange man skal måle kontrollen med hvert apparat? Men før man kan besvare dette spørgsmål, er det nødvendigt at specificere den mindste forskel man ønsker at kunne opdage (MIREDIF) - og med hvilken sikkerhed man vil kunne opdage denne forskel (altså teststyrken).

Et bud på MIREDIF kan findes i ovennævnte database på Westgards hjemmeside, under kolonnen "B(%)". For frit T3 giver dette MIREDIF=4,8% svarende til 0,52 pmol/L ved måling på kontrollen.

Men inden man kan begynde at foretage en konkret beregning af stikprøvestørrelse/teststyrke er det  også nødvendigt at kende apparaternes præcision. Denne oplysning bør man kunne finde på sine kontrolkort, men hvis apparatet er så nyt at sådanne endnu ikke findes, kan det være nødvendigt at estimere præcisionen. Dette kan f.eks. gøres med et pilotforsøg hvor man måler et antal gange på kontrolprøven, eller man kan anvende den værdi som producenten specificerer (i mangel af bedre). I dette eksempel har begge apparater en præcision givet ved \(SD_{ana}= 0{,}6\) pmol/L.

Med disse tal kan man nu bruge side 7.4 til at bestemme teststyrken for en given stikprøvestørrelse, og ved at prøve sig lidt frem, kan man således bestemme den stikprøvestørrelse der skal til at opnå en given teststyrke.

Hvis man ønsker at beregne teststyrken ved 15 målinger på hvert apparat udfyldes siden med følgende tal:

Mindste relevante difference

0,52

Parametre for første population:

Parametre for anden population:

σ1: 0,6 σ2: 0,6
n1: 15 n2: 15

Dette giver en teststyrke på ca. 0,6, dvs. der er kun 60% chance for at det skitserede forsøg vil opdage en forskel på 0,53 pmol/L. Dette er nok for lavt til at man normalt vil acceptere det. Øges antallet af målinger derimod til 30 fås en teststyrke på ca. 0,9 hvilket selvfølgelig er mere acceptabelt. Øges antallet af målinger på hvert apparat yderligere til 60 fås en teststyrke på ca. 1, dvs. man er i praksis sikker på at opdage hvis der er forskel mellem de to apparater på mindst 0,53 pmol/L.

Overvejelser omkring teststyrken bør således være en naturlig del af ethvert forsøgsdesign. I ovennævnte eksempel spilder man sin tid og penge hvis man foretager under 15 målinger, da man i så fald risikerer at overse en betydelig forskel mellem de to apparater - og så er det nok bedre slet ikke at lave forsøget, og i det mindste vide at korrekteden ikke er kontrolleret. Og man spilder sin tid og penge hvis man foretager mere end 60 målinger, da det eneste man opnår herved, er at man kan påvise forskelle, som er så små at de ikke har nogen klinisk betydning.

Udfordringen

I forhold til de relativt simple t-tests der er gennemgået i kapitel 6 er det muligt at beregne en teststyrke, som forklaret på denne side. Så snart de statistiske test bliver blot en anelse mere komplicerede, begynder det imidlertid at blive svært at beregne teststyrker. Dette er en af de store udfordringer i forhold til at anvende hele tankegangen bag de klassiske hypotesetest.

 

© Thomas Bendsen • 2009 - 2017 • VIA University College Bioanalytikeruddannelsen