Lineær regression
De forrige sider har beskæftiget sig med, hvordan man opsummerer målinger af en enkelt parameter; f.eks. hæmoglobin hos raske danskere. En anden klassisk problemstilling er måling af to sammenhængende (og kontinuerte) parametre, som f.eks. eksempel 1 og 2 på side 2.4 og 2.5.
I disse tilfælde er det ikke nødvendigvis specielt interessant at kunne udtale sig om middelværdien af målingerne på den ene eller den anden parameter. Derimod er det ofte interessant at kunne udtale sig om graden af sammenhæng mellem de to parametre. Dvs. hvis man kender den ene parameter, kan man så forudsige værdien af den anden? Og hvis svaret herpå er "ja": Kan man så opskrive et matematisk udtryk for denne sammenhæng?
Allerførst er det vigtigt at gøre sig klart, at lineær regression ikke siger noget om hvorvidt der faktisk er en lineær sammenhæng mellem to parametre. Dette er derimod en forudsætning for at beregningerne giver det korrekte resultat. Hvis man ønsker at undersøge om sammenhængen er lineær, så begynder man altid med et xy-plot som gennemgået på side 2.4. Hvis dette giver anledning til at tro på at der en lineær sammenhæng mellem de to parametre, så kan man gå videre med statistiske beregninger (lineær regression), som kan give en matematisk beskrivelse af sammenhængen. Læs mere på side 2.12 om hvad det præcist betyder at sammenhængen skal være lineær.
Det klassiske eksempel fra bioanalysen på brug af lineær regression, er i forbindelse med fotometri og Lambert-Beers lov. Fotometri anvendes til bestemmelse af koncentrationen af farvede stoffer i en opløsning, idet Lambert-Beers lov siger at der er en lineær sammenhæng mellem den såkaldte "absorbans" og koncentrationen af det farvede stof. Når man skal anvende fotometri til at fastlægge koncentrationen af et stof i en ukendt prøve, fremstilles først en standardkurve, dvs. at man måler på en række prøver med kendt koncentration. Resultatet af dette plottes grafisk (i et xy-plot - se side 2.4), og hvis dette viser en lineær sammenhæng, anvendes lineær regression til at fastlægge den matematiske sammenhæng mellem absorbans og koncentration.
Endelig kan denne matematiske sammenhæng så anvendes til at bestemme koncentrationen i den ukendte prøve, ved at man måler dens absorbans, og herefter bruger den fundne sammenhæng til at beregne koncentrationen
I det følgende gennemgås forskellige praktiske aspekter af lineær regression. For en udførlig gennemgang af det matematiske grundlag henvises til anden litteratur.
Eksempel
I forbindelse med fremstilling af en standardkurve, har man målt følgende sammenhæng mellem koncentration og absorbans:
Koncentration (mmol/L) |
Absorbans |
0,00 |
0,000 |
1,00 |
0,216 |
2,00 |
0,438 |
3,00 |
0,680 |
4,00 |
0,861 |
Først plottes disse målinger i et xy-plot:
Dette plot er i overenstemmelse med forventningen om at der er en lineær sammenhæng mellem koncentration og absorbans.
For at lave lineær regression (i Excel) højreklikkes nu på et af datapunkterne, og der vælges "tilføj tendenslinie". Under "Indstillinger for tendenslinje" vælges "lineær" og der sættes kryds ved "Vis ligning i diagram" og vis "R-kvadreret værdi i diagram".
Herefter har man følgende diagram:
Fortolkning
Korrelationskoefficienten:
Værdien R er den såkaldte korrelationskoefficient. Excel angiver kvadratet på R (dvs. R2) da det oftest er denne størrelse man bruger. R2 angiver graden af sammenhæng mellem de to parametre, dvs. den del af variationen i den afhængige parameter (absorbans) som kan forklares med variationen i den uafhængige parameter (koncentration). Den resterende del af variationen i den afhængige parameter skyldes tilfældig variation. Hvis R2 = 1 er der en perfekt lineær sammenhæng, og hvis R2 = 0 er der overhovedet ingen sammenhæng. Læs mere om korrelationskoefficienten på side 2.13.
Regressionsligningen:
Ligningen som i eksemplet er "y = 0,2186x+0,0018" angiver den matematiske forskrift, som bedst muligt beskriver sammenhængen mellem de to parametre. Bemærk at Excel ikke holder styr på enheder. Det skal man imidlertid selv sørge for at gøre. Tallet 0,2186 angiver hældningen af kurven og dette tal får i dette eksempel enheden \(\frac{1}{\text{mmol/L}}= \frac{\text{L}}{\text{mmol}}\) (overvej hvorfor?). Hvis man har behov for at præsentere ligningen i en rapport eller lignende, skal man også være opmærksom på om Excels betegnelser "x" og "y" giver nogen mening. Hvis ikke, bør man ændre dem til noget mere meningsfuldt. I eksemplet bør ligningen altså præsenteres som:
$$A = 0{,}2186\ \frac{\text{L}}{\text{mmol}}\cdot c + 0{,}0018$$
Hvis man f.eks. har en prøve med absorbansen 0,3 kan man nu bestemme koncentration vha. ligningen, dvs:
$$c = \frac{0{,}3-0{,}0018}{0{,}2186\ \frac{\text{L}}{\text{mmol}}}= 1{,}36 \ \frac{\text{mmol}}{\text{L}}$$ |