Korrelationskoefficienten
I forbindelse med lineær regression støder man ofte (altid) på korrelationskoefficienten (\(R\)), og dermed også spørgsmålet: Hvad betyder \(R\)?
Dette spørgsmål er desværre væsentligt nemmere at stille end det er at besvare.
Under alle omstændigheder er det nemmeste at forholde sig til kvadratet på korrelationskoefficienten (\(R^2\)). Uden for meget matematisk præcision, kan denne størrelse beregnes som
$$ R^2 = \frac{\text{Den variation i y som kan forklares af "den bedste rette linie"}}{\text{Den totale variation i y}} $$
Eller
$$ R^2=\frac{\text{Den variation i y som kan forklares af "den bedste rette linie"}}{\text{Den variation i y som kan forklares af "den bedste rette linie" + den tilfældige variation i y }} $$
Denne formel sætter nogle begrænsninger for hvor meget man kan sige alene baseret på \(R^2\):
- Givet en bestemt størrelse af den tilfældige variation, kan man få \(R^2\) så tæt på 1 som man ønsker, blot ved at sprede målingerne ud over et stort måleområde (hvilket øger den variation som forklares af den bedste rette linje, og dermed øger \(R^2\)). Se figur 1.
- Al den variation som ikke forklares af en ret linje, betragtes af formlen som tilfældig. Formlen kan altså ikke skelne mellem den situation hvor der ikke er nogen tilfældig variation, men en systematisk variation som afviger fra en ret linje, og så den situation hvor der er en tilfældig variation oveni en lineær sammenhæng. Se figur 2.
Figur 1: De røde linjer viser regressionslinjen. Den sande sammenhæng mellem punkterne er \(x=y\). I alle 3 grafer er fejlene helt identiske. Det ses således at \(R^2\) automatisk stiger når x- og y-værdierne spredes over et større område.
Figur 2: I den første graf er sammenhængen mellem x- og y-værdier lineær plus en tilfældig fejl. I den anden graf er sammenhængen perfekt eksponentiel (der er altså ingen tilfældig fejl, men til gengæld en sammenhæng som ikke er lineær). \(R^2\) kan ikke skelne mellem disse to situationer. |