Noter i statistik

qq-plot

Ofte vil man være interesseret i at afgøre om en stikprøve kan antages at stamme fra en bestemt fordeling (f.eks. en normalfordeling), bla. fordi dette i princippet er en forudsætning for en række af de statistiske metoder der gennemgås i det følgende. Til dette formål kan man anvende et såkaldt qq-plot. "qq" står for "quantile-quantile": Altså et plot hvor man afbilder fraktiler overfor hinanden, som forklaret herunder. (I den danske litteratur omtales qq-plot ofte som "probit-plot", men i disse noter vælges den engelske betegnelse, da det bla. er den der anvendes i det meste statistiksoftware).

Et qq-plot er baseret på, at hvis man trækker eksempelvis 9 tilfældige værdier fra en normalfordeling, så vil det laveste tal i middel forventes at være lig 0,1-fraktilen, det næstlaveste tal vil i middel være lig 0,2-fraktilen, mens det sidste tal i middel vil være lig 0,9-fraktilen. Disse fraktiler kan altid beregnes med udgangspunkt i en teoretisk normalfordeling, og disse "teoretiske" fraktiler kan man så sammenligne med de observerede værdier.

Bemærk at der her anvendes følgende sammenhæng mellem rang og sandsynlighed (hvor \(r\) står for rang og \(p\) for sandsynlighed):

$$r = p \cdot (n + 1) \Longleftrightarrow p = \frac{r}{n+1}$$

Denne sammenhæng er ikke matematisk entydig, og andre bøger og statistikprogrammer kan anvende andre sammenhænge til beregning af sandsynlighederne svarende til de observerede værdier (Hvis man bruger R/Deducer til at fremstille qq-plots, så anvendes sammenhængen \(p = \frac{2\cdot r  -1}{2\cdot n}\)).

Fremgangsmåde

Det skal undersøges om følgende tal er normalfordelte (eller mere korrekt: stammer fra en normalfordelt population):

6,26 8,02 11,19 10,44 10,47
10,24 10,27 14,70 8,68 9,07
7,14 6,48 11,07 12,09 7,02
10,89 12,45 8,87 6,04 8,89

Først sorteres tallene i stigende rækkefølge, og tallene tildeles rangnumre fra 1 og opad. Dvs. man får en liste som denne:

Måling Rang
6,04 1
6,26 2
6,48 3
... ...
14,70 20

Hvert rangnummer omsættes nu til en teoretisk sandsynlighed efter formlen:

$$p = \frac{r}{n + 1}$$

hvor \(r\) er rangnummeret, \(n\) er antallet af målinger og \(p\) er sandsynligheden.

Herefter beregnes fraktilen i den normerede normalfordeling. I Excel gøres dette med formlen "NORM.INV()". Et regneark til fremstilling af qq-plot kunne f.eks. se således ud (formellinjen viser indholdet af celle D2 - bemærk at formlen i ældre udgaver af Excel hedder "NORMINV"):

probitcalculation

Formlen til beregning af fraktilen svarende til rang 1 er angivet i formellinien (øverst til højre). "0" er middelværdien og "1" er spredningen for den fordeling, man ønsker at beregne fraktilen i. Det har i praksis ingen betydning hvilken middelværdi og spredning man anvender.

Endelig laves et plot med målingerne på x-aksen og de tilsvarende teoretiske fraktiler fra N(0,1)-fordelingen på y-aksen (dvs. man skal plotte kolonnerne A og D overfor hinanden). Hvis dette giver noget som ligner en ret linie, kan man antage at målingerne stammer fra en normalfordeling. Bemærk at det er de store træk man skal kigge efter. Det som især er kritisk er systematiske afvigelser fra en ret linie. Nedenstående, som måske ikke umiddelbart minder om en ret linie, stammer således fra en normalfordeling.

Man har altså nu en graf som - via rangnumrene - sammenligner fordelingen af tallene i stikprøven, med fordelingen af en stikprøve med samme størrelse fra den normerede normalfordeling.

Bemærk at der ikke nødvendigvis er enighed om hvorvidt man skal have målingerne eller de teoretiske fraktiler på x-aksen. Men så længe man kun anvender plottet til at vurdere om punkterne ligger på en ret linje, så fungerer begge dele lige godt.

© Thomas Bendsen • 2009 - 2017 • VIA University College Bioanalytikeruddannelsen