//

Noter i statistik

Teknikken bag variansanalyse

Bemærk at hvis man har adgang til Excel, bør man overveje om man har brug for at forstå denne side, og i stedet gå direkte videre til side 6.19, som forklarer hvorledes variansanalyse udføres i Excel. Hvis man gerne vil have en dybere forståelse af de tal som Excel beregner, eller har brug for selv at kunne lave en variansanalyse kan man læse denne side.

Notation og formler

Antallet af populationer man ønsker at sammenligne betegnes k og middelværdierne i disse populationer betegnes \(\mu_1, \mu_2, \ldots, \mu_k\). Fra hver af disse populationer udtages naturligvis en stikprøve, som bruges til beregningerne. Antallet af elementer i disse stikprøver betegnes \(n_1, n_2, \ldots,n_k\), mens middelværdi og spredning for stikprøverne betegnes \(\overline{x}_1, \overline{x}_2,\ldots,\overline{x}_k\) hhv. \(SD_1, SD_2, \ldots,SD_k\). Middelværdien beregnet på samtlige målinger betegnes \(\overline{x}\) .

Som nævnt på side 6.16 ønsker man at undersøge om alle middelværdierne kan antages at være forskellige. Hypoteserne kan altså formuleres som:

$$H_0: \mu_1= \mu_2=\ldots = \mu_k$$

$$H_1: \text{Der findes et }i \text{ og et }j \text{ således at: }\mu_i \neq \mu_j$$

\(H_1\) hypotesen læses sådan at der findes mindst to middelværdier, som er forskellige.

Disse hypoteser kan ikke testes direkte. I stedet omformes de til to nye hypoteser, der som nævnt på side side 6.16 vedrører variationen indenfor stikprøverne (\(SD_{within}\)), og variationen mellem stikprøverne (\(SD_{between}\)). Nu kan man vha. en F-test undersøge om der er signifikant forskel på disse variationer. Hvis der er forskel i disse to variationer må der være en tilsvarende forskel mellem middelværdierne i stikprøverne som illustreret på figur 1 på side 6.16.

Hypoteserne for F-testen skrives som:

$$H_0: \sigma_{within}= \sigma_{between}$$

$$H_1: \sigma_{within}< \sigma_{between}$$

Bemærk at \(\sigma_{within}\) aldrig kan være større end \(\sigma_{between}\), hvorfor der skal bruges en ensidet F-test til at skelne mellem de to hypoteser.

Den førstnævnte variation beregnes som:

$$SD_{within}^2 = \frac{(n_1-1)\cdot SD_1^2+(n_2-1)\cdot SD_2^2+\ldots+(n_k-1)\cdot SD_k^2}{n_1+n_2+\ldots+n_k-k}$$

Variationen mellem grupperne beregnes som:

$$SD_{between}^2 = \frac{n_1\cdot (\overline{x}_1-\overline{x})^2+n_2\cdot (\overline{x}_2-\overline{x})^2+\ldots+n_k\cdot (\overline{x}_k-\overline{x})^2}{k-1}$$

Endelig kan teststørrelsen beregnes som:

$$F = \frac{SD_{between}^2}{SD_{within}^2}$$

Hvis denne teststørrelse er tæt på 1 så indikerer det at der ikke er nogen forskel på variationen indenfor grupperne og variationen mellem grupperne; altså at der ikke er nogen forskel på de populationer man undersøger. Hvis teststørrelsen er "meget" større end 1, indikerer det er er en forskel på middelværdien i populationerne. I forhold til figur 1 på side 6.16, svarer dette altså til at variationen mellem de 4 røde prikker er stor i forhold til variationen indenfor hver enkelt gruppe.

Som nævnt skal der anvendes en enkeltsidet test, dvs. man skal beregne en p-værdi som beskrevet på side 6.14.

Antal frihedsgrader for tælleren er lig med antal grupper minus 1, og antal frihedsgrader for nævneren er lig antal målinger minus antal grupper.

En teknisk kommentar

Notationen "\(SD_{between}\)" kan give den opfattelse at der er tale om spredningen mellem middelværdierne af grupperne. Dette er ikke korrekt. Hvis nul-hypotesen er rigtigt, så er \(SD_{between}\) et estimat af spredningen indenfor grupperne (husk på at hvis nul-hypotesen er korrekt, så er der netop ingen variation mellem middelværdierne for hver gruppe). Men i modsætning til \(SD_{within}\) (som også er et estimat af spredningen indenfor grupperne), så er \(SD_{between}\) følsom overfor om der er variation mellem middelværdierne for hver gruppe. Hvis der er en sådan variation, så vil \(SD_{between}\) vokse. Dvs. at \(SD_{between}\) er et mål for variationen mellem grupperne, men det er teknisk set ikke en spredning.

© Thomas Bendsen • 2009 - 2022 • thbe@via.dk