//

Noter i statistik

Boxplot

Et plot som ofte anvendes til at illustrere fordelingen af en enkelt parameter er det såkaldte boxplot. Boxplottet har altså samme formål som histogrammet, men hvis man ønsker at sammenligne fordelingen af flere forskellige populationer i den samme graf, vil boxplottet typisk være enklere og give et bedre overblik.

Figur 1 viser to boxplots ved siden af hinanden. Venstre plot illustrerer systolisk blodtryk hos en gruppe mænd, mens det højre illustrerer en gruppe kvinder (sammenlignelige grupper, bortset fra kønnet).

Figur 1: Systolisk blodtryk fra "Framingham Heart Study". Plottet er fremstillet vha. programmet R/Deducer - der er desværre ikke nogen nem måde at lave boxplots på i Excel.

De tre vandrette streger som udgør "kassen" (box), illustrerer følgende:

  • Nederste streg: 1. kvartil, dvs. den værdi hvorunder 25% af målingerne ligger. Det fremgår altså at ca. 25% af mændene har et systolisk blodtryk under (ca.) 120 mmHg.
  • Miderste streg: Median, dvs. den værdi som deler målingerne i to lige store dele. Halvdelen af mændene har altså en værdi over medianen (ca. 130 mmHg), og halvdelen af mændene har en værdi under.
  • Øverste streg: 3. kvartil, dvs. den værdi som 75% af målingerne ligger under.

Bemærk at disse 3 streger altid har samme betydning uanset hvilket program man har anvendt til at fremstille boxplottet. Resten af plottet kan derimod have forskellige betydninger.

  • De to lodrette streger over og under boksen: Ofte vil de lodrette streger strække sig fra den største til den mindste værdi i datasættet. I figur 1 ses imidlertid også en række prikker, som indikerer at dette plot skal fortolkes lidt anderledes. Prikkerne er såkaldt "outliere" - eller ekstreme værdier. I dette tilfælde går den øverste lodrette streg til følgende tal:
    3. kvartil + 1,5 * (3. kvartil - 1. kvartil)
    og tilsvarende går den nederste streg til
    1. kvartil - 1,5 * (3. kvartil - 1. kvartil)
    Alt hvad der ligger uden for disse streger betegnes som outliere, og markeres med prikker i diagrammet. Det ses at der ikke er nogle outliere i nedadgående retning. Der findes altså inden mennesker med ekstremt lave blodtryk, hvorimod der findes personer med ekstremt høje blodtryk. Det er vigtigt at bemærke, at man ikke generelt kan bruge dette som en definition af en "outlier". Det er blot den definition som R anvender, hvis man laver et standard boxplot.

De to plots viser at medianblodtrykket er identisk for mænd og kvinder, mens kvinders blodtryk spreder sig lidt længere væk fra medianen (om dette er en klinisk korrekt konklusion har forfatteren ingen idé om, men det er det tallene viser).

Dotplot

Hvis man har få målinger kan man, som alternativ til boxplottet, bruge et dotplot, som viser alle målinger. Det kan f.eks. se ud som vist herunder:

Figur 2: Dotplot som illustrerer målinger fra side 6.15. Plottet er lavet vha. R/Deducer.

I dette plot grupperes målinger, således at målinger som er "tæt" på hinanden anbringes på samme række. Dermed får man noget som kvalitativt ligner et histogram der er stillet på højkant.

© Thomas Bendsen • 2009 - 2022 • thbe@via.dk