Histogrammer
Histogrammer bruges når man ønsker at vurdere hvordan tallene i et datasæt fordeler sig (se evt. side 3.1). Histogrammer har historisk haft en vigtig funktion i forhold til at vurdere om et givet datasæt er normalfordelt (se side 3.4), hvilket er vigtigt, da normalfordeling medfører at det bliver væsentligt nemmere at drage konklusioner på baggrund af tallene.
De seneste årtier har den teknologiske udvikling imidlertid medført at regnekraft ikke længere er en begrænset ressource, og dermed er qq-plot i mange tilfælde et bedre redskab til at foretage en konkret vurdering af om data er normalfordelte. qq-plot er nærmere beskrevet på side 3.8.
Histogrammer kan dog bidrage til en bedre forståelse af fordelingsbegrebet, hvorfor emnet gennemgås her.
Et histogram er egentlig blot en grafisk præsentation af en klasseinddeling. Følgende er et forsøg på at give en kort teoretisk beskrivelse, men begrebet forstås formentlig nemmest ved at prøve selv at lave et histogram (i f.eks. Excel).
Klasseinddeling
Hvis man skal præsentere et stort datasæt, er det ofte ikke muligt eller fornuftigt at præsentere dette ved at opskrive samtlige data. I stedet kan man vælge en passende måde at opsummere dette på. Det kunne f.eks. være ved at angive middelværdi og spredning, men ulempen herved at man mister information om hvordan data egentlig fordeler sig.
Hvis man har brug for at bevare denne information i lidt større detalje, kan man anvende en såkaldt klasseinddeling. Hvis man f.eks. har målt P-Glukose, stofk. hos 110 raske danskere kan denne se således ud:
P-Glukose, stofk. (mmol/L) |
Antal personer |
]3,0-3,5] |
1 |
]3,5-4,0] |
5 |
]4,0-4,5] |
29 |
]4,5-5,0] |
36 |
]5,0-5,5] |
23 |
]5,5-6,0] |
11 |
]6,0-6,5] |
4 |
]6,5-7,0] |
1 |
Her er altså talt op at 29 af de 110 personer har en glukosekoncentration i intervallet 4,0-4,5 (hvor 4,5 er inkluderet men 4,0 ikke er). Intervallerne bør laves i henhold til nedenstående:
- Intervallerne skal være lige store.
- Der skal være et tilstrækkelig stort antal intervaller, til at man rent faktisk kan vurdere fordelingen herudfra. Et sted mellem 5 og 10 intervaller må således betragtes som et absolut minimum.
- Der skal være et tilstrækkeligt stort antal målinger i intervallerne. Antallet af målinger i det bedst repræsenterede interval bør næppe være meget under 20.
Frekvens og hyppighed
I forbindelse med (bl.a.) histogrammer ser man ofte begreberne (relativ) frekvens og/eller hyppighed. Desværre er der ikke fuldkommen enighed om betydningen af disse to begreber, og man bør derfor altid overveje hvad der menes i en given sammenhæng.
Ordet hyppighed anvendes formentlig oftest i betydningen "antal målinger i et interval". I eksemplet ovenfor er hyppigheden af personer med en koncentration mellem 3,5 og 4 altså 5. Når ordet hyppighed anvendes i denne betydning kan man bruge ordet frekvens i betydningen "antal målinger i et interval delt med det totale antal målinger". Frekvensen af personer med en koncentration mellem 3,5 og 4 er således 5/110=0,045.
Alternativt kan man også se at ordet frekvens anvendes med samme betydning som hyppighed ovenfor. Dvs. at frekvensen er 5. I så fald anvendes begrebet relativ frekvens om andelen 5/110. På engelsk er det stort set altid disse betegnelser der anvendes, hvilket naturligvis er vigtigt at være opmærksom på, når man læser engelsk litteratur.
Histogram
På grundlag af denne klasseinddeling kan man nu fremstille et histogram, som blot er en grafisk repræsentation heraf:
Vha. dette histogram kan man nu foretage en visuel vurdering af fordelingen. I dette tilfælde ses en tendens til at fordelingen er lidt "højreskæv", dvs. der er formentlig ikke tale om en normalfordeling.
Excel
Se hvordan man fremstiller et histogram i Excel her: http://it.statnoter.dk/index.php?pageID=229 |