EPIDEMIOLOGICA
Betrouwbaarheidsintervallen
In vrijwel ieder artikel vind je ze terug: betrouwbaarheidsintervallen. Maar wat betekenen ze en hoe komen ze tot stand? Dat bespreken we deze keer in Epidemiologica.
Nini Jonkman, adviseur wetenschap – epidemioloog
Joost Vanhommerig, adviseur wetenschap – epidemioloog
EPIDEMIOLOGICA
Betrouwbaarheidsintervallen
In vrijwel ieder artikel vind je ze terug: betrouwbaarheidsintervallen. Maar wat betekenen ze en hoe komen ze tot stand? Dat bespreken we deze keer in Epidemiologica.
Nini Jonkman, adviseur wetenschap – epidemioloog
Joost Vanhommerig, adviseur wetenschap – epidemioloog
EPIDEMIOLOGICA
Betrouwbaarheids
intervallen
In vrijwel ieder artikel vind je ze terug: betrouwbaarheidsintervallen. Maar wat betekenen ze en hoe komen ze tot stand? Dat bespreken we deze keer in Epidemiologica.
Nini Jonkman, adviseur wetenschap – epidemioloog
Joost Vanhommerig, adviseur wetenschap – epidemioloog
Het betrouwbaarheidsinterval, of confidence interval (CI) in het Engels, geeft de verwachte kans aan (in %) dat het werkelijke effect in je populatie binnen deze grenzen ligt. Meestal wordt een betrouwbaarheidsinterval van 95% gebruikt: het 95% CI. Voorbeeld: er is in een studie bij 100 personen (de steekproef) het gewicht gemeten. Het gemiddelde gewicht is 73 kg en het 95% betrouwbaarheidsinterval loopt van 62 tot 84 kg. Dit betekent dat je 95% zekerheid hebt dat het ware populatiegemiddelde tussen deze twee grenzen ligt (dit is dus iets anders dan het gemiddelde van de steekproef in jouw studie).
Standaardfout
Maar hoe komt dit 95% CI tot stand? Hiervoor is de standaardfout/standard error (SE) nodig. De SE geeft aan wat de standaarddeviatie is van de steekproefgemiddelden, wanneer er meerdere steekproeven gedaan worden. In de SE komen de grootte van de steekproef (n) en de standaarddeviatie (SD) samen op de volgende manier: SE = SD/√n. Hieruit kun je afleiden dat als je steekproef groter wordt, de SE kleiner wordt. Met andere woorden: hoe groter je steekproef, hoe kleiner de standaardfout en hoe dichter je bij het ware populatiegemiddelde zit. Als je steekproef net zo groot zou zijn als de populatie, dan is de SE gelijk aan 0. Maar aangezien metingen in de totale populatie niet haalbaar zijn, willen we met statistiek juist schattingen doen van het populatiegemiddelde op basis van een (liefst kleine) steekproef.
P-waarden of betrouwbaarheidsintervallen?
Bij continue variabelen (zoals bijvoorbeeld leeftijd of bloeddruk) geldt dat wanneer het 95% betrouwbaarheidsinterval van het gemiddelde verschil tussen twee groepen in zijn geheel boven of onder de 0 ligt, de bijbehorende P-waarde significant zal zijn (i.e. P<0,05). Je bent dan 95% zeker dat het gemiddelde verschil in de totale populatie afwijkt van 0 en er dus sprake is van een daadwerkelijk (significant) verschil tussen de groepen. Een voorbeeld: het gemiddelde gewicht in een steekproef onder mannen is 83 kg en het gemiddelde gewicht onder vrouwen is 63 kg, met een gemiddeld verschil tussen mannen en vrouwen van 20 kg en een 95% CI van 6-34. Ook zonder de P-waarde te noemen, kun je dan al afleiden dat het geobserveerde verschil significant is. Het 95% CI is informatiever dan de P-waarde, omdat je meteen ook een idee krijgt van hoe nauwkeurig je effectschatting is. Het is dus absoluut aan te bevelen om behalve een P-waarde, ook het 95% CI te rapporteren. Het betrouwbaarheidsinterval, maar ook de P-waarde, zegt overigens alleen iets over de statistische significantie van je bevindingen en niet of je bevindingen ook klinisch relevant zijn. De drempelwaarde van klinische relevantie kan sterk verschillen per onderzoeksvraag, populatie en uitkomstmaat, dus denk daar goed over na bij de opzet van een studie.
Figuur 1. Standaardnormale verdeling. In de kolommen zijn de percentages gegeven die horen bij het aantal observaties tussen die Z-scores (bijv. 19,1% tussen de Z-scores 0 en 0,5). De pijlen geven de Z-scores -2 en +2 aan.
Odds ratio’s
Behalve voor gemiddelden van continue variabelen kun je ook een 95% CI berekenen voor uitkomsten die dichotoom/binair zijn, zoals dood/levend, ziek/gezond, 0/1. Hiervoor wordt de odds ratio (OR) gebruikt. Voor OR’s wordt het 95%CI op dezelfde manier berekend als voor continue variabelen door gebruik te maken van de log odds en het bijbehorend SE (deze is te vinden in de SPSS output van de logistische regressie onder ‘B’). Nadat je de log odds ± 1,96×SE hebt berekend/afgelezen, kun je door middel van e log odds ± 1,96xSE het betrouwbaarheidsinterval rondom de OR berekenen. Bij OR’s geldt dat als het 95% betrouwbaarheidsinterval in zijn geheel boven of onder de 1 ligt, de bijbehorende P-waarde significant zal zijn (dus P<0,05). Je hebt dan 95% zekerheid dat het effect in de totale populatie een risicoverlaging is (als OR<1) of een risicoverhoging (als OR>1). Als je een 95% CI bij een risk ratio of hazard ratio tegenkomt, kun je dit op dezelfde manier interpreteren. Een 95% CI rondom een proportie (bijvoorbeeld een prevalentie of incidentie) kun je berekenen met behulp van het binomiale betrouwbaarheidsinterval. Hiervoor bestaan verschillende online calculators, waarvan deze de meest complete is. In plaats van het 95% CI wordt soms het 90% of het 99% CI gerapporteerd. De interpretatie hiervan is hetzelfde als hierboven beschreven. De grenzen van deze betrouwbaarheidsintervallen liggen bij respectievelijk het steekproefgemiddelde ± 1,645×SE of het steekproefgemiddelde ± 2,576×SE.
Lees verder over P-waardes en 95% CI in referenties (4) en (5).
Referenties: 1. Sample size berekenen: waarom en hoe? Epidemiologica katern, p18-19 Lees hier 2. Basisbegrippen onderzoek - Uitleg over begrippen epidemiologie, statistiek en kwalitatief onderzoek – Lees hier 3. Wikistatistiek – Betrouwbaarheidsinterval Lees hier
4. Significantie van p-waardes: onbegrepen en overschat | Nederlands Tijdschrift voor Geneeskunde Lees hier
5. Greenland S, Senn SJ, Rothman KJ, et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016;31:337-50. Lees hier