Statistische power (statistical power) en poweranalyses

Statistische power is de kans dat een statistische toets een effect detecteert dat daadwerkelijk aanwezig is. Het kan hierbij bijvoorbeeld om een correlatie, causale relatie of verschil tussen groepen gaan. Statistisch power wordt ook wel gevoeligheid, onderscheidend vermogen of statistical power genoemd.

Als een toets veel power heeft, is de kans groot dat deze een daadwerkelijk bestaand effect kan detecteren. Als de toets weinig power heeft, betekent dat er slechts een kleine kans is dat de toets een effect gaat vinden en dat de resultaten waarschijnlijk vertekend zijn door willekeurige en systematische fouten.

De power wordt voornamelijk beïnvloed door de steekproefomvang, de effectgrootte en het significantieniveau. Je kunt een poweranalyse gebruiken om de benodigde steekproefomvang voor een onderzoek te bepalen.

Waarom is statistische power van belang?

Je hebt voldoende statistische power nodig, zodat je de juiste conclusies kunt trekken over een populatie op basis van steekproefdata.

Bij hypothesetoetsing begin je met een nulhypothese die geen effect voorspelt en een alternatieve hypothese die het verwachte effect voorspelt.

Het doel is om voldoende data te verzamelen met een steekproef, zodat je op basis van een statistische toets kunt concluderen of je de nulhypothese met veel zekerheid kunt verwerpen ten gunste van de alternatieve hypothese.

Voorbeeld: Nulhypothese en alternatieve hypothese
Je wilt onderzoeken of tijd doorbrengen in de natuur stress bij recent afgestudeerde studenten kan verminderen. Je formuleert je verwachtingen in de vorm van een nulhypothese en alternatieve hypothese.

  • Nulhypothese: Dagelijks 10 minuten buiten doorbrengen in de natuur heeft geen effect op het stressniveau van recent afgestudeerden.
  • Alternatieve hypothese: Dagelijks 10 minuten doorbrengen in de natuur zal het stressniveau van recent afgestudeerden verlagen.

Er is altijd een risico op het maken van een van de volgende twee fouten bij de interpretatie van de onderzoeksresultaten:

  • Type I-fout: de nulhypothese verwerpen, terwijl deze eigenlijk wel waar is.
  • Type II-fout: de nulhypothese niet verwerpen, terwijl deze eigenlijk onjuist is.
Voorbeeld: Type I- en Type II-fout
  • Type I-fout: je concludeert dat 10 minuten per dag in de natuur doorbrengen stress vermindert, terwijl dat eigenlijk niet zo is.
  • Type II-fout: je concludeert dat 10 minuten per dag in de natuur doorbrengen geen invloed heeft op stress, terwijl dat wel het geval is.

Er bestaat een omgekeerd evenredig verband tussen het risico op een Type II-fout en de statistische power van een toets. Hoe meer power een statistische toets heeft, hoe kleiner het risico dat je een Type II-fout maakt.

Over het algemeen wordt een power-niveau van 80% of hoger acceptabel gevonden. Als er echte effecten zouden zijn in 100 onderzoeken met 80% power, zouden de effecten slechts in 80 van de 100 onderzoeken worden gevonden.

Als je niet voor voldoende power zorgt, kan de toets misschien helemaal geen effect vinden. In dat geval worden middelen (geld en tijd) verspild, en het kan zelfs onethisch zijn om in dat geval data te verzamelen (vooral in klinische onderzoeken).

Aan de andere kant kan het ook problematisch zijn als je onderzoek te veel power heeft, omdat de kans dan groot is dat je toets gevoelig is voor hele kleine effecten. Dit leidt tot veel significante resultaten die maar weinig praktische relevantie hebben (kleine effectgrootte).

Om te zorgen voor een balans tussen de voor- en nadelen voer je een poweranalyse uit om een geschikt power-niveau te kiezen.

Wat is een poweranalyse?

Een poweranalyse is een berekening om de minimale steekproefomvang voor het onderzoek te bepalen.

Een poweranalyse bestaat uit vier hoofdcomponenten. Als je de waarde voor drie van deze componenten weet of kunt schatten, kun je de vierde component berekenen.

  • Statistische power: de waarschijnlijkheid dat een test een effect van een bepaalde grootte detecteert als het effect daadwerkelijk bestaat (meestal 80% of hoger).
  • Steekproefomvang: het minimale aantal waarnemingen dat nodig is om een ​​effect van een bepaalde omvang bij een gegeven power-niveau te detecteren.
  • Significantieniveau (alfa): het maximale risico op het onterecht verwerpen van de nulhypothese (meestal 5% of 1%).
  • Verwachte effectgrootte: een gestandaardiseerde manier om de omvang van het verwachte effect uit te drukken, meestal gebaseerd op vergelijkbare onderzoeken of een pilotonderzoek.

Voordat je met een onderzoek begint, kun je de minimale steekproefomvang berekenen voor het gewenste power-niveau, het gewenste significantieniveau en de verwachte effectgrootte.

Normaal gesproken wordt het significantieniveau ingesteld op 5% en het gewenste power-niveau op 80%. Dat betekent dat je alleen een verwachte effectgrootte hoeft te berekenen om een ​​steekproefomvang te berekenen.

Gebruik online tools of statistische software zoals G*Power om de steekproefomvang te berekenen of een poweranalyse uit te voeren.

Steekproefomvang (sample size)

Er bestaat een positief verband tussen de steekproefomvang en power. Een kleine steekproef (minder dan 30 participanten) heeft vaak weinig power, terwijl een grote steekproef gepaard gaat met veel power.

Je kunt het power-niveau verhogen door de steekproef te vergroten, maar als de steekproef eenmaal groot genoeg is, heeft het geen zin om deze nog verder uit te breiden. In dat geval kost het alleen maar meer tijd om data te verzamelen en neemt de power niet veel meer toe.

Het power-niveau en de steekproefomvang zijn ook afhankelijk van de onderzoeksopzet:

  • Bij een within-subjects design krijgt iedere participant alle condities aangeboden, zodat individuele verschillen niet verantwoordelijk kunnen zijn voor eventuele verschillen tussen condities.
  • Bij een between-subjects design neemt elke deelnemer slechts aan één behandeling deel, dus bij verschillende deelnemers aan elke behandeling bestaat de kans dat individuele verschillen de resultaten kunnen beïnvloeden.

Een within-subjects design heeft meer power, waardoor je minder participanten nodig hebt om relaties tussen variabelen vast te stellen dan bij een between-subjects design.

Significantieniveau (level of significance)

Het significantieniveau van een onderzoek is gelijk aan de Type I-foutkans en wordt meestal vastgesteld op 5%. Dit betekent dat er een kans van maximaal 5% is dat je de resultaten zou vinden onder de nulhypothese.

Er bestaat een positief verband tussen het significantieniveau en de power:

  • Als je het significantieniveau verhoogt (bijvoorbeeld van 5% naar 10%), krijg je meer power.
  • Als je het significantieniveau verlaagt (bijvoorbeeld van 5% naar 1%), is de toets conservatiever en minder gevoelig voor effecten.

Onderzoekers moeten altijd een afweging maken tussen een groter risico op een Type I-fout of een groter risico op een Type II-fout. Ze bepalen hoeveel risico ze bereid zijn te nemen om een fout-positieve (false positive) of fout-negatieve (false negative) conclusie te trekken.

Effectgrootte (effect size)

De effectgrootte is de grootte van een verschil tussen groepen of een relatie tussen variabelen (een effect). Daarom zegt de effectgrootte iets over de praktische relevantie van een resultaat.

Onderzoeken met veel power kunnen je helpen om middelgrote en grote effecten te detecteren, terwijl onderzoeken met weinig power alleen kunnen helpen bij het detecteren van grote effecten.

Voorbeeld: De verwachte effectgrootte schatten
In je onderzoek ben je geïnteresseerd in het verschil tussen de stressniveaus voor en na de interventie (10 minuten per dag in de natuur doorbrengen). Dat is het hoofdeffect.

Om de ​​verwachte effectgrootte te bepalen, voer je een systematisch literatuuronderzoek uit om vergelijkbare onderzoeken te vinden. Je verzamelt alleen onderzoeken waarbij de interventie bestond uit het doorbrengen van tijd in de natuur en waarbij de belangrijkste afhankelijke variabele het stressniveau was.

Er voldoen vijf onderzoeken aan deze criteria. Je verzamelt de gerapporteerde effectgroottes en berekent het gemiddelde. Dit gemiddelde is de verwachte effectgrootte voor je eigen onderzoek.

Er is altijd sprake van een steekproeffout (sampling error) als je steekproefdata gebruikt om conclusies te trekken over een populatie. Dat betekent dat er altijd een verschil bestaat tussen de waargenomen effectgrootte (observed effect size) en de werkelijke effectgrootte (true effect size). Effectgroottes in een onderzoek kunnen variëren als gevolg van willekeurige factoren, meetfouten of natuurlijke variatie in de steekproef.

Onderzoeken met weinig power zullen meestal alleen echte effecten detecteren als deze effecten groot zijn in het onderzoek. Dat betekent dat elk waargenomen effect in een onderzoek met weinig power waarschijnlijk wordt versterkt door ongerelateerde factoren.

Als onderzoeken met weinig power de norm zijn in een bepaald vakgebied, zoals neurowetenschappen, zijn de waargenomen effectgroottes een overschatting van de werkelijke effecten.

Hoeveel fouten bevat jouw scriptie?

De taalexperts van Scribbr verbeteren gemiddeld 150 fouten per 1000 woorden. Benieuwd wat er precies wordt verbeterd? Verschuif de cursor van links naar rechts!

Scriptie nakijken op taal

Andere factoren die de power beïnvloeden

Afgezien van de vier hoofdcomponenten, moet je ook rekening houden met andere factoren om de power te bepalen.

Spreiding (variability)

De spreiding van de populatiekenmerken is van invloed op de power van je toets. Als er sprake is van een hoge populatievariantie, is de power lager.

Als het bereik voor een variabele groot is in een populatie (veel spreiding in de waarden), is de toets minder gevoelig voor effecten. Als je een populatie kiest waarbij sprake is van minder spreiding, is de power hoger.

Je kunt de power van een onderzoek vergroten door een specifieke populatie met goed gedefinieerde demografische kenmerken te kiezen. Hierdoor verminder je de spreiding en verhoog je de power.

Voorbeeld: Spreiding minimaliseren
Het stressniveau is een variabele die sterk varieert voor inwoners van Nederland. Dezelfde variabele zal minder spreiding vertonen als je een meer specifieke, goed gedefinieerde populatie kiest (zoals vrouwen onder de 25 jaar die net zijn afgestudeerd). Hierdoor verhoog je de power van het onderzoek.

Meetfout (measurement error)

Een meetfout is het verschil tussen de werkelijke waarde en de waargenomen of geregistreerde waarde van iets. De nauwkeurigheid van metingen is afhankelijk van de meetinstrumenten en onderzoekers die de meting uitvoeren, dus er is bijna altijd sprake van een fout.

Des te groter de meetfout in een onderzoek, des te minder statistische power een toets heeft. Een meetfout kan willekeurig of systematisch zijn:

  • Willekeurige fouten zijn onvoorspelbaar en veranderen de metingen op niet-systematische wijze als gevolg van toevalsfactoren (zo kunnen stemmingswisselingen de antwoorden op de enquête beïnvloeden en als onderzoekers een slechte dag hebben, kunnen ze de antwoorden verkeerd noteren).
  • Systematische fouten beïnvloeden de data op voorspelbare manieren (een onjuist gekalibreerd apparaat zal bijvoorbeeld consequent onnauwkeurige gegevens registreren, of problematische onderzoeksvragen kunnen leiden tot vertekende antwoorden).

Hoe verhoog je de power?

De power van een onderzoek kan door heel veel aspecten van het onderzoek worden beïnvloed. Daarom zijn er verschillende manieren om de power direct of indirect te verbeteren. Sommige methoden kun je eenvoudig toepassen, maar andere methoden zijn duur of hebben veel nadelen.

Vergroot de effectgrootte. Om het verwachte effect in een experiment te vergroten, kun je de onafhankelijke variabele sterker manipuleren (bijvoorbeeld 1 uur in plaats van 10 minuten in de natuur doorbrengen) om het effect op de afhankelijke variabele (het stressniveau) te vergroten. Een sterkere manipulatie is niet altijd mogelijk of wenselijk.

Vergroot de steekproef. In sommige gevallen is er ruimte om voor een grotere steekproef te kiezen, waardoor je de power kunt vergroten. Er is wel een plafondeffect: op een bepaald punt kun je de power niet meer vergroten door meer mensen te onderzoeken.

Verhoog het significantieniveau. Hoewel een verhoging van het significantieniveau een toets gevoeliger maakt voor de detectie van werkelijke effecten, vergroot je hiermee ook het risico op een Type I-fout.

Meetfout verminderen. Door de nauwkeurigheid van de meetapparatuur en procedures te vergroten, verminder je de spreiding. Hierdoor verhoog je de betrouwbaarheid en krijgt de toets meer power. Het gebruik van meerdere metingen of methoden (triangulatie) kan ook helpen om systematische bias te verminderen.

Gebruik een eenzijdige toets in plaats van een tweezijdige toets. In het geval van een t-toets of z-toets heeft een eenzijdige toets meer power dan een tweezijdige. Een eenzijdige toets mag alleen worden gebruikt als er een sterke reden is om een ​​effect in een bepaalde richting te verwachten, bijvoorbeeld omdat een effect in de andere richting niet mogelijk is. Een tweezijdige toets kan een effect in beide richtingen detecteren.

Veelgestelde vragen

Wat is statistische power (statistical power)?

Statistische power (statistical power) verwijst naar de waarschijnlijkheid dat een hypothesetoets een echt effect vaststelt als dat effect er is. Dit noem je ook wel het onderscheidend vermogen. Een toets met veel statistische power is beter in staat een Type II-fout (false negative) te voorkomen.

Als je onderzoek onvoldoende power heeft, kan het voorkomen dat je geen statistisch significant resultaat vindt, zelfs als dit wel aanwezig is en praktische relevantie heeft. Hierdoor zou je ten onrechte de nulhypothese behouden.

Wat is statistische significantie?

Statistische significantie is een term die door onderzoekers wordt gebruikt om aan te geven dat het onwaarschijnlijk is dat hun resultaten op toeval gebaseerd zijn. Significantie wordt meestal aangeduid met een p-waarde (overschrijdingskans).

Statistische significantie is enigszins willekeurig, omdat je zelf de drempelwaarde (alfa) kiest. De meest voorkomende drempel is p < 0.05, wat betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de nulhypothese waar is. Een andere drempel die vaak wordt gekozen is < 0.01.

Als de p-waarde lager is dan de gekozen alfa-waarde, mag je stellen dat het resultaat van de toets statistisch significant is.

Wat is een poweranalyse?

Een poweranalyse is een berekening om de minimale steekproefomvang voor het onderzoek te bepalen.

Een poweranalyse bestaat uit vier hoofdcomponenten. Als je de waarde voor drie van deze componenten weet of kunt schatten, kun je de vierde component berekenen.

  • Statistische power: de waarschijnlijkheid dat een test een effect van een bepaalde grootte detecteert als het effect daadwerkelijk bestaat (meestal 80% of hoger).
  • Steekproefomvang: het minimale aantal waarnemingen dat nodig is om een ​​effect van een bepaalde omvang bij een gegeven power-niveau te detecteren.
  • Significantieniveau (alfa): het maximale risico op het onterecht verwerpen van de nulhypothese (meestal 5% of 1%).
  • Verwachte effectgrootte: een gestandaardiseerde manier om de omvang van het verwachte effect uit te drukken, meestal gebaseerd op vergelijkbare onderzoeken of een pilotonderzoek.
Wat vind jij van dit artikel?
Pritha Bhandari

Pritha heeft een academische achtergrond in Engels, psychologie en cognitieve neurowetenschappen. Als interdisciplinaire onderzoekster vindt ze het leuk om begrijpelijke artikelen te schrijven, zodat ze moeilijke concepten kan uitleggen aan studenten en academici.