Statistische significantie begrijpen (met voorbeeld)

Als een resultaat statistisch significant is, betekent dit dat het onwaarschijnlijk is dat het alleen door toeval of willekeurige factoren kan worden verklaard. Met andere woorden: er is slechts een zeer kleine kans dat een statistisch significant resultaat voorkomt als er geen echt effect zou zijn in het onderzoek.

De p-waarde (ook wel p-value, overschrijdingskans of kanswaarde genoemd) geeft informatie over de statistische significantie van een resultaat. In de meeste onderzoeken wordt een p-waarde van 0.05 of minder als statistisch significant beschouwd, maar deze drempel kan ook hoger of lager zijn.

Let op
In het Nederlands gebruik je de komma als decimaalteken, maar bij het rapporteren van statistische resultaten is het gebruikelijk om de punt als decimaalteken te gebruiken. Ook wordt vaak de 0 voor het decimaalteken weggelaten (.05 in plaats van 0.05).

Hoe toets je voor statistische significantie?

Bij kwantitatief onderzoek worden de verzamelde data geanalyseerd door middel van hypothesetoetsing. Dit is een procedure om te beoordelen of een verband tussen variabelen of een verschil tussen groepen statistisch significant is.

Nulhypothese vs alternatieve hypothese

Je formuleert je verwachtingen in de vorm van twee hypothesen:

  • Een nulhypothese (H0) voorspelt altijd dat er geen effect, geen relatie tussen variabelen of geen verschil tussen groepen bestaat.
  • Een alternatieve hypothese (H1) geeft je belangrijkste voorspelling van een effect, een relatie tussen variabelen of een verschil tussen groepen weer.

Het toetsen van hypothesen begint altijd met de aanname dat de nulhypothese waar is. Met behulp van deze procedure kun je de kans inschatten dat je je resultaten onder deze aanname vindt. Op basis van de uitkomst van de toets kun je de nulhypothese verwerpen of behouden.

Voorbeeld: Een nulhypothese en alternatieve hypothese formuleren
Je ontwerpt een experiment om te onderzoeken of actief glimlachen mensen gelukkiger kan maken. Om te beginnen formuleer je je voorspellingen in de vorm van een nulhypothese en een alternatieve hypothese.

  • H0: Er is geen verschil in geluk tussen actief glimlachen en niet glimlachen.
  • H1: Actief glimlachen leidt tot meer geluk dan niet glimlachen.

Teststatistieken en p-waarden

Iedere statistische toets levert het volgende op:

  • Een teststatistiek die aangeeft hoe goed de data overeenkomen met de nulhypothese.
  • Een corresponderende p-waarde die aangeeft wat de kans is om dit resultaat te vinden als de nulhypothese waar is.

De p-waarde bepaalt de statistische significantie. Een extreem lage p-waarde duidt op een hoge statistische significantie, terwijl een hoge p-waarde een lage of geen statistische significantie betekent.

Voorbeeld: Hypothese toetsen
Om je hypothese te toetsen, verzamel je eerst data van twee groepen. De experimentele groep glimlacht actief en de controlegroep niet. Beide groepen geven hun geluk een score op een schaal van 1-7.

Vervolgens voer je een t-toets (t-test) uit om te onderzoeken of actief glimlachen leidt tot meer geluk. Met het verschil in gemiddeld geluk tussen de twee groepen bereken je:

  • een t-waarde (de teststatistiek) die aangeeft hoeveel de steekproefdata verschillen van de nulhypothese;
  • een p-waarde die de kans aangeeft dat je dit resultaat zou vinden als de nulhypothese waar is.

Om de resultaten te interpreteren, vergelijk je je p-waarde met een vooraf bepaald significantieniveau.

Wat is een significantieniveau?

Het significantieniveau, of alfa (α), is een waarde die de onderzoeker vooraf kiest als de drempel of grenswaarde voor statistische significantie. Het is het maximale risico op het trekken van een foutpositieve of valspositieve conclusie (false positive) dat je bereid bent te accepteren. Een false positive is een Type I-fout.

Bij een hypothesetoets wordt de p-waarde vergeleken met het significantieniveau om te beslissen of de nulhypothese moet worden verworpen.

  • Als de p-waarde hoger is dan het significantieniveau, wordt de nulhypothese niet weerlegd en zijn de resultaten niet statistisch significant.
  • Als de p-waarde lager is dan het significantieniveau, worden de resultaten geïnterpreteerd als een weerlegging van de nulhypothese en gerapporteerd als statistisch significant.

Meestal wordt het significantieniveau ingesteld op 0.05 (5%). Dat betekent dat de resultaten onder de nulhypothese een kans van 5% of minder moeten hebben om als statistisch significant te worden beschouwd.

Het significantieniveau kan worden verlaagd voor een meer conservatieve (strengere) toets. Dat betekent dat een effect groter moet zijn om statistisch significant te zijn. Meestal wordt dan gekozen voor een significantieniveau van 0.01 (1%).

Het significantieniveau kan ook hoger worden ingesteld voor significantietesten in niet-academische contexten, zoals voor marketingonderzoek of ander zakelijk onderzoek. Dit maakt het onderzoek minder streng en vergroot de kans dat je een statistisch significant resultaat vindt.

Let op
Het is een best practice om het significantieniveau te kiezen voordat je met je onderzoek begint. Als je dit niet doet, kun je je resultaten zo manipuleren dat ze kloppen met je voorspellingen.

Het is belangrijk om je ervan bewust te zijn dat je op basis van hypothesetoetsing alleen kunt concluderen dat je de nulhypothese verwerpt (en daarom de alternatieve hypothese aanneemt). Je kunt de alternatieve hypothese niet bewijzen met hypothesetoetsen, omdat het gebrek aan een statistisch significant effect niet betekent dat er geen effect kan bestaan.

Voorbeeld: Conclusies trekken
Je statistische toets geeft een p-waarde van 0.0029. Aangezien deze p-waarde lager is dan je significantieniveau van 0.05, beschouw je de resultaten als statistisch significant en verwerp je de nulhypothese.

Dat betekent dat het verschil in geluksniveau van de verschillende groepen kan worden toegeschreven aan de experimentele manipulatie.

Als je de statistische significantie rapporteert, is het verstandig om relevante beschrijvende statistieken te gebruiken om je data samen te vatten. Voorbeelden hiervan zijn gemiddelden en standaarddeviaties. Ook vermeld je de teststatistiek en p-waarde.

Statistische significantie rapporteren
De experimentele groep (M = 4.67, SD = 2.14) rapporteerde een significant hogere geluksscore dan de controlegroep (M = 3.81, SD = 1.92), t(108) = 2.22, p = .0029. Dit was in lijn met de alternatieve hypothese.

Kijk jij ook zo uit naar afstuderen?

We helpen je graag een handje!

  • Minder stress
  • Hulp binnen handbereik
  • 100% tevredenheidsgarantie

Ontdek hoe we jou kunnen helpen

Kritiek op de statistische significantie

Er zijn verschillende soorten kritiek op statistische significantie en hoe het concept in onderzoek wordt gebruikt.

Willekeurige drempelwaarde en weinig oog voor relevantie

Onderzoekers bestempelen resultaten als statistisch significant of juist niet-significant met behulp van een conventionele grenswaarde, zonder daarbij rekening te houden met een theoretische of praktische basis. Dit betekent dat zelfs een kleine afname van een p-waarde (bijvoorbeeld met 0.001) een resultaat kan veranderen van niet-significant in significant, terwijl je in de praktijk (bijna) geen verandering zou kunnen waarnemen.

Invloed van de steekproefomvang

Statistische significantie kan ook misleidend zijn, omdat de significantie onder andere wordt beïnvloed door de steekproefomvang. In extreem grote steekproeven is de kans groter dat je statistisch significante resultaten vindt, zelfs als het effect in de echte wereld klein of verwaarloosbaar is. Dit betekent dat kleine effecten vaak worden overdreven als ze aan de significantiedrempel voldoen, terwijl interessante resultaten worden genegeerd als ze de drempel (net) niet halen.

Publicatiebias

De sterke nadruk op statistische significantie heeft de afgelopen decennia geleid tot een ernstige publicatiebias en replicatiecrisis in de sociale wetenschappen en geneeskunde. Resultaten worden meestal alleen gepubliceerd in wetenschappelijke tijdschriften als ze statistisch significante resultaten laten zien (omdat deze interessanter worden gevonden), maar deze significante resultaten kunnen vaak niet worden gereproduceerd in replicatieonderzoeken van hoge kwaliteit.

Als gevolg hiervan pleiten veel wetenschappers voor het afschaffen van statistische significantie als het enige besluitvormingsinstrument, en zouden ze graag meer genuanceerde benaderingen gebruiken om resultaten te interpreteren.

Daarom wordt in de APA-richtlijnen geadviseerd om niet alleen p-waarden te rapporteren, maar waar mogelijk ook effectgroottes en betrouwbaarheidsintervallen, om de echte implicaties van een onderzoeksresultaat te laten zien.

Andere soorten significantie en relevantie in onderzoek

Naast statistische significantie zijn ook klinische relevantie en praktische relevantie belangrijk.

Praktische relevantie (ook wel praktische significantie genoemd) laat zien of de onderzoeksuitkomst belangrijk genoeg is om betekenisvol te zijn in de echte wereld. Voor deze vorm van significantie rapporteer je de effectgrootte van het onderzoek.

Praktische significantie of relevantie
Om de praktische relevantie te kunnen rapporteren, bereken je de effectgrootte van je statistisch significante resultaat (de hogere geluksscores voor de experimentele groep).

Cohen’s d is 0.266, wat wijst op een klein effect.

Klinische relevantie (ook wel klinische significantie genoemd) is relevant voor interventie- en behandelingsstudies. Een behandeling wordt als klinisch significant beschouwd als deze het leven van patiënten tastbaar of substantieel verbetert.

Veelgestelde vragen

Wat is statistische significantie?

Statistische significantie is een term die door onderzoekers wordt gebruikt om aan te geven dat het onwaarschijnlijk is dat hun resultaten op toeval gebaseerd zijn. Significantie wordt meestal aangeduid met een p-waarde (overschrijdingskans).

Statistische significantie is enigszins willekeurig, omdat je zelf de drempelwaarde (alfa) kiest. De meest voorkomende drempel is p < 0.05, wat betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de nulhypothese waar is. Een andere drempel die vaak wordt gekozen is < 0.01.

Als de p-waarde lager is dan de gekozen alfa-waarde, mag je stellen dat het resultaat van de toets statistisch significant is.

Wat is een p-waarde (p-value)?

De p-waarde (p-value) is een getal tussen 0 en 1, waarmee je bepaalt of een steekproefuitkomst statistisch significant is. Wanneer de p-waarde kleiner is dan het gekozen significantieniveau kun je stellen dat dat de gevonden uitkomst extreem genoeg is om je nulhypothese te verwerpen.

Hoe bereken je een p-waarde (p-value)?

Je berekent p-waarden meestal automatisch met het programma dat je gebruikt voor je statistische analyse (zoals SPSS of R). Je kunt de p-waarde ook schatten met behulp van tabellen voor de teststatistiek die je gebruikt.

P-waarden vertellen je hoe vaak een teststatistiek waarschijnlijk zou voorkomen onder de nulhypothese, op basis van de positie van de teststatistiek in de nulverdeling.

Als de teststatistiek ver verwijderd is van het gemiddelde van de nulverdeling, dan is de p-waarde klein. Dit laat zien dat het niet waarschijnlijk is dat de teststatistiek zou voorkomen als de nulhypothese waar is.

Kun je op basis van de p-waarde aannemen dat de alternatieve hypothese waar is?

Nee, de p-waarde zegt niets over de alternatieve hypothese. De p-waarde geeft aan hoe waarschijnlijk het is dat de data die je hebt gevonden zouden voorkomen als de nulhypothese waar zou zijn.

Als de p-waarde onder je grenswaarde (vaak p < 0.05) valt, kun je de nulhypothese verwerpen, maar dit betekent niet per se dat je alternatieve hypothese waar is.

Wat is klinische significantie of klinische relevantie?

Klinische significantie (ook wel klinische relevantie genoemd) is relevant voor interventie- en behandelingsstudies. Een behandeling wordt als klinisch significant beschouwd als deze het leven van patiënten tastbaar of substantieel verbetert.

De klinische significantie vormt een aanvulling op statistische significantie.

Wat is praktische significantie of praktische relevantie?

Praktische significantie (ook wel praktische relevantie genoemd) laat zien of de onderzoeksuitkomst belangrijk genoeg is om betekenisvol te zijn in de echte wereld. Voor deze vorm van significantie rapporteer je de effectgrootte van het onderzoek.

De effectgrootte wordt gerapporteerd als aanvulling op de statistische significantie.

Wat vind jij van dit artikel?
Pritha Bhandari

Pritha heeft een academische achtergrond in Engels, psychologie en cognitieve neurowetenschappen. Als interdisciplinaire onderzoekster vindt ze het leuk om begrijpelijke artikelen te schrijven, zodat ze moeilijke concepten kan uitleggen aan studenten en academici.