Statistische significantie begrijpen (met voorbeeld)
Als een resultaat statistisch significant is, betekent dit dat het onwaarschijnlijk is dat het alleen door toeval of willekeurige factoren kan worden verklaard. Met andere woorden: er is slechts een zeer kleine kans dat een statistisch significant resultaat voorkomt als er geen echt effect zou zijn in het onderzoek.
De p-waarde (ook wel p-value, overschrijdingskans of kanswaarde genoemd) geeft informatie over de statistische significantie van een resultaat. In de meeste onderzoeken wordt een p-waarde van 0.05 of minder als statistisch significant beschouwd, maar deze drempel kan ook hoger of lager zijn.
Hoe toets je voor statistische significantie?
Bij kwantitatief onderzoek worden de verzamelde data geanalyseerd door middel van hypothesetoetsing. Dit is een procedure om te beoordelen of een verband tussen variabelen of een verschil tussen groepen statistisch significant is.
Nulhypothese vs alternatieve hypothese
Je formuleert je verwachtingen in de vorm van twee hypothesen:
- Een nulhypothese (H0) voorspelt altijd dat er geen effect, geen relatie tussen variabelen of geen verschil tussen groepen bestaat.
- Een alternatieve hypothese (H1) geeft je belangrijkste voorspelling van een effect, een relatie tussen variabelen of een verschil tussen groepen weer.
Het toetsen van hypothesen begint altijd met de aanname dat de nulhypothese waar is. Met behulp van deze procedure kun je de kans inschatten dat je je resultaten onder deze aanname vindt. Op basis van de uitkomst van de toets kun je de nulhypothese verwerpen of behouden.
Teststatistieken en p-waarden
Iedere statistische toets levert het volgende op:
- Een teststatistiek die aangeeft hoe goed de data overeenkomen met de nulhypothese.
- Een corresponderende p-waarde die aangeeft wat de kans is om dit resultaat te vinden als de nulhypothese waar is.
De p-waarde bepaalt de statistische significantie. Een extreem lage p-waarde duidt op een hoge statistische significantie, terwijl een hoge p-waarde een lage of geen statistische significantie betekent.
Lees waarom zo veel studenten Scribbr inschakelen
Wat is een significantieniveau?
Het significantieniveau, of alfa (α), is een waarde die de onderzoeker vooraf kiest als de drempel of grenswaarde voor statistische significantie. Het is het maximale risico op het trekken van een foutpositieve of valspositieve conclusie (false positive) dat je bereid bent te accepteren. Een false positive is een Type I-fout.
Bij een hypothesetoets wordt de p-waarde vergeleken met het significantieniveau om te beslissen of de nulhypothese moet worden verworpen.
- Als de p-waarde hoger is dan het significantieniveau, wordt de nulhypothese niet weerlegd en zijn de resultaten niet statistisch significant.
- Als de p-waarde lager is dan het significantieniveau, worden de resultaten geïnterpreteerd als een weerlegging van de nulhypothese en gerapporteerd als statistisch significant.
Meestal wordt het significantieniveau ingesteld op 0.05 (5%). Dat betekent dat de resultaten onder de nulhypothese een kans van 5% of minder moeten hebben om als statistisch significant te worden beschouwd.
Het significantieniveau kan worden verlaagd voor een meer conservatieve (strengere) toets. Dat betekent dat een effect groter moet zijn om statistisch significant te zijn. Meestal wordt dan gekozen voor een significantieniveau van 0.01 (1%).
Het significantieniveau kan ook hoger worden ingesteld voor significantietesten in niet-academische contexten, zoals voor marketingonderzoek of ander zakelijk onderzoek. Dit maakt het onderzoek minder streng en vergroot de kans dat je een statistisch significant resultaat vindt.
Het is belangrijk om je ervan bewust te zijn dat je op basis van hypothesetoetsing alleen kunt concluderen dat je de nulhypothese verwerpt (en daarom de alternatieve hypothese aanneemt). Je kunt de alternatieve hypothese niet bewijzen met hypothesetoetsen, omdat het gebrek aan een statistisch significant effect niet betekent dat er geen effect kan bestaan.
Als je de statistische significantie rapporteert, is het verstandig om relevante beschrijvende statistieken te gebruiken om je data samen te vatten. Voorbeelden hiervan zijn gemiddelden en standaarddeviaties. Ook vermeld je de teststatistiek en p-waarde.
Kritiek op de statistische significantie
Er zijn verschillende soorten kritiek op statistische significantie en hoe het concept in onderzoek wordt gebruikt.
Willekeurige drempelwaarde en weinig oog voor relevantie
Onderzoekers bestempelen resultaten als statistisch significant of juist niet-significant met behulp van een conventionele grenswaarde, zonder daarbij rekening te houden met een theoretische of praktische basis. Dit betekent dat zelfs een kleine afname van een p-waarde (bijvoorbeeld met 0.001) een resultaat kan veranderen van niet-significant in significant, terwijl je in de praktijk (bijna) geen verandering zou kunnen waarnemen.
Invloed van de steekproefomvang
Statistische significantie kan ook misleidend zijn, omdat de significantie onder andere wordt beïnvloed door de steekproefomvang. In extreem grote steekproeven is de kans groter dat je statistisch significante resultaten vindt, zelfs als het effect in de echte wereld klein of verwaarloosbaar is. Dit betekent dat kleine effecten vaak worden overdreven als ze aan de significantiedrempel voldoen, terwijl interessante resultaten worden genegeerd als ze de drempel (net) niet halen.
Publicatiebias
De sterke nadruk op statistische significantie heeft de afgelopen decennia geleid tot een ernstige publicatiebias en replicatiecrisis in de sociale wetenschappen en geneeskunde. Resultaten worden meestal alleen gepubliceerd in wetenschappelijke tijdschriften als ze statistisch significante resultaten laten zien (omdat deze interessanter worden gevonden), maar deze significante resultaten kunnen vaak niet worden gereproduceerd in replicatieonderzoeken van hoge kwaliteit.
Als gevolg hiervan pleiten veel wetenschappers voor het afschaffen van statistische significantie als het enige besluitvormingsinstrument, en zouden ze graag meer genuanceerde benaderingen gebruiken om resultaten te interpreteren.
Daarom wordt in de APA-richtlijnen geadviseerd om niet alleen p-waarden te rapporteren, maar waar mogelijk ook effectgroottes en betrouwbaarheidsintervallen, om de echte implicaties van een onderzoeksresultaat te laten zien.
Andere soorten significantie en relevantie in onderzoek
Naast statistische significantie zijn ook klinische relevantie en praktische relevantie belangrijk.
Praktische relevantie (ook wel praktische significantie genoemd) laat zien of de onderzoeksuitkomst belangrijk genoeg is om betekenisvol te zijn in de echte wereld. Voor deze vorm van significantie rapporteer je de effectgrootte van het onderzoek.
Klinische relevantie (ook wel klinische significantie genoemd) is relevant voor interventie- en behandelingsstudies. Een behandeling wordt als klinisch significant beschouwd als deze het leven van patiënten tastbaar of substantieel verbetert.
Veelgestelde vragen
- Wat is statistische significantie?
-
Statistische significantie is een term die door onderzoekers wordt gebruikt om aan te geven dat het onwaarschijnlijk is dat hun resultaten op toeval gebaseerd zijn. Significantie wordt meestal aangeduid met een p-waarde (overschrijdingskans).
Statistische significantie is enigszins willekeurig, omdat je zelf de drempelwaarde (alfa) kiest. De meest voorkomende drempel is p < 0.05, wat betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de nulhypothese waar is. Een andere drempel die vaak wordt gekozen is p < 0.01.
Als de p-waarde lager is dan de gekozen alfa-waarde, mag je stellen dat het resultaat van de toets statistisch significant is.
- Wat is een p-waarde (p-value)?
-
De p-waarde (p-value) is een getal tussen 0 en 1, waarmee je bepaalt of een steekproefuitkomst statistisch significant is. Wanneer de p-waarde kleiner is dan het gekozen significantieniveau kun je stellen dat dat de gevonden uitkomst extreem genoeg is om je nulhypothese te verwerpen.
- Hoe bereken je een p-waarde (p-value)?
-
Je berekent p-waarden meestal automatisch met het programma dat je gebruikt voor je statistische analyse (zoals SPSS of R). Je kunt de p-waarde ook schatten met behulp van tabellen voor de teststatistiek die je gebruikt.
P-waarden vertellen je hoe vaak een teststatistiek waarschijnlijk zou voorkomen onder de nulhypothese, op basis van de positie van de teststatistiek in de nulverdeling.
Als de teststatistiek ver verwijderd is van het gemiddelde van de nulverdeling, dan is de p-waarde klein. Dit laat zien dat het niet waarschijnlijk is dat de teststatistiek zou voorkomen als de nulhypothese waar is.
- Kun je op basis van de p-waarde aannemen dat de alternatieve hypothese waar is?
-
Nee, de p-waarde zegt niets over de alternatieve hypothese. De p-waarde geeft aan hoe waarschijnlijk het is dat de data die je hebt gevonden zouden voorkomen als de nulhypothese waar zou zijn.
Als de p-waarde onder je grenswaarde (vaak p < 0.05) valt, kun je de nulhypothese verwerpen, maar dit betekent niet per se dat je alternatieve hypothese waar is.
- Wat is klinische significantie of klinische relevantie?
-
Klinische significantie (ook wel klinische relevantie genoemd) is relevant voor interventie- en behandelingsstudies. Een behandeling wordt als klinisch significant beschouwd als deze het leven van patiënten tastbaar of substantieel verbetert.
De klinische significantie vormt een aanvulling op statistische significantie.
- Wat is praktische significantie of praktische relevantie?
-
Praktische significantie (ook wel praktische relevantie genoemd) laat zien of de onderzoeksuitkomst belangrijk genoeg is om betekenisvol te zijn in de echte wereld. Voor deze vorm van significantie rapporteer je de effectgrootte van het onderzoek.
De effectgrootte wordt gerapporteerd als aanvulling op de statistische significantie.
Citeer dit Scribbr-artikel
Als je naar deze bron wilt verwijzen, kun je de bronvermelding kopiëren of op “Citeer dit Scribbr-artikel” klikken om de bronvermelding automatisch toe te voegen aan onze gratis Bronnengenerator.