Een stappenplan voor hypothesetoetsing

Hypothesetoetsing is een gestructureerde procedure om onze ideeën over de wereld te onderzoeken met behulp van statistiek. Het proces wordt meestal uitgevoerd door wetenschappers die specifieke voorspellingen willen toetsen met behulp van een kwantitatief onderzoek. Deze hypothesen zijn over het algemeen gebaseerd op literatuur over eerder onderzoek.

Het stappenplan om hypothesen te toetsen bestaat uit 5 stappen:

  1. Formuleer je verwachting in de vorm van een nulhypothese (H0) en een alternatieve hypothese (H1).
  2. Verzamel data op een valide, betrouwbare manier die past bij de hypothese.
  3. Voer een geschikte statistische toets uit.
  4. Bepaal of je je nulhypothese wel of niet kunt verwerpen.
  5. Rapporteer en bespreek de resultaten in de resultaten- en discussiesectie.

De invulling van het stappenplan kan verschillen per type onderzoek, maar je volgt in principe altijd (een variant op) deze 5 stappen.

Stap 1: Formuleer de nul- en alternatieve hypothese

Nadat je je verwachtingen hebt opgesteld op basis van wetenschappelijke literatuur over eerder onderzoek, is het belangrijk om deze te formuleren in de vorm van een nulhypothese (H0) en alternatieve hypothese (H1), zodat je deze statistisch kunt toetsen.

  • Een nulhypothese (H0) voorspelt altijd dat er geen effect, geen relatie tussen variabelen of geen verschil tussen groepen bestaat.
  • Een alternatieve hypothese (H1) geeft je belangrijkste voorspelling van een effect, een relatie tussen variabelen of een verschil tussen groepen weer.

Je wilt onderzoeken of er een relatie is tussen de studieduur van universitaire studenten en het ontvangen van een studiebeurs. Op basis van literatuur over de invloed van studiebeursen verwacht je dat studenten met een studiebeurs minder lang over hun studie doen dan studenten zonder studiebeurs.

Om deze hypothese te toetsen, herformuleer je deze als:

  • H0: De studieduur van studenten die een beurs ontvangen verschilt niet van de studieduur van studenten die geen beurs ontvangen.
  • H1: De studieduur van studenten die een beurs ontvangen is korter dan die van studenten die geen beurs ontvangen.

Stap 2: Verzamel data

Het is belangrijk om de steekproef- en dataverzamelingsprocedures uit te voeren op een manier die past bij de hypothese, zodat de uitkomsten van de statistische toets valide zijn. Als de steekproefdata niet representatief zijn voor de populatie, kun je geen statistische conclusies trekken over de populatie waarin je geïnteresseerd bent.

Om verschillen in studieduur tussen studenten met en zonder studiebeurs te onderzoeken, moet er een goede verhouding zijn tussen studenten met en zonder beurs in de steekproef. Ook is het belangrijk om voor andere factoren te controleren die de gemiddelde studieduur kunnen beïnvloeden (controlevariabelen).

Verder moet je rekening houden met de scope (kijk je naar een land, een continent, de hele wereld?). Als je dit onderzoek beperkt tot studenten in Nederland, kun je de gegevens van universiteiten en DUO gebruiken als bron.

Wie helpt jou met nakijken?

Betrouwbare hulptroepen vinden is niet makkelijk...

  • Familie
  • Vrienden
  • Studiegenoten
  • Scribbr

We staan altijd voor je klaar

Stap 3: Voer een statistische toets uit

Er zijn verschillende statistische toetsen beschikbaar, maar ze zijn allemaal gebaseerd op de vergelijking van de hoeveelheid variantie binnen een groep (hoe verspreid de gegevens zijn binnen één groep) met de hoeveelheid variantie tussen groepen (hoe zeer de groepen van elkaar verschillen).

Als de variantie tussen groepen zo groot is dat er weinig of geen overlap is, geeft de statistische toets een lage p-waarde (p-value) als uitkomst. Dit betekent dat het onwaarschijnlijk is dat de verschillen tussen deze groepen door toeval of willekeurige factoren zijn ontstaan.

Als er sprake is van een hoge variantie binnen de groep (within-group) en een lage variantie tussen de groepen (between-group), levert de statistische toets een hoge p-waarde op. Dit betekent dat het waarschijnlijk is dat elk verschil dat je hebt gevonden tussen groepen op toeval berust.

Je keuze voor een statistische toets is gebaseerd op het type data dat je hebt verzameld.

Op basis van het soort data dat je hebt verzameld, voer je een t-toets uit om te onderzoeken of studenten met studiebeurs inderdaad korter over hun studie doen dan studenten zonder beurs. Deze toets levert de volgende uitkomsten op:

  • een schatting van het verschil in gemiddelde studieduur tussen de twee groepen.
  • een p-waarde die aangeeft hoe waarschijnlijk het is dat je dit verschil zou vinden als de nulhypothese waar is.

De t-toets laat zien dat studenten met studiebeurs gemiddeld 3.81 jaar over hun studie doen, terwijl studenten zonder studiebeurs gemiddeld 4.67 jaar over hun studie doen. De p-waarde is 0.0029.

Stap 4: Bepaal of je de nulhypothese wel of niet verwerpt

Op basis van de uitkomst van je statistische toets moet je beslissen of je de nulhypothese wel of niet verwerpt.

In de meeste gevallen gebruik je de verkregen p-waarde om deze beslissing te nemen. Hiervoor vergelijk je de p-waarde met een vooraf gekozen significantieniveau (alfa, α) om te bepalen of het resultaat statistisch significant is. 

De meeste onderzoekers hanteren de grenswaarde 0.05 (5%) voor het verwerpen van de nulhypothese. Dit betekent dat het risico dat je de nulhypothese onterecht verwerpt maximaal 5% is. Er is namelijk een kans van 5% dat de gevonden resultaten optreden als de nulhypothese waar is.

In sommige gevallen kiezen onderzoekers een meer conservatieve grenswaarde, zoals 0.01 (1%). Hiermee minimaliseren ze het risico dat ze onterecht concluderen dat er een effect is dat niet bestaat in de echte wereld (Type I-fout).

De statistische toets liet zien dat de p-waarde gelijk was aan 0.0029. De vooraf gekozen grenswaarde voor het significantieniveau was 0.05, dus de p-waarde is kleiner dan alfa. Dit betekent dat het gevonden verschil significant is en daarom besluit je de nulhypothese te verwerpen.

Stap 5: Rapporteer je resultaten

Je presenteert de resultaten van de hypothesetoetsing in je resultatensectie. Vervolgens interpreteer en bespreek je de resultaten in de discussie van je scriptie of andere onderzoeksopdracht.

Let op
In het Nederlands gebruik je de komma als decimaalteken, maar bij het rapporteren van statistische resultaten is het gebruikelijk om de punt als decimaalteken te gebruiken.

In het resultatengedeelte vat je de data en de resultaten van je statistische toets samen. Zo rapporteer je bijvoorbeeld descriptieve statistieken, zoals gemiddelden en standaarddeviaties, maar ook teststatistieken, de p-waarde en vaak de effectgrootte.

In de discussie interpreteer je de resultaten en geef je eventueel verklaringen voor resultaten die je niet had verwacht. Ook bespreek je eventuele beperkingen van je onderzoek en suggesties voor vervolgonderzoek.

De rapportage van je resultaten is onder andere afhankelijk van het soort opdracht. Als je een statistiekopdracht uitvoert, wordt vaak gevraagd om specifiek in te gaan op de verwerping van de nulhypothese (en niet op de overeenstemming met de alternatieve hypothese).

Voorbeeld: Resultaten rapporteren in een statistiekopdracht
De t-toets liet zien dat studenten zonder studiebeurs (M = 4.67, SD = 2.14) significant langer over hun studie doen dan studenten met studiebeurs (M = 3.81, SD = 1.92), t(108) = 2.22, p = .0029. Op basis daarvan wordt de nulhypothese dat er geen verschil bestaat tussen studenten met en zonder studiebeurs verworpen, en kan worden geconcludeerd dat er waarschijnlijk een verschil bestaat tussen beide groepen.

Als je de resultaten presenteert in een artikel of academisch paper, wordt vaak minder formeel ingegaan op de nulhypothese. In plaats daarvan grijp je terug op de alternatieve hypothese en geef je aan of de resultaten in lijn waren met je verwachtingen.

In dat geval spreek je niet over het verwerpen van de nulhypothese, maar geef je aan dat de resultaten in overeenstemming zijn met de alternatieve hypothese.

Voorbeeld: Resultaten rapporteren in een artikel

De t-toets liet zien dat studenten zonder studiebeurs (M = 4.67, SD = 2.14) significant langer over hun studie doen dan studenten met studiebeurs (M = 3.81, SD = 1.92), t(108) = 2.22, p = .0029. Deze resultaten zijn in overeenstemming met de hypothese dat er een verschil bestaat tussen de studieduur van studenten met en zonder studiebeurs.

Beide formuleringen lijken sterk op elkaar, maar de eerste is formeler.

We geven in beide gevallen niet aan dat we de alternatieve hypothese verwerpen of aannemen, omdat hypothesetoetsing niet bewijst dat een bepaalde hypothese waar is. Je kunt alleen toetsen of een verschil, relatie of effect door toeval kan worden verklaard of niet.

Als we de nulhypothese verwerpen op basis van ons onderzoek (omdat het onwaarschijnlijk is dat de resultaten door toeval of willekeurige factoren worden verklaard), kunnen we zeggen dat:

  • de resultaten in overeenstemming zijn met de hypothese
  • het onderzoek de hypothese ondersteunt
  • het onderzoek bewijs levert voor de hypothese

Als we de nulhypothese op basis van het onderzoek niet kunnen verwerpen (omdat de p-waarde hoger is dan het significantieniveau), kunnen we zeggen dat:

  • de resultaten niet in overeenstemming zijn met de hypothese
  • de resultaten de hypothese niet ondersteunen
  • de resultaten geen bewijs leveren voor de hypothese

Veelgestelde vragen

Wat is het doel van hypothesetoetsing?

Bij kwantitatief onderzoek analyseer je de data door middel van hypothesetoetsing. Je voert een statistische analyse uit en vergelijkt de verkregen p-waarde met het vooraf gekozen significantieniveau. Zo bepaal je of een verband, effect of verschil statistisch significant is.

Wat is een significantieniveau?

Het significantieniveau (alfa, α) geeft de maximale kans weer dat je de nulhypothese ten onrechte verwerpt (een Type I-fout). Je kiest het significantieniveau zelf voordat je een statistische toets uitvoert. Meestal kies je voor een α van 0.05 (5%) of 0.01 (1%).

Wat is statistische significantie?

Statistische significantie is een term die door onderzoekers wordt gebruikt om aan te geven dat het onwaarschijnlijk is dat hun resultaten op toeval gebaseerd zijn. Significantie wordt meestal aangeduid met een p-waarde (overschrijdingskans).

Statistische significantie is enigszins willekeurig, omdat je zelf de drempelwaarde (alfa) kiest. De meest voorkomende drempel is p < 0.05, wat betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de nulhypothese waar is. Een andere drempel die vaak wordt gekozen is < 0.01.

Als de p-waarde lager is dan de gekozen alfa-waarde, mag je stellen dat het resultaat van de toets statistisch significant is.

Wat is klinische significantie of klinische relevantie?

Klinische significantie (ook wel klinische relevantie genoemd) is relevant voor interventie- en behandelingsstudies. Een behandeling wordt als klinisch significant beschouwd als deze het leven van patiënten tastbaar of substantieel verbetert.

De klinische significantie vormt een aanvulling op statistische significantie.

Wat is praktische significantie of praktische relevantie?

Praktische significantie (ook wel praktische relevantie genoemd) laat zien of de onderzoeksuitkomst belangrijk genoeg is om betekenisvol te zijn in de echte wereld. Voor deze vorm van significantie rapporteer je de effectgrootte van het onderzoek.

De effectgrootte wordt gerapporteerd als aanvulling op de statistische significantie.

Kun je op basis van de p-waarde aannemen dat de alternatieve hypothese waar is?

Nee, de p-waarde zegt niets over de alternatieve hypothese. De p-waarde geeft aan hoe waarschijnlijk het is dat de data die je hebt gevonden zouden voorkomen als de nulhypothese waar zou zijn.

Als de p-waarde onder je grenswaarde (vaak p < 0.05) valt, kun je de nulhypothese verwerpen, maar dit betekent niet per se dat je alternatieve hypothese waar is.

Wat vind jij van dit artikel?
Rebecca Bevans

Rebecca is bezig met haar PhD in bodemecologie (soil ecology) en spendeert haar vrije tijd aan schrijven. Ze wil jullie alles over methodologie en statistiek vertellen.