Parameters vs statistieken: Wat is het verschil?

Een parameter is een waarde die een hele populatie beschrijft (bijvoorbeeld het populatiegemiddelde), terwijl een statistiek een getal is dat een steekproef beschrijft (bijvoorbeeld het steekproefgemiddelde).

Het doel van kwantitatief onderzoek is om kenmerken van populaties te onderzoeken door parameters te bepalen. In de praktijk is het vaak te tijdrovend of moeilijk om voor elk lid van de populatie data te verzamelen. In plaats daarvan worden data verzameld voor een steekproef (subset van de populatie).

Je kunt steekproefstatistieken gebruiken om onderbouwde voorspellingen te doen over populatieparameters (met behulp van toetsende of inferentiële statistiek).

Verder lezen: Parameters vs statistieken: Wat is het verschil?

Statistische power (statistical power) en poweranalyses

Statistische power is de kans dat een statistische toets een effect detecteert dat daadwerkelijk aanwezig is. Het kan hierbij bijvoorbeeld om een correlatie, causale relatie of verschil tussen groepen gaan. Statistisch power wordt ook wel gevoeligheid, onderscheidend vermogen of statistical power genoemd.

Als een toets veel power heeft, is de kans groot dat deze een daadwerkelijk bestaand effect kan detecteren. Als de toets weinig power heeft, betekent dat er slechts een kleine kans is dat de toets een effect gaat vinden en dat de resultaten waarschijnlijk vertekend zijn door willekeurige en systematische fouten.

De power wordt voornamelijk beïnvloed door de steekproefomvang, de effectgrootte en het significantieniveau. Je kunt een poweranalyse gebruiken om de benodigde steekproefomvang voor een onderzoek te bepalen.

Verder lezen: Statistische power (statistical power) en poweranalyses

Hoe voorkom je Type I- en Type II-fouten?

Een Type I-fout is een fout-positieve conclusie (false positive), terwijl een Type II-fout een fout-negatieve conclusie (false negative) is.

Je kunt nooit met 100% zekerheid een conclusie trekken op basis van statistiek, dus het risico op een van deze twee type fouten is onvermijdelijk als je hypothesen toetst.

Het risico dat je een Type I-fout maakt, is gelijk aan het significantieniveau (alfa of α), terwijl het risico op het maken van een Type II-fout gelijk is aan bèta (β). Deze risico’s kunnen worden geminimaliseerd door goed na te denken over je onderzoeksdesign.

Voorbeeld: Type I- vs Type II-fout
Je besluit je te laten testen op corona, omdat je milde symptomen hebt. Er zijn twee fouten die mogelijk kunnen optreden:

  • Type I-fout (Type I error): het testresultaat laat zien dat je corona hebt, maar dat heb je eigenlijk niet.
  • Type II-fout (Type II error): het testresultaat laat zien dat je geen corona hebt, maar dat heb je eigenlijk wel.

Verder lezen: Hoe voorkom je Type I- en Type II-fouten?

De t-verdeling (t-distribution) begrijpen en gebruiken

De t-verdeling (ook wel t-distribution of Student’s t-distribution genoemd) wordt gebruikt als de data bij benadering normaal verdeeld zijn (en dus een klokvorm volgen), maar waarbij de populatievariantie onbekend is. De variantie in een t-verdeling wordt geschat op basis van het aantal vrijheidsgraden van de dataset (totaal aantal waarnemingen min 1).

De t-verdeling is een variant op de normale verdeling, maar deze wordt gebruikt voor kleinere steekproeven, waarbij de variantie onbekend is.

De t-verdeling wordt gebruikt als de data bij benadering normaal verdeeld zijn

Bij statistiek wordt de t-verdeling meestal gebruikt om:

  • De kritische waarden voor een betrouwbaarheidsinterval te vinden als de data ongeveer normaal verdeeld zijn.
  • De corresponderende p-waarde te vinden van een statistische toets die de t-verdeling gebruikt (t-toets, regressieanalyse).

Verder lezen: De t-verdeling (t-distribution) begrijpen en gebruiken

Wat is de effectgrootte en waarom is deze van belang?

De effectgrootte (effect size) laat zien hoe betekenisvol de relatie tussen variabelen of het verschil tussen groepen is. Het zegt iets over de praktische relevantie (ook wel praktische significantie genoemd) van een onderzoeksresultaat.

Als een effect groot is, heeft het onderzoeksresultaat praktische implicaties, terwijl een klein effect waarschijnlijk ook maar beperkte praktische implicaties heeft.

Let op
In het Nederlands gebruik je de komma als decimaalteken, maar bij het rapporteren van statistische resultaten is het gebruikelijk om de punt als decimaalteken te gebruiken. Ook wordt vaak de 0 voor het decimaalteken weggelaten (.05 in plaats van 0.05).

Verder lezen: Wat is de effectgrootte en waarom is deze van belang?

Statistische significantie begrijpen (met voorbeeld)

Als een resultaat statistisch significant is, betekent dit dat het onwaarschijnlijk is dat het alleen door toeval of willekeurige factoren kan worden verklaard. Met andere woorden: er is slechts een zeer kleine kans dat een statistisch significant resultaat voorkomt als er geen echt effect zou zijn in het onderzoek.

De p-waarde (ook wel p-value, overschrijdingskans of kanswaarde genoemd) geeft informatie over de statistische significantie van een resultaat. In de meeste onderzoeken wordt een p-waarde van 0.05 of minder als statistisch significant beschouwd, maar deze drempel kan ook hoger of lager zijn.

Let op
In het Nederlands gebruik je de komma als decimaalteken, maar bij het rapporteren van statistische resultaten is het gebruikelijk om de punt als decimaalteken te gebruiken. Ook wordt vaak de 0 voor het decimaalteken weggelaten (.05 in plaats van 0.05).

Verder lezen: Statistische significantie begrijpen (met voorbeeld)

Variantie begrijpen en berekenen (met voorbeeld)

De variantie (variance) is een maat die iets zegt over de spreiding in een dataset. Hoe meer de data verspreid zijn, hoe groter de variantie ten opzichte van het gemiddelde.

De variantie is een van de vier meest gebruikte spreidingsmaten (measures of variability), samen met:

Je bepaalt de variantie door het rekenkundig gemiddelde van de gekwadrateerde afwijkingen van het gemiddelde te berekenen.

Verder lezen: Variantie begrijpen en berekenen (met voorbeeld)

Hoe bepaal je de interkwartielafstand (interquartile range)?

De interkwartielafstand (interquartile range) is een descriptieve statistiek die informatie geeft over de spreiding van de middelste helft van een verdeling. Deze maat behoort tot de vier meest gebruikte spreidingsmaten (measures of variability).

Iedere verdeling waarbij de waarden zijn gerangschikt van laag naar hoog kan worden verdeeld in vier gelijke delen (kwartielen). De interkwartielafstand (IQR) bevat het tweede en derde kwartiel, wat neerkomt op het middelste deel of de “middelste helft” van je dataset.

Kwartielen en de IQR

Het bereik (de range) geeft informatie over de spreiding in de gehele dataset, terwijl de interkwartielafstand gelijk is aan het bereik van de middelste helft.

Verder lezen: Hoe bepaal je de interkwartielafstand (interquartile range)?

Spreidingsmaten: Bereik, interkwartielafstand, standaarddeviatie en variantie

De spreiding geeft aan hoe ver datapunten van elkaar en van het centrum van een verdeling verwijderd zijn. Je gebruikt spreidingsmaten in combinatie met centrummaten om de data samen te vatten met beschrijvende statistieken.

Spreiding wordt ook wel variabiliteit genoemd. Meestal gebruik je een van de volgende spreidingsmaten (measures of variability):

  • Bereik (range): het verschil tussen de hoogste en laagste waarde.
  • Interkwartielafstand (interquartile range): het verschil tussen het eerste en derde kwartiel.
  • Standaarddeviatie (standard deviation): de gemiddelde afstand tot het gemiddelde.
  • Variantie (variance): het rekenkundig gemiddelde van de kwadratische afwijkingen van het gemiddelde.

Verder lezen: Spreidingsmaten: Bereik, interkwartielafstand, standaarddeviatie en variantie

Hoe bepaal je het bereik (range) van een dataset?

Het bereik (ook wel spreidingsbreedte of range genoemd) is het interval tussen de laagste en de hoogste waarde in de dataset. Het is een veelgebruikte maat voor de spreiding (variability).

Je gebruikt spreidingsmaten en centrummaten om je data samen te vatten met behulp van descriptieve of beschrijvende statistieken.

Het bereik wordt berekend door de laagste waarde van de hoogste waarde af te trekken. Als het bereik groot is, is er sprake van een hoge variabiliteit, terwijl een laag bereik gepaard gaat met een lage variabiliteit.

Verder lezen: Hoe bepaal je het bereik (range) van een dataset?