Descriptieve of beschrijvende statistiek | Uitleg & Voorbeelden

Met descriptieve of beschrijvende statistiek orden je de data en vat je de kenmerken van je dataset samen. Een dataset is een verzameling reacties of observaties van een steekproef of een hele populatie.

Bij kwantitatief onderzoek begin je aan je statistische analyse na afronding van de dataverzameling. Bij de eerste stap beschrijf je de kenmerken van de antwoorden, zoals het gemiddelde van een variabele (bijvoorbeeld leeftijd), of de relatie tussen twee variabelen (bijvoorbeeld tussen leeftijd en creativiteit).

Bij de volgende stap kijk je naar toetsende of inferentiële statistieken, die je helpen beslissen of de data je hypothese bevestigen en of het resultaat generaliseerbaar is naar een grotere populatie.

Soorten beschrijvende statistieken

Er zijn drie belangrijke soorten beschrijvende statistieken:

  • De verdeling heeft betrekking op de frequentie voor iedere waarde.
  • De centrale tendens gaat over de gemiddelden voor de waarden.
  • De spreiding (of variabiliteit) heeft te maken met de mate waarin waarden in de dataset verspreid zijn.

Soorten beschrijvende statistieken

Je kunt deze statistieken toepassen op één variabele tegelijk bij een univariate analyse, of op twee of meer variabelen in het geval van een bivariate of multivariate analyse.

Onderzoeksvoorbeeld
Je wilt de populariteit van verschillende vrijetijdsactiviteiten bestuderen in relatie tot gender. Je verspreidt een enquête en vraagt de deelnemers hoe vaak ze elk van de volgende dingen hebben gedaan in het afgelopen jaar: 

  • Naar een bibliotheek gaan
  • Naar een bioscoop gaan
  • Naar een dierentuin gaan

Je dataset bevat de verzameling reacties op de enquête. Nu kun je beschrijvende statistieken gebruiken om een overzicht te geven van de frequentie waarmee elke activiteit is gedaan (verdeling), de gemiddelden voor elke activiteit (centrale tendens) en de spreiding van de reacties voor iedere activiteit (variabiliteit).

Hoeveel fouten bevat jouw scriptie?

De taalexperts van Scribbr verbeteren gemiddeld 150 fouten per 1000 woorden. Benieuwd wat er precies wordt verbeterd? Verschuif de cursor van links naar rechts!

Scriptie nakijken op taal

Frequentieverdeling (frequency distribution)

Een dataset bestaat uit een verzameling van waarden of scores. Je kunt de frequentie waarmee iedere waarde voorkomt samenvatten in een tabel, bijvoorbeeld door absolute cijfers of percentages te gebruiken.

Je plaatst alle opties voor de variabele gender in de linkerkolom en telt hoe vaak participanten voor man, vrouw of anders hebben gekozen. Je berekent percentages en zet deze in de rechterkolom.

Gender Aantal
Man 182
Vrouw 235
Anders 27

Uit deze tabel kun je opmaken dat meer vrouwen meededen aan het onderzoek dan mannen of mensen met een andere genderidentiteit.

In een gegroepeerde frequentietabel (grouped frequency distribution table) kun je numerieke responswaarden groeperen en deze optellen voor iedere groep. Je kunt de absolute waarden ook omzetten in percentages. In ons voorbeeld maken we intervallen voor het aantal keer dat iemand een bibliotheek heeft bezocht. Zo tellen we alle antwoorden op voor mensen die 0, 1, 2, 3 of 4 hebben geantwoord.

Bibliotheekbezoeken in het afgelopen jaar Percentage
0–4 6%
5–8 20%
9–12 42%
13–16 24%
17+ 8%

Uit deze tabel kun je opmaken dat de meeste mensen de bibliotheek tussen de 9 en 12 keer hebben bezocht het afgelopen jaar.

Centrummaten

Je schat het centrum of midden van een dataset met behulp van centrummaten (measures of central tendency). Je kunt het centrum vinden met behulp van het gemiddelde, de mediaan en de modus.

In deze voorbeelden laten we zien hoe je de drie centrummaten handmatig kunt berekenen aan de hand van de eerste zes antwoorden op onze enquête. In de meeste gevallen kan de tool waarmee je je dataset analyseert (zoals Excel of SPSS) deze maten automatisch voor je berekenen.

Het gemiddelde (mean of M) is de meest gebruikte methode om het centrum te vinden.

Om het gemiddelde te bepalen, tel je alle antwoorden bij elkaar op en deel je de som door het totale aantal antwoorden (N).

Gemiddelde voor het aantal bibliotheekbezoeken
Dataset 15, 3, 12, 0, 24, 3
Som van alle waarden 15 + 3 + 12 + 0 + 24 + 3 = 57
Totale aantal antwoorden N = 6
Gemiddelde Deel de som van alle waarden door N om M te vinden: 57/6 = 9,5

De mediaan (median) is de waarde die zich precies in het midden van de dataset bevindt als de waarden van klein naar groot staan.

Om de mediaan te bepalen, zet je eerst alle waarden in de juiste volgorde (van klein naar groot). De mediaan is de middelste waarde. Als twee nummers middelste waarde vormen, tel je deze twee bij elkaar op, en deel je ze door 2.

Mediaan voor het aantal bibliotheekbezoeken
Dataset op volgorde 0, 3, 3, 12, 15, 24
Middelste nummers 3, 12
Mediaan Bepaal het gemiddelde van de twee nummers in het midden om de mediaan te vinden: (3 + 12)/2 = 7,5

De modus (mode) is de waarde die het vaakst voorkomt. Een dataset kan geen modus, één modus of meer dan één modus hebben (bij gelijke frequenties).

Om de modus te vinden, zoek je de antwoordoptie die het vaakst voorkomt.

Modus voor het aantal bibliotheekbezoeken
Dataset 0, 3, 3, 12, 15, 24
Modus Zoek de vaakst voorkomende respons: 3

Spreidingsmaten

Spreidingsmaten (measures of variability) laten zien in welke mate de antwoorden verspreid zijn rondom het gemiddelde. Het bereik, de standaarddeviatie en variantie zeggen alle drie iets over de spreiding.

Bereik

Het bereik of de spreidingsbreedte (range) geeft je een idee van hoe ver de meest extreme antwoordopties uit elkaar liggen. Om het bereik te vinden, trek je de laagste waarde van de hoogste waarde af.

Bereik van bibliotheekbezoeken in het laatste jaar
Dataset op volgorde van laag naar hoog:  0, 3, 3, 12, 15, 24

Bereik: 24 – 0 = 24

Standaarddeviatie of standaardafwijking

De standaarddeviatie (ook wel standaardafwijking, standard deviation of s) is de gemiddelde hoeveelheid variabiliteit in je dataset. Deze maat vertelt je hoe ver iedere score gemiddeld van het gemiddelde verwijderd is. Des te groter de standaarddeviatie, des te meer variabel je dataset is.

Er zijn zes stappen om de standaarddeviatie te berekenen (al kun je deze maat in Excel of SPSS automatisch laten berekenen).

  1. Maak een lijst van alle scores en vind het gemiddelde.
  2. Trek het gemiddelde af van iedere score om de afstand (afwijking) tot het gemiddelde te berekenen.
  3. Bereken voor iedere afwijking het kwadraat.
  4. Tel alle gekwadrateerde afwijkingen bij elkaar op.
  5. Deel de som van de gekwadrateerde afwijkingen door N – 1.
  6. Trek de wortel van het gevonden nummer bij stap 5.
Standaarddeviatie voor het aantal bibliotheekbezoeken in het afgelopen jaar
In de onderstaande tabel volg je stap 1 tot en met 4.

Ruwe data Afwijking van het gemiddelde Gekwadrateerde afwijking
15 15 – 9,5 = 5,5 30,25
3 3 – 9,5 = -6,5 42,25
12 12 – 9,5 = 2,5 6,25
0 0 – 9,5 = -9,5 90,25
24 24 – 9,5 = 14,5 210,25
3 3 – 9,5 = -6,5 42,25
M = 9,5 Som = 0 Som van de kwadraten = 421,5

Stap 5: 421,5/5 = 84,3

Stap 6: √84,3 = 9,18

De standaarddeviatie = 9,18, waardoor je kunt stellen dat iedere score gemiddeld genomen 9,18 punten van het gemiddelde verwijderd is.

Variantie

De variantie (variance) is het gemiddelde van de kwadratische afwijkingen van het gemiddelde. Deze maat zegt iets over de mate van spreiding in een dataset. Des te meer spreiding er is, des te groter is de variatie in relatie tot het gemiddelde.

Om de variantie te berekenen, neem je het kwadraat van de standaarddeviatie. Het symbool voor variantie is s2.

Variantie voor het aantal bibliotheekbezoeken in het afgelopen jaar
Dataset: 15, 3, 12, 0, 24, 3

s = 9,18

s2 = 84,3

Lees waarom zo veel studenten Scribbr inschakelen

Ontdek nakijken op taal

Univariate beschrijvende statistieken

Univariate beschrijvende statistieken richten zich op slechts één variabele tegelijk. Het is belangrijk om gegevens voor iedere variabele afzonderlijk te onderzoeken met behulp van meerdere maten voor verdeling, centrale tendens en spreiding. Je kunt programma’s als SPSS en Excel gebruiken om deze eenvoudig te berekenen.

Bibliotheekbezoeken
N 6
Gemiddelde 9,5
Mediaan 7,5
Modus 3
Standaarddeviatie 9,18
Variantie 84,3
Bereik 24

Als je enkel het gemiddelde gebruikt als centrummaat, kan je beeld van het “midden” van de dataset vertekend zijn door extreme waarden (uitbijters of outliers). De mediaan en modus zijn hier minder gevoelig voor.

Ook het bereik is gevoelig voor extreme waarden, en daarom is het belangrijk om ook de standaarddeviatie en variantie te bepalen om een beeld te krijgen van de spreiding.

Bivariate beschrijvende statistieken

Als je data hebt verzameld voor meer dan één variabele, kun je bivariate of multivariate beschrijvende statistieken gebruiken om te onderzoeken of er relaties bestaan tussen je variabelen.

Bij een bivariate analyse kijk je naar de frequentie en spreiding van twee variabelen tegelijkertijd, om te bepalen of ze samen variëren. Je kunt ook de centrale tendens van beide variabelen bekijken voordat je verdere statistische analyses uitvoert.

Multivariate analyse is hetzelfde als bivariate analyse, maar dan met meer dan twee variabelen.

Kruistabellen

In een kruistabel (contingency table) laat iedere cel de kruising tussen twee variabelen zien. In de meeste gevallen zet je een onafhankelijke variabele (zoals leeftijdscategorie) in de kolommen (verticaal) en een afhankelijke variabele (zoals activiteit) in de rijen (horizontaal). In een kruistabel kun je de relatie tussen variabelen zien.

Aantal bibliotheekbezoeken in het afgelopen jaar
Groep 0–4 5–8 9–12 13–16 17+
Kind 32 68 37 23 22
Volwassene 36 48 43 83 25

Het is makkelijker om een kruistabel te interpreteren als de onbewerkte gegevens (ruwe data) worden omgezet in percentages. Hierdoor kun je alle rijen met elkaar vergelijken. Als je percentages gebruikt voor je kruistabel, voeg je een N toe voor iedere onafhankelijke variabele.

Bibliotheekbezoeken in het afgelopen jaar (percentages)
Groep 0–4 5–8 9–12 13–16 17+ N
Kind 18% 37% 20% 13% 12% 182
Volwassene 15% 20% 18% 35% 11% 235

Uit deze tabel blijkt beter dat vergelijkbare percentages kinderen en volwassenen meer dan 17 keer per jaar naar een bibliotheek gingen. Ook blijkt dat kinderen over het algemeen tussen de 5 en 8 keer per jaar gingen, en volwassenen tussen de 13 en 16 keer.

Scatterplots

Een scatterplot (ook wel spreidingsgrafiek genoemd) is een grafiek die de relatie tussen twee of drie variabelen laat zien. De grafiek vormt een visuele weergave van de sterkte van een relatie.

In een scatterplot plot je een variabele op de x-as en een andere op de y-as. Ieder datapunt vormt een punt in de grafiek.

Scatterplot-voorbeeld: Bibliotheekbezoeken en bioscoopbezoeken
Je onderzoekt of mensen die vaker naar de bibliotheek gaan, minder geneigd zijn een film in de bioscoop te kijken. Je plot het aantal keren dat participanten films hebben bekeken in een bioscoop op de x-as en bezoeken aan de bibliotheek op de y-as (maar je had dit ook net andersom kunnen doen).

Uit je scatterplot blijkt dat naarmate het aantal films dat in bioscopen wordt gezien toeneemt, het aantal bezoeken aan de bibliotheek afneemt. Op basis van een visuele beoordeling van een mogelijk lineair verband, voer je verdere correlatie- en regressieanalyses uit.

Descriptive statistics: Scatter plot

Veelgestelde vragen

Wat is het verschil tussen beschrijvende en toetsende statistiek?

Met beschrijvende statistiek (ook wel descriptieve statistiek genoemd) vat je de kenmerken van een dataset samen. Met toetsende statistiek (ook wel inferentiële of verklarende statistiek genoemd) toets je een hypothese of bepaal je of je data generaliseerbaar zijn naar een bredere populatie.

Wat zijn de drie belangrijkste beschrijvende statistieken?

De drie belangrijkste beschrijvende statistieken hebben betrekking op de frequentieverdeling, centrale tendens en variabiliteit van de dataset.

  • Verdeling (distribution) verwijst naar de frequentie waarmee bepaalde antwoorden voorkomen.
  • Centrummaten (measures of central tendency) geven je het gemiddelde voor iedere vraag.
  • Spreidingsmaten (measures of variability) laten je de mate van spreiding in de dataset zien.
Wat is het verschil tussen univariate, bivariate en multivariate beschrijvende statistieken?
  • Univariate statistieken vatten één variabele per keer samen.
  • Bivariate statistieken vergelijken twee variabelen.
  • Multivariate statistieken vergelijken drie of meer variabelen.
Wat is de standaarddeviatie?

De standaarddeviatie (standard deviation of s) is de gemiddelde hoeveelheid variabiliteit in je dataset. Deze maat vertelt je hoe ver iedere score gemiddeld van het gemiddelde verwijderd is. Des te groter de standaarddeviatie, des te meer variabel je dataset is.

Citeer dit Scribbr-artikel

Als je naar deze bron wilt verwijzen, kun je de bronvermelding kopiëren of op “Citeer dit Scribbr-artikel” klikken om de bronvermelding automatisch toe te voegen aan onze gratis Bronnengenerator.

Merkus, J. (2021, 19 oktober). Descriptieve of beschrijvende statistiek | Uitleg & Voorbeelden. Scribbr. Geraadpleegd op 9 december 2024, van https://www.scribbr.nl/statistiek/beschrijvende-statistiek/

Wat vind jij van dit artikel?
Julia Merkus

Julia heeft onder andere een bachelor in Nederlandse Taal en Cultuur en twee masters in Linguistics en Taal- en Spraakpathologie. Na enkele jaren als editor, onderzoeker en docent schrijft ze nu artikelen over scripties, taalkunde, methodologie en statistiek om studenten te helpen.