Wat is data mining? | Betekenis & Voorbeelden

Data mining is het proces van het extraheren van betekenisvolle informatie uit grote hoeveelheden gegevens. Met behulp van data mining-methoden kunnen organisaties verborgen patronen, relaties en trends in gegevens ontdekken. Deze kunnen ze gebruiken om zakelijke problemen op te lossen, voorspellingen te doen en hun winst of efficiëntie vergroten.

De term “data mining” is eigenlijk onjuist, omdat het doel niet is om de gegevens zelf te extraheren, maar eerder betekenisvolle informatie uit de gegevens te halen.

Wat is data mining?

Data mining, ook wel bekend als knowledge discovery in data (KDD), is een tak van datawetenschap. Hierbij worden computersoftware, machine learning (het proces van machines leren hoe ze van gegevens kunnen leren zonder menselijke tussenkomst) en statistieken samengebracht om bruikbare informatie uit enorme datasets te extraheren of te “minen”.

Door onze online interacties met bedrijven, overheidsinstanties of onderwijsinstellingen produceren we een grote hoeveelheid gegevens. Deze “big data” bestaat uit datasets die zo groot zijn dat het voor een mens niet mogelijk is om ze te analyseren. In plaats daarvan wordt dit gedaan met behulp van een computer.

Data mining transformeert deze ruwe gegevens (raw data) in praktische kennis die organisaties helpt belangrijke vragen over hun gebruikers of consumenten te beantwoorden. Toepassingen van data mining zijn onder andere het analyseren van consumentengedrag, verkoopvoorspellingen en fraudedetectie.

Welke data mining-technieken zijn er?

Data mining-technieken putten uit verschillende vakgebieden, zoals machine learning (ML) en statistiek. Hier zijn enkele veelvoorkomende data mining-technieken:

  • Classificatie is de taak van het toewijzen van nieuwe gegevens aan bestaande of vooraf gedefinieerde categorieën. Een voorbeeld hiervan is het sorteren van een dataset met e-mails als “spam” of “geen spam”.
  • Clustering is het proces van het groeperen van gegevens die gemeenschappelijke kenmerken delen in subgroepen of clusters. In tegenstelling tot classificatie (waar groepen vooraf zijn gedefinieerd), is clustering een ontdekkingsmethode die ons helpt patronen te identificeren. Dit stelt bedrijven in staat om klantsegmenten te creëren op basis van loyaliteit, communicatievoorkeuren of andere kenmerken die uit de gegevens naar voren komen.
  • Association Rule Learning is een techniek waarbij op zoek wordt gegaan naar relaties tussen datapunten. Een supermarktketen kan associatie-regel leren gebruiken om te ontdekken welke producten vaak samen worden gekocht en deze inzichten gebruiken voor promoties.
  • Regressie is een statistische methode die wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren. Het doel is om de waarde van de afhankelijke variabele te voorspellen op basis van de waarden van de onafhankelijke variabelen. Zo zouden we bijvoorbeeld de toekomstige waarde van een huis kunnen voorspellen op basis van historische gegevens over huizen met vergelijkbare kenmerken.
  • Anomalie- of uitschieterdetectie (outlier) is het proces waarbijongebruikelijke gegevens binnen een dataset (dat wil zeggen gegevens die niet het algemene patroon volgen) worden geïdentificeerd. Deze gegevens kunnen interessant zijn (bijvoorbeeld als ze een piek in de verkoop van bepaalde producten laten zien) of verder onderzoek vereisen (bijvoorbeeld als ze potentiële gevallen van fraude tonen).

Hoe werkt data mining?

Het data mining-proces omvat het gebruik van statistische methoden en machine learning-algoritmes om patronen in data te identificeren. Dankzij de vooruitgang in verwerkingskracht en snelheid van computers is data-analyse grotendeels geautomatiseerd.

Er zijn verschillende manieren om het data mining-proces te beschrijven, maar een veelgebruikt model is het Cross-Industry Standard Process for Data Mining (CRISP-DM) dat de volgende fasen omvat:

Bedrijfsbegrip

In de fase van bedrijfsbegrip (business understanding) moeten we het probleem identificeren dat we willen oplossen door middel van data mining. Een voorbeeld hiervan is een bedrijf dat een meer gerichte marketingcampagne wil creëren.

Datawetenschappers en andere relevante belanghebbenden moeten het zakelijke probleem definiëren, waarna de vragen worden bepaald die als leidraad voor het project dienen. Extra onderzoek kan nodig zijn om het zakelijke kader te begrijpen. Het bepalen van projectdoelen en succescriteria is belangrijk om de juiste gegevens te verzamelen en resultaten van het project te kunnen evalueren.

Data mining voorbeeld: Bedrijfsbegrip (business understanding)
Een reisbedrijf wil hun klantsegmentatie verbeteren en gerichte marketingcampagnes ontwikkelen voor hun aankomende reizen naar verschillende bestemmingen.

Hun doel is om effectieve marketingcampagnes te ontwerpen die aantrekkelijk zijn voor specifieke klantsegmenten en uiteindelijk het aantal boekingen te vergroten.

Het bedrijf stelt een interdisciplinair team samen dat bestaat uit datawetenschappers, IT-professionals en marketingmanagers.

Data understanding

Nadat het probleem is gedefinieerd, moeten we benodigde datatype bepalen en relevante bronnen identificeren. In deze stap verzamelen datawetenschappers gegevens uit verschillende bronnen, zoals transactiegegevens en klantendatabases.

Niet elk gegevenspunt is echter relevant voor het project. Zo kan een bedrijf bijvoorbeeld alleen geïnteresseerd zijn in aankopen via creditcard. Het doel hier is ervoor te zorgen dat alleen de noodzakelijke gegevens worden meegenomen. Tegen het einde van de fase van data understanding (ook wel databegrip genoemd) zou het data mining-team de subset van gegevens moeten hebben geselecteerd die nodig is om het probleem aan te pakken.

Data mining voorbeeld: Data understanding
De datawetenschappers verzamelen relevante klantgegevens, zoals demografische gegevens, voorkeursbestemmingen, reisinteresses en feedback. Ze verkennen de gegevens om de kwaliteit, volledigheid en geschiktheid ervan voor klantsegmentatie te begrijpen.

Data preparation

Data preparation (ook wel datavoorbereiding genoemd) is het meest tijdrovende stadium en omvat verschillende acties om de gegevens klaar te maken voor verdere verwerking en analyse. Dit kan het uitsluiten van duplicaten, ontbrekende gegevens of uitschieters uit de gegevens omvatten. Dit proces heet data cleansing.

Gegevens uit meerdere bronnen kunnen worden samengevoegd, georganiseerd of aangepast op verschillende manieren ter voorbereiding op de volgende fase. Aan het einde van deze fase heeft het data mining-team de meest relevante variabelen geïdentificeerd en het definitieve gegevensbestand voorbereid.

Data mining voorbeeld: Data preparation
De datawetenschappers schonen de gegevens op en bereiden deze voor door ontbrekende waarden aan te pakken, duplicaten te verwijderen en de consistentie van de gegevens te waarborgen. Samen met het marketingteam selecteren ze belangrijke variabelen, zoals reisvoorkeuren (bijvoorbeeld bestemmingstypes, thema’s of activiteiten) en klantkenmerken (bijvoorbeeld demografie, interesses en hobby’s, budget) om een dataset te creëren die klaar is voor analyse.

Door deze variabelen te bestuderen, kan het marketingteam uiteindelijk gerichte reisaanbiedingen maken die aansluiten bij de specifieke behoeften en voorkeuren van de klanten.

Gegevensmodellering (data modeling)

Gegevensmodellering (data modeling) is het proces van het organiseren en begrijpen van gegevens op een gestructureerde manier. Het helpt data mining-teams om betekenisvolle patronen en inzichten te vinden in de beschikbare gegevens.

Datawetenschappers gebruiken verschillende modellen, afhankelijk van het type gegevens dat ze hebben en het probleem dat ze proberen op te lossen. Zo willen ze bijvoorbeeld identificeren welke producten vaak samen worden gekocht of verdachte transacties in banken detecteren. Hiervoor kunnen ze verschillende technieken gebruiken.

Zo kunnen ze classificatietechnieken toepassen om gelabelde gegevens te categoriseren of clusteringstechnieken gebruiken om vergelijkbare datapunten samen te groeperen. Door dit modelleerproces te herhalen proberen datawetenschappers de beste oplossing te bereiken.

Data mining voorbeeld: Gegevensmodellering (data modeling)
De datawetenschappers selecteren en passen clusteringstechnieken toe om verschillende klantsegmenten te identificeren op basis van reisvoorkeuren, bezochte bestemmingen uit het verleden en demografische informatie.

Ze bouwen modellen die klanten groeperen in segmenten die overeenkomen met gedeelde reisinteresses en kenmerken. Ze ontdekken dat hun klanten voornamelijk bestaan uit drie verschillende groepen:

  • Avonturiers
  • Culturele ontdekkingsreizigers
  • Vakantiegangers voor het gezin
Let op
Er zijn twee belangrijke soorten gegevens: gelabelde en niet-gelabelde gegevens.

  • Gelabelde gegevens zijn handmatig voorzien van specifieke informatie (bijvoorbeeld e-mails gelabeld als “spam” of “geen spam”). In dit geval kunnen datawetenschappers een supervised machine learning-aanpak gebruiken, waarbij het model leert van deze gelabelde voorbeelden om voorspellingen te doen over nieuwe, ongeziene gegevens.
  • Als de gegevens niet-gelabeld zijn, kunnen datawetenschappers unsupervised machine learning gebruiken, waardoor ze patronen en relaties binnen de gegevens kunnen ontdekken zonder vooraf gedefinieerde labels.

Evaluatie

Tijdens de evaluatiefase beoordeelt het data mining-team de effectiviteit van het model door de beantwoording van hun oorspronkelijke vraag te evalueren. Dit is een mensgestuurde fase, omdat de projectleider moet beslissen of het model de oorspronkelijke vraag goed beantwoordt en of het nieuwe en voorheen onbekende patronen blootlegt.

In tegenstelling tot de technische beoordeling in de modelleringsfase, wordt bij de evaluatiefase bepaald welk model het beste voldoet aan de doelstellingen. Ook worden de vervolgstappen vastgesteld. Dit houdt in dat de resultaten worden afgezet tegen de succescriteria, dat het proces op eventuele omissies wordt gecontroleerd en dat bevindingen worden samengevat.

Het team kan bijvoorbeeld besluiten om door te gaan naar de volgende fase of juist alternatieve modellen verkennen als het model niet aansluit bij de gewenste doelstellingen. Ook kunnen de gegevens opnieuw worden bekeken.

Data mining voorbeeld: Evaluatie
Het team kijkt naar de voortgang tot nu toe en controleert of het gecreëerde model de oorspronkelijke vraag kan beantwoorden. Ze beoordelen hoe goed de geïdentificeerde klantsegmenten overeenkomen met hun begrip van de markt en controleren of de segmenten kunnen worden gebruikt om gerichte marketingcampagnes  voor specifieke reisbestemmingen te sturen.

Implementatie

De implementatiefase gaat over het in praktijk brengen van de kennis en inzichten die zijn opgedaan tijdens het project.

Afhankelijk van de oorspronkelijke vraag of het probleem kan implementatie iets eenvoudigs zijn (zoals een rapport of een visuele presentatie maken) of iets complexers (zoals een nieuwe verkoopstrategie genereren). Implementatie omvat het integreren van de resultaten in de operaties of besluitvormingsprocessen van de organisatie.

Data mining voorbeeld: Implementatie
Aangezien het team tevreden is met de segmentatie, wordt deze gebruikt in de volgende marketingcampagnesmarketingcampagnes. Het team richt zich op elk segment met op maat gemaakte berichten, aanbiedingen en promoties voor specifieke reisbestemmingen. Teamleden monitoren de campagnes en meten de impact op het aantal boekingen. Vervolgens gebruiken ze deze informatie om hun strategie te verbeteren in latere campagnes.

Data mining toepassingsvoorbeelden

Hier zijn enkele voorbeelden van data mining in de echte wereld:

  • Marktmandanalyse. Winkeliers gebruiken datamining om grote datasets te analyseren en kooppatronen te ontdekken, zoals producten die vaak samen worden gekocht of seizoensgebonden trends. Deze informatie helpt ze om hun winkels of websites beter te organiseren, verkoopvoorspellingen te doen en gerichte promoties en aanbiedingen aan te bieden.
  • Academisch onderzoek. In literatuuronderzoeken kunnen data mining-technieken worden gebruikt om teksten te analyseren en de emotiesvan auteurs of personages te begrijpen. Sentimentanalyse heeft betrekking op het gebruik van natuurlijke taalverwerking en machine learning-algoritmen om de emotionele toon van een tekst te bepalen.
  • Onderwijs. Educatieve data mining (EDM) heeft als doel het leren te verbeteren door verschillende educatieve gegevens te analyseren, zoals de interacties van studenten met online leerplatforms of administratieve gegevens van scholen en universiteiten. Deze methode helpt onderwijsaanbieders om de behoeften van studenten beter te begrijpen en ze te ondersteunen, bijvoorbeeld door aangepaste lessen aan te bieden of risicostudenten te identificeren en met hen in contact te komen voordat ze uitvallen.

Andere interessante artikelen

Op zoek naar meer informatie over ChatGPT, AI tools, retoriek en onderzoeksbias? Bekijk onze artikelen met uitleg en voorbeelden!

Veelgestelde vragen

Is data mining hetzelfde als data-analyse?

Data mining en data-analyse worden vaak door elkaar gebruikt, maar het zijn twee afzonderlijke processen in het veld van datawetenschap.

  • Data mining is het proces waarbij verborgen patronen, trends of relaties worden gezocht in grote datasets. Het omvat verschillende technieken, zoals machine learning en statistiek, om nuttige informatie te vinden in complexe gegevens en om besluitvorming en planning te ondersteunen. Dit proces wordt ook wel “kennisontdekking” genoemd.
  • Data-analyse daarentegen is een bredere term die het hele proces van inspectie, opschoning en organisatie van ruwe gegevens beschrijft. Het doel is om conclusies te trekken, inferenties te maken en besluitvorming te ondersteunen. Data-analyse omvat verschillende technieken, zoals descriptieve of beschrijvende statistiek, data mining, hypothesetoetsing en regressieanalyse.

Met andere woorden, data mining is een van de technieken die worden gebruikt voor data-analyse wanneer er behoefte is om verborgen patronen en relaties in de gegevens te ontdekken die bij andere methoden mogelijk over het hoofd worden gezien, terwijl data-analyse een breder scala aan activiteiten omvat.

Waarom is data mining belangrijk?

Data mining is belangrijk omdat het ons in staat stelt om betekenisvolle patronen en relaties te ontdekken in grote hoeveelheden gegevens op een relatief snelle en efficiënte manier.

Data mining-technieken kunnen gebruikmaken van gegevens uit verschillende bronnen, zoals socialemediaplatforms of klantendatabases, en deze omzetten in nuttige inzichten. Met deze inzichten kunnen zakelijke vragen of onderzoeksvragen worden beantwoord, voorspellingen worden gedaan en besluitvorming worden ondersteund.

Wat is het verschil tussen data mining en machine learning?

Data mining en machine learning zijn gerelateerde vakgebieden, maar ze hebben verschillende doelen:

  • Het doel van machine learning is om algoritmes te ontwikkelen waardoor computers kunnen leren zonder menselijke tussenkomst. Het draait erom machines slimmer te maken, zodat ze taken kunnen uitvoeren die verband houden met menselijke intelligentie zonder menselijke sturing.
  • Het doel van data mining is om grote datasets te doorzoeken en bruikbare informatie, zoals patronen en relaties, te extraheren die kunnen worden gebruikt om besluitvorming te ondersteunen. Met andere woorden, het is een tool voor mensen.

Hoewel data mining en machine learning verschillende doelen hebben, is er wel enige overlap in hun toepassingen. Machine learning kan worden gebruikt als een middel om data mining uit te voeren door automatisch patronen in data te detecteren. Aan de andere kant kunnen data die zijn verzameld via data mining worden gebruikt om machines te onderwijzen en hun leercapaciteiten te verbeteren.

Kortom, data mining en machine learning kunnen elkaar aanvullen, maar ze zijn verschillend in hun doelen en toepassingen.

Bronnen voor dit artikel

We raden studenten sterk aan om bronnen te gebruiken. Je kunt verwijzen naar ons artikel (APA-stijl) of je verdiepen in onderstaande bronnen.

Citeer dit Scribbr-artikel

Hussaarts, Z. (2023, 03 augustus). Wat is data mining? | Betekenis & Voorbeelden. Scribbr. Geraadpleegd op 22 april 2024, van https://www.scribbr.nl/ai-tools-gebruiken/data-mining-betekenis/

Bronnen

Yağcı, M. (2022). Educational data mining: prediction of students’ academic performance using machine learning algorithms. Smart Learning Environments, 9(1). https://doi.org/10.1186/s40561-022-00192-z

Wat vind jij van dit artikel?
Zoë Hussaarts

Zoë is momenteel bezig met het behalen van haar Engelstalige HBO-bachelor Creative Business. Ze heeft een passie voor media, marketing en communicatie, en tijdens haar studie verdiept ze zich verder in deze vakgebieden. Naast haar opleiding heeft ze de kans gegrepen om zichzelf te ontwikkelen als Content Marketing Assistant voor Scribbr. Hier hoopt ze andere studenten te kunnen helpen.