Passionned Group™

Data Mining

Data mining heeft dankzij de bigdatarevolutie een hoge vlucht genomen. De begrippen data mining en big data zijn als een Siamese tweeling aan elkaar vastgeklonken. Datamining kent inmiddels succesvolle toepassingen, vooral in de (bio)medische en financiële sector. Maar ook in de retail, bij gemeenten, defensie en zelfs in de sport wordt tegenwoordig data mining software succesvol ingezet. Helemaal onomstreden is big data mining echter niet. Zonder elementaire kennis van de statistiek kun je al snel verkeerde conclusies trekken. Wat is datamining? Welke soort data mining tools zijn er? En wat is het verschil tussen process mining vs data mining? Onze datamining expert geeft antwoord.

Open de inhoudsopgave

Haal het maximale uit je bedrijfsgegevens met data mining software


Orden je gedachten voordat je data mining tools overweegt

Om het belang en de impact van het vakgebied datamining te doorgronden, is het raadplegen van enkele definities geen overbodige luxe. Het lezen van dit overzichtsartikel data mining helpt je bovendien om je gedachten te ordenen voordat je met een project start. Wil je daadwerkelijk met data mining aan de slag, roep dan de hulp in van de data mining experts van Passionned Group.

Data mining definitie

Data mining, artificial intelligence en big data worden vaak in één adem genoemd of aangehaald. Hetzelfde geldt voor data mining, deep learning, data mining en predictive analytics. Hoewel al deze begrippen veel met elkaar te maken hebben, zijn er wezenlijke verschillen.

Om begripsverwarring te voorkomen en de datamining betekenis scherp te krijgen, wordt binnen het opleidingsprogramma van de Passionned Academy en in het Big Data boek ‘De intelligente, datagedreven organisatie’ daarom met een eenduidige data mining definitie gewerkt. Dat geldt met name ook voor de data mining cursus die in dat kader wordt gegeven.

Wat is data mining?

Wat is data mining?
Figuur 1: Wat is data mining? Data uit verschillende bronnen combineren, begrijpen, analyseren, minen en de resultaten helder visualiseren met als doel het nemen van betere beslissingen.

“Data mining is het vinden van verbanden, patronen en correlaties in gestructureerde data met behulp van machine learning, statistiek en databasetechnieken.”

Het doel van datamining is het opdoen van nieuwe inzichten die “verborgen” zitten in de data en het vergaren van nieuwe kennis. Die kennis gebruik je vervolgens weer om betere beslissingen te nemen en processen verder te verbeteren en/of te innoveren.

Data mining betekenis: een klein stukje geschiedenis

De wortels van data mining of “datamining” (volgens de spelling volgens het Groene Boekje) gaan helemaal terug tot in de 18e eeuw toen de Bayesiaanse kansberekening, de waarschijnlijkheidstheorie en regressieanalyse als onderdelen van de wiskunde hun opwachting maakten.

De term data mining als concept dook echter pas in 1990 op binnen databasekringen. Werd eerst nog formeel gesproken van Knowledge Discovery in Databases, afgekort als KDD, later raakte de term datamining steeds meer in zwang.

Gelet op deze historie en het onderzoekende karakter van datamining is het niet vreemd dat data discovery een algemeen geaccepteerd synoniem is voor data mining. Data science is de verzamelnaam voor datawetenschap in de meest ruime zin. Functionarissen in het bedrijfsleven of wetenschappers aan universiteiten die zich met data mining science bezighouden worden logischerwijs data scientists genoemd.

Verschil process mining vs data mining

Process mining en data mining worden in de praktijk heel vaak door elkaar gehaald, of erger nog, op één hoop gegooid. Desondanks is het aantal verschillen tussen beide concepten groter dan het aantal overeenkomsten. Data mining, process mining? Eén ding is zeker. Process mining is geen data mining en vice versa.

Laten we met de belangrijkste overeenkomsten beginnen. Zowel data mining als process mining vallen onder de brede paraplu van Data Analytics & BI. Beide maken bovendien in toenemende mate gebruik van algoritmes om verborgen patronen, (causale) verbanden en onregelmatigheden te ontdekken. Dan nu enkele verschillen.

Verschil data mining vs process mining

Er bestaat een wezenlijk verschil en een overlap tussen data mining en process mining. Een eenvoudig voorbeeld verduidelijkt dit verschil.

Verschil data mining vs process mining
Figuur 2: Process Mining ligt op het snijvlak van Business Process Management (BPM) en data mining.

De focus bij datamining ligt nadrukkelijk op de patronen binnen de data. Zo probeert het Amerikaanse Pizza Hut bijvoorbeeld patronen in klantgedrag te ontdekken. Door artificial intelligence in data mining settings in te zetten, wil het bedrijf klanten pizza’s aanbevelen op basis van het huidige weer en afhankelijk van de plek waar klanten wonen, of waar ze hun pizza willen verorberen. Een bepaald weerpatroon veronderstelt een bepaalde voorkeur voor een specifieke pizza. De focus bij process mining daarentegen ligt op de afwijkingen in het bedrijfsproces? Waarom wordt de pizza niet op tijd bij de klant bezorgd en hoe worden verschillen in de baktijd verklaard? Binnen process mining wordt onder meer gewerkt met event logs, audit trails en tijdstempels.

ICS: een schoolvoorbeeld van data mining

Data mining heeft al veel organisaties en bedrijven geholpen om slimmer te werken. ICS is misschien niet het allerbekendste voorbeeld maar wel een erg fraai voorbeeld. Elke onderdeel van het proces, van nieuwe klanten binnenhalen tot klanten behouden, van acceptatie tot het stimuleren van het gebruik van creditkaarten, is onderbouwd met data mining-algoritmes. Deze vergroten de effectiviteit van de procesonderdelen enorm. Zo daalde het aantal frauduleuze transacties in een jaar tijd met maar liefst 50% en nam het gebruik van kaarten met 20% toe. Niet alleen ICS had hier belang bij, maar ook de klant. Lees hier het juryrapport dat inzage geeft in de intelligence bij ICS.

Een ander verschil is dat datamining van oudsher werkt met min of meer statische tabellen met data, terwijl process mining tegenwoordig ook in staat is om in realtime bedrijfsprocessen te monitoren. Bij data mining speelt bovendien het toeval een grote rol, terwijl je bij process mining ook een van tevoren gedefinieerd probleem kunt analyseren. Datamining zoekt nadrukkelijk naar algemene patronen, terwijl process mining zoekt naar causale verbanden. Of zoals het platform TechTarget het omschrijft: “Data mining is more concerned with the what – that is, the patterns themselves – while process mining seeks to answer the why.”

Text mining vs data mining

Het vakgebied van datamining is aanzienlijk bekender dan dat van text mining, ook wel text analytics genoemd. Met de benoeming van prof. Jan C. Scholtes, de eerste hoogleraar Textmining in Nederland, kwam hier verandering in. In zijn oratie besteedde hij onder meer aandacht aan het verschil tussen data mining en text mining.

Text mining vs data mining
Figuur 3: De verschillende stappen in het text mining proces

Data mining is volgens Scholtes het analyseren van transactiegegevens die in relationele databases zitten. Denk aan creditcardbetalingen of pintransacties. Aan dergelijke transacties kan men diverse aanvullende kenmerken meegeven: datum, locatie, leeftijd van creditcardhouder, salaris, enzovoorts. “Met behulp van de combinatie van deze gegevens kun je dan patronen in interesses of gedrag bepalen. Bij text mining gaat het om het analyseren van ongestructureerde informatie en daar relevante patronen en kenmerken uithalen. Vervolgens kan je met die patronen en kenmerken beter zoeken, dieper data analyseren en sneller inzichten krijgen die anders vaak verborgen blijven.”

Vinden zonder precies te weten wat je zoekt

Text mining is dus het vinden van verbanden, patronen en correlaties in ongestructureerde data zoals tekst. Net als bij datamining is ook hier het doel om nieuwe inzichten en kennis te vergaren. “Vinden, zonder precies te weten wat je zoekt, of vinden wat er niet lijkt te zijn”, zo vat Scholtes zijn vakgebied in zijn oratie in een notendop samen.

Eén van de eerste succesvolle commerciële toepassingen van text mining binnen het bedrijfsleven is volgens Scholtes het analyseren van garantieproblemen in de auto-industrie en de consumentenelektronica. De toepassing bestaat uit het analyseren van reparatierapporten van dealers, zodat men vroegtijdig terugkomende patronen van garantieproblemen kan ontdekken. Andere voorbeelden van toepassingen van text mining liggen op het brede terrein van:

Text mining use cases
Figuur 4: Text mining use cases in diverse sectoren

Zie ook de paragraaf hieronder waarin enkele voorbeelden en toepassingen van data mining worden beschreven. Volg ook ons jaarlijkse trendartikel over de belangrijkste ontwikkelingen op het gebied van BI, big data, data mining, machine learning en data science. Wil je serieus werk maken van data mining of tekst mining, roep dan de hulp in van de tekst en data mining experts van Passionned Group.

Business intelligence vs data mining

Hoe kun je data mining in business intelligence perspectief plaatsen? Data mining is een aparte tak van sport binnen het domein van de business intelligence manager. Hoewel de definities, het doel, de scope en de focus verschillen, werken de twee (BI manager en data scientist) idealiter als een tandem samen.

Data mining richt zich op het onderzoeken en formatteren van data, terwijl business intelligence zich focust op het interpreteren en presenteren van data om managers te ondersteunen bij hun beslissingen.

Er is nog een verschil: datamining is gefocust op het vinden van nieuwe KPI’s terwijl business intelligence juist de voortgang van bestaande KPI’s meet, monitort en visualiseert. Data mining gebruikt specifieke data sets om ongestructureerde data te onderzoeken, terwijl het aangrijpingspunt voor business intelligence de relationele databases en de daarin opgeslagen gestructureerde data zijn.

Verschil data warehouse vs data mining

Professionals die geen business intelligence achtergrond hebben of geen opleiding BI hebben gevolgd, halen soms ook nog de termen datawarehousing en data mining door elkaar, terwijl er toch een wezenlijk verschil is. Data warehousing is een proces om gestructureerde data afkomstig van een of meer bronnen op te slaan in een datawarehouse (een centrale opslagplaats). Datamining daarentegen is een proces om betekenisvolle gegevens en waardevolle zakelijke inzichten uit een database of een datawarehouse te destilleren. Met andere woorden: je kunt slechts met datamining aan de slag als er een goed geïntegreerde grote database of een datawarehouse aanwezig is.

Data mining vs data science

Mensen vragen zich soms af wat het gehalte artificial intelligence in data mining is. Het antwoord op deze vraag is nog niet zo eenvoudig te geven. Vast staat in ieder geval dat datamining gebruik maakt van al dan niet geavanceerde algoritmes die op de achtergrond patronen proberen te ontdekken. Sommige leveranciers van data mining software claimen honderden algoritmes aan het werk te hebben gezet. In die zin hebben algoritmes, data mining, machine learning, deep learning en data mining direct of indirect altijd iets met elkaar te maken. Hetzelfde geldt voor kunstmatige gecreëerde tegenstellingen als data science vs data mining en data analytics vs data mining. Er bestaan altijd wel raakvlakken.

Data mining: meer techniek dan wetenschap?

Data science is een wetenschappelijk vakgebied, terwijl data mining meer een techniek is ter ondersteuning van de business. De onderlinge verwevenheid is groot en de gelijkenissen en overeenkomsten bestaan wel degelijk, maar dit rechtvaardigt absoluut niet dat je alle termen maar door elkaar husselt, zoals je bij data mining analytics wel eens ziet gebeuren. Ben je op zoek naar duiding, vraag een inspiratie- of moderatiesessie aan bij Passionned Group of volg een van de opleidingen, zoals bijvoorbeeld de opleiding Process Mining.

Verschil big data vs data mining

Soms wordt een tegenstelling gecreëerd die helemaal geen tegenstelling is, zoals bijvoorbeeld door big data vs data mining tegenover elkaar te stellen. Dat is niet echt behulpzaam voor een beter begrip van datamining. Big data is simpelweg een grondstof voor data mining. Niets meer en niets minder.

Verschillende soorten data mining tools

Alle grote enterprise softwareleveranciers zoals SAP, Oracle en IBM, bieden verschillende data mining software tools aan, ook wel data discovery tools genoemd. Ook de in Business Intelligence gespecialiseerde softwareleveranciers bieden modulair dergelijke tools aan. Voor een actueel, vergelijkend warenonderzoek van data discovery tools en een R data mining tool raadpleeg je de Business Intelligence & Data Analytics Guide™ 2022.

Overweeg open source data mining software

Naast de Software-as-a-Service leveranciers zijn er ook diverse aanbieders van open source datamining software. Sommige leveranciers zijn met name gespecialiseerd in specifieke dataming software, zoals textmining of in bepaalde data mining technieken, zoals bijvoorbeeld classificatie, clustering, regressie, associatie, het signaleren van outliers (uitschieters) enzovoorts. Hoe dan ook, het herkennen van patronen in big data staat centraal.

Data Mining technieken
Figuur 5: Verschillende technieken die data mining tools ondersteunen

De data mining tools worden ook steeds gebruiksvriendelijker als we de leveranciers mogen geloven. Zij claimen dat gebruikers zonder enige programmeerervaring ook aansprekende resultaten kunnen boeken met data mining software. Claims als “no code” of “low code” en drag and drop-functionaliteit zouden die gebruiksvriendelijkheid onder meer bevorderen.

Sommige data mining software leveranciers zijn gespecialiseerd in een bepaalde sector, bijvoorbeeld de landbouw, industrie of het onderwijs. Specifieke marktkennis bij de softwareleverancier kan behulpzaam zijn bij het snel doorgronden van jouw bedrijfsprobleem dat je wilt gaan oplossen met een data mining tool.

Selectie data mining software: 5 tips

Aanbieders van data mining software adverteren soms met samengestelde termen als “predictive data mining software” of “data mining predictive analytics” om zo hun scope te verbreden en hun marktexposure optisch te vergroten. Het ontbreken van heldere definities in het producten- en dienstenportfolio van leveranciers maakt de markt voor data mining echter minder transparant, vertroebelt inhoudelijke discussies en verstoort een ordentelijk, objectief proces van leveranciers- en toolselectie.

Definities doen er dus wel degelijk toe. Data mining, het opsporen van patronen, is namelijk heel iets anders dan het voorspellen van patronen en processen zoals respectievelijk bij data analytics en process mining gebeurt. Data analytics is na patroonherkenning meestal de volgende stap in het proces om bedrijfsprocessen meer voorspelbaar te maken.
Heldere definities helpen om de juiste leverancier en data mining tool te selecteren waarmee je jouw specifieke bedrijfsprobleem kunt oplossen. De volgende 5 tips voor zakendoen met data mining softwareleveranciers kunnen je behoeden voor een flater of miskoop:

  1. Trap niet in de bekende verkooptrucjes. Softwareleveranciers werken vaak met verschillende basis- en premiumversies. Tekst mining is dan bijvoorbeeld alleen te gebruiken als je een premium versie aanschaft. Wees daarop bedacht.
  2. Gebruik je onderhandelingsmacht. Realiseer je dat softwareleveranciers bijna altijd bereid zijn kortingen te geven, zeker bij de aanschaf van grote aantallen licenties. Verkopers van data mining software moeten immers ook kun targets halen. Zogenoemde street prices wijken altijd af van de officiële list prices of brochureprijzen.
  3. Wees kritisch op het aantal licenties. Bedenk dat aan elke extra module, functionaliteit of feature meestal ook een prijskaartje hangt. Niet elke gebruiker van data mining software hoeft altijd over alle functionaliteiten en plug ins te beschikken. Besparen op licentiekosten is altijd een optie.
  4. Pas op voor scherpe aanbiedingen. Er is een flink aantal aanbieders op de markt die zogenaamde gratis versies van datamining software, Nederlandstalig soms, aanbieden. Hoewel dit in eerste instantie aantrekkelijk lijkt, moet je altijd bedacht zijn dat hierachter toch meestal wel abonnementsmodel schuilt gaat dat loopt via upgrading en/of premium versies.
  5. Haal het maximale uit je investering. Bedenk dat een goede documentatie van de data mining software en datamining heel belangrijk is en die ontbreekt vaak bij freeware. Maar dan nog: data mining leer je niet uit een boekje. Oefening baart kunst. Volg daarom een relevante, ondersteunende training data mining. Passionned Academy verzorgt bijvoorbeeld de training R & Data Mining, waarbij je ook zelf programmeerervaring opdoet.

Hoe verloopt het data mining proces?

Als het gaat om het inrichten van je data mining proces, data mining clustering of het maken van een data mining process diagram, kun je bijna niet om het zogenoemde CRISP-DM standaard heen. Sinds eind jaren negentig geldt dit de facto als een norm die breed is geaccepteerd voor data mining.

Het data mining proces conform CRISP-DM
Figuur 6: Het Cross-industry standard process for data mining (CRISP-DM)

Het CRISP-DM protocol is niet gebouwd op een theoretisch, academisch fundament of gebaseerd op puur technische principes, maar is geënt op de dagelijkse praktijk. De standaard is niet vanuit de ivoren toren ontwikkeld, maar beschrijft uitvoerig hoe je datamining projecten kunt uitvoeren.

Het Cross-industry standard process for data mining (CRISP-DM) beschrijft het standaardproces van data mining in de volgende zes overzichtelijke stappen.

  1. Het doorgronden van de business vraag. Tijdens deze eerste stap ga je de doelstellingen van het data mining project helder formuleren en de eisen vanuit een businessperspectief vertalen. Het resultaat is een probleemstelling en een voorlopig plan van aanpak gericht op doelrealisatie. Hier speelt de business consultant een cruciale rol.
  2. Het begrijpen van de data. De tweede stap van data mining staat in het teken van het verzamelen van de data. Je ontplooit verder activiteiten die erop gericht zijn om helemaal vertrouwd te raken met de data. Je herkent datakwaliteitsproblemen en verwerft de eerste inzichten. Je ontdekt interessante subsets van data en formuleert hypotheses over verborgen informatie.
  3. Data voorbereiding. Op basis van de eerste ruwe data werk je toe naar een definitieve dataset die als input zal dienen voor het data mining model. Je voert verschillende voorbereidende taken uit, zoals de selectie van tabellen, records en attributen, en het transformeren en opschonen van data. De taken herhaal je zo nodig in een willekeurige volgorde. Deze stap is typisch de verantwoordelijkheid van de data analist.
  4. Modelleren. In deze fase worden verschillende modelleringstechnieken geselecteerd en toegepast. Je kalibreert de parameters in de richting van optimale waarden. Doorgaans zijn er verschillende technieken voor hetzelfde data mining probleem. Sommige technieken stellen specifieke eisen aan de vorm van de data. Daarom is het vaak nodig terug te keren naar de fase 3 van datavoorbereiding. De data scientist maakt het model.
  5. Evaluatie. Er is nu een data mining model gebouwd dat vanuit het oogpunt van data-analyse van hoge kwaliteit lijkt te zijn. Het is nu zaak het model stap voor stap grondig te evalueren. Weet je zeker dat je met dit model de bedrijfsdoelen gaat realiseren of is herziening noodzakelijk? Heb je geen belangrijke zaken over het hoofd gezien? Uiteindelijk neem je een besluit over het gebruik van de dataminingresultaten.
  6. Implementatie in productie. Meestal is het de klant, en niet de data-analist, die de implementatiestappen uitvoert. Maar zelfs als de analist de implementatie toch uitvoert, is het belangrijk voor de klant om van tevoren te begrijpen welke acties hij moet uitvoeren om daadwerkelijk gebruik te kunnen maken van het gecreëerde data mining model. Afhankelijk van de vereisten kan de implementatiefase zo eenvoudig zijn als het genereren van een rapport, of zo complex als het implementeren van een herhaalbaar data mining proces in de hele organisatie.

De creatie van het model is over het algemeen niet het einde van het project. Zelfs als het doel van het model is de kennis van de data te vergroten, zul je de opgedane kennis moeten organiseren en presenteren op een manier die de klant kan gebruiken. Vaak gaat het om het toepassen van “live” modellen binnen de besluitvormingsprocessen van een organisatie, bijvoorbeeld het in real time personaliseren van webpagina’s of het herhaaldelijk scoren van marketingdatabases.

Enkele voorbeelden en toepassingen van data mining

De data mining voorbeelden of praktische use cases voor data mining liggen sinds de opkomst in de jaren negentig van de vorige eeuw bij wijze van spreken voor het oprapen. Organisaties lopen er vanwege concurrentiegevoeligheid alleen lang niet altijd mee te koop.

Enkele voorbeelden en toepassingen van data mining

Het meest aansprekende data mining voorbeeld is ongetwijfeld afkomstig uit de filmklassieker MoneyBall, waar data mining de traditionele baseballwereld op zijn kop zette. In de omvangrijke reeks artikelen en boeken over data mining zijn een aantal klassieke use cases van data mining toegepast in het bedrijfsleven en de overheid inmiddels goed gedocumenteerd.

We vatten enkele toepassingen van datamining hieronder kort samen:

Verdiep je verder in data mining

Wil je meer inzicht in de beschikbare data mining methoden, volg dan onze cursus Data Mining met R. Je krijgt tijdens deze data mining cursus dan onder meer antwoord op vragen als: wat is datamining en hoe ontdek je verborgen patronen in de data van je organisatie? Ook leer je tijdens deze cursus Data mining programmeren in R, zodat je hiermee een predictive model kan ontwikkelen. Schrijf je nu in voor onze data mining training.

Data mining consultancy

Beschik je over big data en wil je een data mining model gaan opzetten, maar weet je niet waar te beginnen, dan biedt de data mining consultancy tak van Passionned Group uitkomst. Wij kunnen op korte termijn een interim data mining expert leveren die je in elke fase van het data mining proces kan ondersteunen. Ook kunnen we een in-company cursus Datamining organiseren voor een select gezelschap van collega’s die de kar moeten gaat trekken.

Wil je ook data mining in jouw bedrijf implementeren?

Wil je meer informatie over de inzet van een of meerdere data mining consultants of onze training Data mining in R? Neem dan gerust contact op met de adviseurs en consultants van de Passionned Group. Wij helpen je graag een flinke stap verder.

Over Passionned Group

Logo Passionned Group, de specialist in Data miningDe Passionned Group is een professioneel bedrijf met als specialisatie data mining & data science. Onze consultants helpen kleinere en grotere organisaties bij de digitale transformatie naar een intelligente, datagedreven organisatie. Om het jaar reiken we de Dutch BI & Data Science Award™ uit aan de Slimste organisatie van Nederland.

neem contact met ons op