Wat is een clusteranalyse: betekenis, drie manieren van clusteren, validatie en beperkingen

Foto Daan van Beek MSc
Auteur: Daan van Beek MSc
Managing Director
Inhoudsopgave

Te pas en te onpas gebruikt: clusteranalyse

Clusteren is een typisch modewoord. We gebruiken de term te pas en te onpas. Wie zijn oor te luisteren legt, krijgt de indruk dat iedere manager tegenwoordig aan het clusteren is. Je telt pas mee als je de baas mag spelen over een of meerdere clusters. Elke onderneming, hoe klein ook, is opgebouwd uit meerdere clusters. Hetzelfde geldt voor scholen. Data wordt opgeslagen in verschillende clusters van een harde schijf. Ook kan een cluster verwijzen naar een groep computers die samenwerkt en een vergelijkbare functie vervullen. Statistici op hun beurt spreken over de charme van clusteranalyses. De spraakverwarring lijkt compleet.

6 verschillende betekenissen van een cluster

Uit het voorgaande kun je slechts afleiden dat de term clusteren en het woord clusteranalyse veel verschillende betekenissen hebben, afhankelijk van het vakgebied. Dit zijn zes verschillende betekenissen van het begrip cluster:

  • Sterrenkunde: een groep sterren of sterrenstelsels die bij elkaar horen en onder invloed zijn van elkaars zwaartekracht.
  • Bedrijfskunde: een groep afdelingen met eenzelfde bedrijfskundige achtergrond of functie.
  • Onderwijskunde: een groep leerlingen die gelijktijdig en gezamenlijk een bepaald vak volgen.
  • Wiskunde: een verzameling elementen die een of meer eigenschappen gemeenschappelijk hebben.
  • Organisatiekunde: bedrijfsonderdelen die bepaalde activiteiten op een verschillende (aardrijkskundige) locaties uitoefenen.
  • Informatica: een verzameling gegevens die volgens een ontwerper op een of andere manier bij elkaar horen.

Dit betekent ook dat je de term clusteren op veel verschillende manieren kan gebruiken. En dat er veel bewerkingen zijn die op een of andere manier wel voldoen. Toch hebben al deze betekenissen als gemeenschappelijke noemer dat je een verdeling in verschillende groepen kan maken.

Opleiding Master of Data Science

Echt bedreven worden in machine learning, clusteranalyses en datagedreven werken? En begrijpen wat de valkuilen zijn van machine learning? Dan is onze meerdaagse training Data Science absoluut aan te raden. Zet de juiste stappen in data science en maak de mooiste en betrouwbaarste clusters.

naar de training

Het probleem van clusteren

Clusteren is eenvoudig te beschrijven en daardoor een lastig probleem. De betekenis van clusteren is snel gegeven: “Clusteren is het samenbrengen in groepen.” Door de eenvoud van deze definitie kan er op een groot aantal manieren aan voldaan worden. Zo wordt er niets gezegd over de manier waarop de groepen samengebracht worden. Evenmin of de groepen een gemeenschappelijke eigenschap hebben. Wordt cluster gezien als de oorspronkelijke Engelse term, dan biedt de vertaling naar het Nederlands mogelijk aangrijpingspunten. Clusteranalyse: [1] een compacte groep vormen en [2] samen groeien.

Met deze vertaling uit het Engels is het probleem iets duidelijker. Clusteranalyse betekent zo veel als elementen in een compacte groep samenbrengen. Deze definitie geeft echter niet aan op grond waarvan deze groepen gemaakt worden en hoe compact ‘compact’ is. Er is dus behoorlijk veel ruimte binnen de definitie van clusteren. En daarmee behoorlijk veel ruimte ten aanzien van het resultaat. Daarom geven we hier een strakkere definitie van de term clusteren die redelijk bruikbaar is binnen de ICT en het verwerken van Big Data:

Clusteranalyse: samenbrengen in compacte groepen op grond van één of meer kenmerken.

De vraag is nu wel in hoeverre de bovenstaande definitie een bruikbare oplossing levert voor het indelen van (zeer) grote hoeveelheden informatie. En vervolgens is het de vraag of het maken van een indeling ook op doeltreffende wijze kan plaatsvinden. Het is uiteindelijk de bedoeling dat er na de clusteranalyse van een verzameling informatie een aantal deelverzamelingen overblijft die onderling minder verschil vertonen dan de oorspronkelijke verzameling.
Het Big Data boek 'De intelligente, datagedreven organisatie' Afbeelding van Het Big Data boek 'De intelligente, datagedreven organisatie'Clusteranalyses en andere data science-technieken zijn essentieel in de informatievoorziening van je organisatie. Leer in dit handboek (een compleet recept voor datagedreven werken in 10 stappen) hoe je deze technieken kunt toepassen om jouw organisatie intelligenter te maken. De auteur van deze bestseller laat onder andere zien hoe je algoritmes kun inzetten voor het classificeren, voorspellen, clusteren of het maken van associaties. Bezorg de juiste informatie, in de juiste vorm op het juiste tijdstip bij de juiste persoon.het Big Data boek 'De intelligente, datagedreven organisatie'

Homogeniteit en clusteren

Anders gezegd, de clusters zijn homogener dan de verzameling waaruit ze geselecteerd zijn. Dit houdt in dat je elke clustering kan laten volgen door een validatie op de homogeniteit van de verschillende clusters in vergelijking tot de oorspronkelijke gegevens.

De oplossingen om clusteranalyses uit te voeren

De oorsprong van clusteren is te vinden in de antropologie. In 1911 introduceerde de Pool Jan Czekanowski deze term in zijn werk over de verdeling en herkomst van Europese volkeren. Enige jaren later (vanaf 1938) dook deze techniek op in het vakgebied van de psychologie, dankzij het werk van Zubin en in het bijzonder Robert Tryon. Deze laatstgenoemde wetenschapper gebruikte clustering in zijn onderzoek naar eventuele erfelijkheid van intelligentie bij ratten (Tryon’s Rat Experiment).

Drie manieren van clusteren

Dit betekent dat clusteranalyse feitelijk een techniek is om gegevens (informatie) in te delen. In die zin is het geen specifiek algoritme. Dit betekent niet dat er geen algoritmes zijn die de clusteranalyse kunnen uitvoeren en die de homogeniteit van de clusters (en de oorspronkelijke verzameling informatie) kunnen bepalen. Feitelijk bestaan er zoveel manieren om een clusteranalyse uit te voeren, dat we slechts een beperkt aantal hier kunnen bespreken.

1. De hiërarchische clusteranalyse

Hiërarchisch clusteren is een manier om informatie in te delen in een aantal onderling gerelateerde groepen. Deze groepen ontstaan door elementen bij elkaar te plaatsen op basis van een of andere afstandsfunctie. Komt de onderlinge afstand tussen een element en het midden van zijn cluster onder een bepaalde waarde, dan reken je dat element tot dat cluster.

Gecombineerde clusters

Nadat je de verschillende clusters hebt bepaald, is het ook mogelijk om deze clusters te combineren tot gecombineerde clusters. Daarbij ga je opnieuw op basis van een onderlinge afstand te werk. Op deze manier bouw je een boomstructuur, een dendrogram op die de onderlinge relaties aangeeft tussen de verschillende clusters. Het is bij deze methodiek aan de gebruiker om te bepalen welk niveau van clustering noodzakelijk of gewenst is.

Boomstructuur maar dan anders

Hiërarchisch clusteren levert slechts een boomstructuur af waarin je het gewenste niveau kiest. Dit betekent dat deze manier van clusteren geen uniek resultaat oplevert. Het geeft alleen maar een serie mogelijkheden waaruit je kan kiezen, afhankelijk van de omstandigheden.

2. De puntsgewijze clusteranalyse

Bij puntsgewijs clusteren ga je vooraf bepalen op welke eigenschappen de clustering plaatsvindt en hoeveel clusters nodig zijn. Vervolgens ga je de grootte en de plaats van de verschillende clusters bepalen door steeds de gemiddelde afstand tussen de punten van een cluster en het geschatte clustermidden te berekenen. Deze ga je vervolgens minimaliseren.

Een vaste procedure

Een veelgebruikte methode voor puntsgewijs clusteren is de k-means clustering methode. Daarbij ga je aan het begin van het proces kiezen voor k clusters. Vervolgens doorloop je volgens een vaste procedure een aantal stappen:

  1. Kies willekeurig k elementen in de verzameling die dienen als startpunt voor de nieuw te vormen clusters. Deze punten noemen we ook wel de vectoren en de zwaartepunten. Respectievelijk omdat ze gelijktijdig verschillende eigenschappen aangeven en omdat ze midden in een cluster behoren te liggen.
  2. Bepaal nu eerst de grenzen van de clusters rondom de verschillende vectoren. Nu is het vrijwel zeker dat de gekozen vectoren niet naar het echte zwaartepunt, het midden van een cluster, wijzen.
  3. Bereken daarna voor alle punten in elk cluster de afstand tot het bijbehorende zwaartepunt. Hieruit ga je een nieuw zwaartepunt berekenen op basis van de positie van het oude punt en de berekende (gemiddelde) afstand.
  4. Is de berekende afstand uit stap 3 beneden een drempelwaarde, dan is de definitieve indeling bereikt. Is dit niet het geval, dan herhaal je het proces vanaf stap 2.

Merk op dat het begrip afstand hier op verschillende manieren gedefinieerd kan zijn. Eén van die definities is de ‘normale’ Euclidische afstand. Die laat zich vertalen als de afstand die je met een meetlat kan opmeten.

Trager maar betrouwbaarder

Omdat de keuze van de vectoren (de beginpunten) van invloed is op de clustering is het noodzakelijk om deze methode verscheidene keren te gebruiken met verschillende vectoren. Dit laatste maakt de methode wel trager, maar de winst is een beter en betrouwbaarder antwoord. Vergeleken met hiërarchisch clusteren is de invloed van de gebruiker hier bescheidener. De gebruiker kiest alleen het aantal k clusters.

De training R & data mining Afbeelding van De training R & data miningTijdens deze training maak je in 3 intensieve dagen kennis met het vakgebied Predictive Analytics, data mining & text mining. Algoritmes kunnen verbanden (kennis van zaken) blootleggen waarvan je het bestaan nog niet wist. Ze kunnen data classificeren, routes optimaliseren en datapunten clusteren en die kennis openbaar maken. Ook actuele thema's als Big Data, privacy en ethiek komen aan bod, maar je leert vooral programmeren in R & WEKA. de training R & data mining

3. Dichtheidsgewijs clusteren

Een andere methode voor het bepalen van clusters maakt gebruik van de dichtheid van geschikte elementen binnen een verzameling. Dit betekent dat wanneer er veel geschikte elementen dicht bij elkaar liggen de dichtheid hoog is. Die elementen reken je tot een bepaald cluster. De dichtheid van de geschikte elementen voor een bepaalde deelverzameling van de informatie volgt uit een formule. Ligt de berekende waarde van de dichtheid p onder een drempelwaarde drp dan kun je aannemen dat er in de betreffende deelverzameling te weinig geschikte elementen zitten.

Geen garanties op voorhand

Dit betekent dat de betreffende deelverzameling geen onderdeel is van het gewenste cluster. Voorwaarde voor gebruik van deze methodiek is dat de onderzochte hoeveelheid informatie ook duidelijke verschillen in dichtheid kent. Dit laatste is niet altijd het geval en kan zeker niet op voorhand gegarandeerd worden.

Validatie van de clusteranalyse

Is eenmaal met een bepaalde methodiek een zekere clustering gevonden, dan doemt het probleem van validatie op. Je stelt de vraag in hoeverre de gevonden clusteranalyse correct is. Met andere woorden, bestaat er een onafhankelijke methode om de kwaliteit van een clustering te kwantificeren. Het antwoord op die vraag is helaas niet eenduidig en afdoende. In principe zijn er twee manieren om een zekere clustering te valideren:

  • Interne validatie: hierbij ga je de uitkomst van de clustering kwantitatief vergelijken met alternatieve predictive analytics methodes. Deze aanpak is niet zonder nadelen. Het succes van een methode hangt ook af van de manier waarop de verzameling informatie is samengesteld. Dat twee of meer methoden convergeren naar één oplossing is geen garantie dat dit ook de beste oplossing is.
  • Externe validatie: hierbij ga je de methode testen op een speciaal samengestelde verzameling informatie waarvan de uitkomst door een (menselijke) specialist vooraf is bepaald. Ook deze aanpak kent nadelen. Door de manier waarop de testverzameling is samengesteld worden bepaalde methodes bevoordeeld, dan wel benadeeld. De oplossing van de specialist is niet per definitie de beste oplossing voor de gegeven verzameling informatie. Dit betekent dat validatie bij clustering niet verder gaat dan laten zien dat de ene methode voor een bepaalde verzameling informatie beter of slechter is dan een andere. Echter zonder dat er een absolute waarde aan gegeven kan worden.

De beperkingen van clusteranalyses

De grootste beperking van de clusteranalyse ligt in de uitgebreidheid van het begrip clusteren. Door deze uitgebreidheid zijn er veel verschillende technieken die allemaal op een of andere manier een ‘verdeling in groepen’ tot gevolg hebben. Een gevolg hiervan is dat er een zekere segregatie van een verzameling optreedt die mogelijk helemaal kunstmatig is. Zo wordt bij veel maatschappelijke vraagstukken een clustering van de bevolking gemaakt op leeftijd, geslacht of culturele achtergrond.

Is het gekozen cluster relevant?

In veel gevallen vraagt niemand zich af in hoeverre de gekozen clustering relevant is gegeven de vraagstelling. Hiermee komt meteen een tweede beperking van clustering naar voren. Het is nauwelijks mogelijk om vooraf te testen in hoeverre de gekozen clustering relevant en betrouwbaar is. Anders gezegd: wordt de verdeling over verschillende groepen gedaan op gronden die handig en logisch zijn? Meestal kun je deze vraag pas achteraf beantwoorden en dan in het gunstigste geval ook nog maar gedeeltelijk.

Beperkte validatiemogelijkheden

Een andere beperking van clusteren is dat het maar zeer beperkt gevalideerd kan worden. Dit betekent dat je de betrouwbaarheid van een clustering niet of in zeer beperkte mate kan bepalen.

Vooral geschikt voor nieuw onderzoek

Aan de andere kant kunnen we stellen dat als je de beperkingen van clusteren onderkent, het een zeer bruikbare methode is om inzicht te krijgen in de eigenschappen van de elementen in een (grote) verzameling informatie. Dit geldt in het bijzonder voor het initiële onderzoek naar een nieuwe onbekende verzameling. Voor een meer gedegen en grondige analyse zijn echter andere technieken beschikbaar zoals de beslisboom en het neuraal netwerk. Veel van deze technieken laten zich wel onafhankelijk valideren. Of ze laten een kwaliteitscontrole toe op hun resultaten. Juist bij onderzoeken waarbij je kritische informatie gaat gebruiken is een dergelijke aanpak te prefereren.

Maak kennis met onze specialisten in clusteren?

Onze consultants en experts laten je graag kennismaken met onze visie op data analytics, oplossingen voor machine learning en clusteranalyses. Maak hier een afspraak voor de mogelijkheden en kansen van clusteren.

Over Passionned Group

Logo Passionned Group, de specialist in ClusteranalyseDe data science experts van Passionned Group helpen je graag om je clusteranalyse vorm te geven en te valideren. Waar nodig zoeken we naar alternatieven. Ons doel is om jouw organisatie intelligenter en meer datagedreven te laten werken.

neem contact met ons op