Intelligent forecasten

Foto Herman van Dellen MSc
Auteur: Herman van Dellen MSc
Data Science Consultant
Inhoudsopgave

Hoe integreer je data science in je organisatie?

Forecasting, het zo nauwkeurig mogelijk voorspellen van de toekomstige vraag en de te realiseren omzet, (productie)capaciteit, doorloop- en levertijden is crucialer dan ooit. Of het nu gaat om de bezettingsgraad van een machine in een vleesfabriek, de IC-capaciteit in een ziekenhuis, de levering van vaccins of de bemensing van een callcenter, betrouwbare voorspellingen zijn goud waard. Organisaties die tegelijkertijd ook in staat zijn de churn, de affiniteiten van klanten en het verloop van personeel te voorspellen via predictive modelling hebben een streepje voor. Leer in 5 stappen hoe je dergelijke voorspellingsmodellen integreert in je organisatie en behaal een maximaal rendement.

Specialistische kennis en tools nodig

De specialistische kennis en tools die nodig zijn voor forecasting en predictive analytics en modelling kunnen ertoe leiden dat deze belangrijke bedrijfsfuncties enigszins geïsoleerd raken van de rest van de organisatie. Silovorming is binnen elke organisatie een reëel risico bij het implementeren van data science toepassingen, maar wel een risico waarop je kunt anticiperen. Want als je forecasting intelligenter − meer integraal − gaat inrichten, kan je het concept veel breder en effectiever inzetten.

Hoe je data science stapsgewijs het beste kunt integreren in je organisatie zullen we in deze blog kort toelichten. Dit doen we aan de hand van enkele concrete voorbeelden die erop gericht zijn om de integratie te vergroten.

Integratie verloopt moeizaam

Integratie van data science in organisaties verloopt in de praktijk nog altijd moeizaam. In een onderzoeksrapport van Forrester (Unlock The Power Of Data To Transform Your Business, 2018) wordt gebrek aan integratie met datamanagementplatforms als een van de belangrijkste uitdagingen voor organisaties genoemd.

In het onlangs gepubliceerde Data-Driven Marketing Onderzoek 2021 inventariseert de DDMA de stand van zaken op het gebied van datagedreven marketing. Een paar conclusies: predictive en prescriptive analytics blijven sterk achter. Het realiseren van een datagedreven cultuur wordt door de ondervraagde respondenten genoemd als een van de grootste uitdagingen in de dagelijkse praktijk.

Investeer in de toegankelijkheid van data

Laten we eerst een belangrijk misverstand uit de weg ruimen. Een organisatie die heel veel data heeft is daarmee nog niet datagedreven. De bovengenoemde technische integratie en de integratie in de bedrijfscultuur vereisen dat de data:

  1. Organisatiebreed beschikbaar is en laagdrempelig toegankelijk is.
  2. Door de hele organisatie wordt gebruikt voor het ondersteunen van alle bedrijfsprocessen

Dit lijkt een open deur, maar in de praktijk is de toegankelijkheid van data vaak beperkt. Data lijkt bij uitstek het domein van de IT-afdeling en de data scientists en daardoor blijft dus ook de organisatiebrede integratie van data beperkt of achterwege.

Praktijkvoorbeeld

In deze blog zoomen we in op de technische en bedrijfsculturele aspecten van integratie.

We doen dit aan de hand van een forecasting praktijkvoorbeeld. Hierbij gaan we uit van R / Shiny als data science platform, maar dit kan natuurlijk ook bijvoorbeeld Python zijn. Beide programmeertalen en omgevingen zijn uitstekend te koppelen aan de database-infrastructuur in je organisatie.
Leer forecasting met de opleiding R & data mining Afbeelding van Leer forecasting met de opleiding R & data miningDe cursus R & data mining maakt je wegwijs in het specialistische vakgebied Data Science en de programmeertaal R. Na afloop van deze training Data Mining & R ben je in staat om zelf te programmeren in R en algoritmes te ontwikkelen en heb je een goed begrip van de mogelijkheden om data mining binnen de eigen organisatie toe te passen.bekijk de training R & data mining

Stap 1: Focus op data-integratie

De eerste stap naar intelligent forecasting richt zich op data-integratie. Data silo’s en data scientist silo’s belemmeren de groei naar de intelligente, datagedreven organisatie. R scripts of Python notebooks op een laptop kunnen nuttig zijn voor educatie en prototyping, maar leveren geen duurzame bijdrage aan technische integratie en een datagedreven bedrijfscultuur.

Lokale bestanden en Excel-sheets belemmeren een organisatiebrede blik op de data en kunnen leiden tot onduidelijkheden en zelfs security- en/of privacy-risico’s. Het opslaan van alle bronnen van het forecasting-proces, inclusief alle resultaten daarvan, in een (relationele) database is relatief eenvoudig te realiseren. Het levert grote winst op: één versie van de data wordt zo toegankelijk voor de hele organisatie.

Stap 2: Sla de metadata op in een centrale database

De tweede stap staat in het teken van metadatamanagement en -integratie. Forecasting modellen en processen worden gekenmerkt door veel metadata: data (of informatie) over data. Enkele voorbeelden:

  • Welke inputdata werd gebruikt voor een specifiek model?
  • Welke forecast parameters werden gebruikt?
  • Welk model en welke versie van het model werden gebruikt?
  • Wanneer is de forecast gemaakt?
  • Waar staan de forecast-resultaten?
  • Enzovoorts

Deze informatie is nodig voor:

  • Een goede interpretatie van de uitkomsten (ook van forecast runs in het verleden).
  • Het evalueren van de resultaten.
  • Het continu verbeteren van het proces.

Net als in stap 1 is ook hier opslag in een centrale database een must.

Metadata is niet alleen read-only informatie. Voor het forecastingproces is het ook handig om zoveel mogelijk model-parameters uit een R-script te halen en in een database op te slaan. Aan de hand van stappen 3 en 4 zullen we laten zien dat het proces hierdoor heel flexibel wordt en dat gebruikers in de organisatie zonder R- of Python-kennis de inputparameters kunnen variëren en modellen kunnen gebruiken.

Stap 3: Verfijn de forecast-modellen en investeer in versiebeheer

Deze stap beschrijft globaal het proces van coderen naar genereren. Tijdens het ontwerp- en ontwikkelproces van forecastmodellen zullen er vele versies van een model worden gemaakt. Uiteraard is een model nooit “af” en zullen er altijd nieuwe versies volgen. Met een goed metadata managementsysteem (stap 2) kan er steeds een goed overzicht worden verkregen van de status en functionaliteit van de vele modellen en dat lost één probleem op: “het gebrek aan overzicht”.

Maar ook bij het toepassen van modellen zullen er vele versies in omloop zijn, afhankelijk van de combinatie van inputparameters en parameterwaarden. Grote aantallen forecastmodellen en verschillende versies hiervan op verschillende laptops leiden tot een ongezonde situatie waarin geen professioneel versiebeheer meer mogelijk is. Bij het evalueren van forecastresultaten moeten we ervan uit kunnen gaan dat iedereen die een bepaald model gebruikt exact dezelfde code gebruikt.

Een model dat bijvoorbeeld is gebouwd voor het voorspellen van de IC-capaciteit bestaat uit het forecastmodel zelf (bijvoorbeeld R of Python code) en parameters (bijvoorbeeld ziekenhuizen 3,7 en 8, scenario 8). We kunnen deze parameters loskoppelen van het model en opslaan in een database als parameter set (of versie). Bij het uitvoeren kiezen we dan een model en een parameter set, waarna de forecastresultaten inclusief metadata (zoals modelnaam en parameter set) naar de database wordt geschreven. Zo voorkomen we wildgroei van modellen en weten we van alle forecastresultaten welk model en parameters gebruikt zijn.

Stap 4: Zorg voor integratie van het data science team

Tijdens deze stap vindt de daadwerkelijke data science-integratie in de organisatie plaats. Door alle specialistische kennis te concentreren in een data science team, ligt het gevaar van silovorming op de loer. In zo’n silo worden nuttige experimenten gedaan in R of Python notebooks, maar zonder hechte ICT-integratie (systemen, databases, applicaties) en organisatie-integratie, benut je de fantastische kansen van data science voor je organisatie niet optimaal.

In zijn blogserie “A Data Science Maturity Model for Enterprise Assessment” classificeert Mark Hornick zo’n organisatie terecht als “data science maturity level 1”. Zogenoemde Capability Maturity Modellen (CMM)-modellen werken meestal met 5 verschillende volwassenheidsniveaus, van 1 (onvolwassen) tot 5 (een volwassen, lerende organisatie). Om het volgende niveau te kunnen bereiken, moet er worden samengewerkt tussen business en IT en moeten data scientists de organisatie goed kennen. Bovendien dient er gewerkt te worden met databases en moeten modellen breed en geautomatiseerd worden ingezet in de organisatie.

Leer forecastmodellen ontwerpen tijdens de Python cursus Machine Learning Afbeelding van Leer forecastmodellen ontwerpen tijdens de Python cursus Machine LearningDeze training speelt in op de groeiende behoefte bij (business) analisten, aankomend data scientists en andere professionals om te gaan experimenteren met Artificial Intelligence (AI), data science, machine learning (ML), algoritmes en alles wat daarmee samenhangt. Na deze cursus weet je welke bedrijfsproblemen je met Python kunt oplossen.bekijk de Python cursus Machine Learning

Functiescheiding is een cruciaal element bij het hele integratieproces. Een te grote afhankelijkheid van data scientists bij het toepassen van forecastmodellen is niet wenselijk. Data scientists moeten primair verantwoordelijk zijn voor het maken van modellen. Dat betekent echter niet dat alleen zij de modellen gebruiken. Zoals eerder opgemerkt, is het wenselijk dat medewerkers buiten het data science team zelf aan de knoppen kunnen draaien en modelparameters kunnen evalueren en/of aanpassen (Check & Act). Alleen zo kan de organisatie continu verbeteren.

Data scientists zijn primair verantwoordelijk voor het maken van modellen en niet voor het toepassen van de modellen

Mits goed opgezet (zie de stappen 1, 2 en 3) en met een goede user interface (bijvoorbeeld Shiny voor R-modellen) kunnen gebruikers modellen uitvoeren zonder R-kennis. Zo’n opzet kan het bereik van data science toepassingen in je organisatie enorm vergroten en tevens een bijdrage leveren aan het verhogen van een datagedreven bedrijfscultuur.

Stap 5: Neem data science op in de PDCA-cyclus voor continu verbeteren

Het uiteindelijke doel is een lerende, continu verbeterende organisatie. Met de opzet zoals beschreven in stap 1 tot en met 4 kunnen we data science opnemen in de PDCA-cyclus en vindt zo integratie plaats. We kunnen op deze manier:

  1. Forecasts maken.
  2. De forecasts in de toekomst vergelijken met de actuals.
  3. De kwaliteit van modellen en inputparameters evalueren.
  4. Modellen en inputparameters aanpassen.
  5. Een nieuwe cyclus starten.

Conclusie

Door de hierboven beschreven database-integratie in vijf stappen door te voeren is het bijhouden van een dashboard (evaluatie van de modellen) heel eenvoudig geworden: alle input- en outputdata en metadata zijn beschikbaar in de database. Door het loskoppelen van modellen en modelparameters, gecombineerd met een goede user interface, komen data science toepassingen nu binnen het bereik van veel “business users” en kunnen data scientists in de organisatie zich focussen op hun kerntaak: het maken van nieuwe modellen.