De 7 grootste valkuilen in Big Data

Foto Jack Esselink MA
Auteur: Jack Esselink MA
Senior trainer Big Data Science
Inhoudsopgave

60% van de Big Data projecten stagneert

De potentiële voordelen van Big Data zijn groot. Het kan nieuwe inzichten geven in consumentengedrag, het laat zien waar jouw organisatie efficiënter kan werken, het kan toekomstige veranderingen voorspellen en nog veel meer. Maar veel bedrijven storten zich in big data zonder voldoende voorbereid te zijn en trappen zo makkelijk in een van de vele valkuilen. Volgens onderzoek blijft ongeveer 60% van de Big Data-projecten hangen in de startfase. Hoe zorg je ervoor dat jouw organisatie niet binnen die statistisch zo grote groep valt en wél scoort met Big Data? Dit zijn de zeven meest veelvoorkomende valkuilen bij Big Data, en wij helpen je ze te ontwijken.

1. Geen duidelijke toepassing voor ogen hebben

Veel bedrijven willen meteen met Big Data Analytics aan de slag zonder een duidelijk doel voor ogen te hebben. Ze volgen de waan van de dag en gaan mee in de Big Data-hype. Maar klakkeloos data verzamelen zonder te weten wat je ermee wil doen, is een goede manier om veel geld te verspillen en niet veel verder te komen. Bedenk voordat je tijd, geld, en resources in Big Data steekt wat je wilt doen met die data. Welke beslissingen wil je sneller maken, wat wil je efficiënter kunnen doen, naar welk consumentengedrag ben je op zoek? Als je weet wat je wilt bereiken, weet je welke data je wilt vastleggen en hoe je aan de slag kan gaan met het gebruiken van deze data. Dan pas boek je zichtbare resultaten.

Zo heeft de stad Dublin bijvoorbeeld verkeersdata verzameld met als doel om verkeer en veiligheid in de stad te verbeteren. Dat deden ze door sensors op wegen en in bussen te plaatsen. En de Veiligheidsregio Noord-Holland-Noord heeft twintig minuten weten te besparen in de spoedeisende hulpverlening van hartpatiënten, waar elke seconde telt. Big Data kan dus zelfs levens redden.

2. Alleen naar jouw eigen Big Data kijken

Alleen naar jouw eigen Big Data kijkenVeel bedrijven kijken niet verder dan de data die ze zelf verzamelen, maar het analyseren van Big Data van andere bronnen kan een grote meerwaarde hebben. Data van sociale media, web-content en data providers kan het interne beeld aanvullen met nuttige data van externe bronnen, en zo nieuwe inzichten met zich meebrengen. Kijk niet alleen binnen je eigen bedrijf en industrie, maar ook daarbuiten.

Stel dat je als winkelier alleen kijkt naar de producten die je zelf verkoopt, en niet naar wat de concurrentie verkoopt, dan mis je waarschijnlijk cruciaal inzicht in consumentengedrag. Het consumentengedrag verandert sneller dan ooit, en om concurrerend te blijven zul je wendbaar moeten zijn en op veranderingen in de markt moeten kunnen anticiperen.

Naast jouw eigen data en die van andere bronnen is er ook nog de zogeheten Zero Data: de data die (nog) niet vastgelegd wordt. Soms kan het antwoord dat je zoekt liggen in een hoek waar je nog niet aan hebt gedacht. Door je blind te staren op de data die je wel hebt, mis je de kans om nieuwe data te verzamelen die het ontbrekende inzicht kan verschaffen. Het is dus een goed idee om constant op zoek te gaan naar nieuwe invalshoeken voor relevante data.

3. Niet de juiste tools gebruiken

Veel organisaties misbruiken Excel nog steeds als ‘datawarehouse‘. Hieraan gaat een hoop tijd en geld verloren, want het programma is allerminst efficiënt. De meeste spreadsheets bevatten fouten, en het kost veel tijd om die eruit te vissen. Hele meetings gaan verloren aan interpretatie van de gegevens en controle van hun juistheid, terwijl data juist dat soort problemen zou moeten voorkomen. Het gaat immers om feiten, niet om gevoelens.

Om te helpen met het kiezen van de juiste tools doet Passionned Group regelmatig onderzoek naar de beste Business Intelligence tools. Met dit 100% onafhankelijke onderzoek helpen wij organisaties om de beste keuze in BI-tools te maken voor hun doeleinden.

De Big Data Analytics opleiding Afbeelding van De Big Data Analytics opleidingOntwijk de valkuilen en maak van jouw Big Data project een succes met de Big Data Analytics opleiding. In 3 intensieve dagen maak je kennis met Big Data toepassingen, learning algoritmes, data mining, textmining, de business case, risico's, valkuilen, privacy en ethiek. Bereidt jouw organisatie voor op een datagedreven toekomst waar Big Data waarde toevoegt en innovatie aanwakkert.Volg een 3-daagse Big Data opleiding

4. Privacy- en andere regelgevingen aan je laars lappen

Het gebruik van Big Data brengt veel voordelen met zich mee, maar ook veel verleidingen. Er moet ethisch en met respect voor privacy met de data worden omgegaan, en om die reden zijn er allerlei wetten en regels verbonden aan het gebruik en de opslag van Big Data, zoals de recent ingevoerde GDPR-regels. Ga zorgvuldig om met de data en zorg dat je aan alle vereisten voldoet. Heb je wel het recht om de data te verzamelen en te gebruiken? Is de data anoniem? Mag je de data verkopen? Zorg dat je voldoet aan alle regels, zo voorkom je fouten.

Een mooi voorbeeld is Nestlé Duitsland, een onderneming die al zo zorgvuldig te werk ging dat zij de GDPR-regelgeving voor bleef. Het voedingsmiddelenconcern hoefde geen extra stappen te zetten om hun beleid te veranderen. Je hoeft niet per se alle grenzen op te zoeken. Alles wat wettelijk is toegestaan, is niet altijd wenselijk. Het betalen van hackers om een datalek van persoonsgevoelige informatie stil te houden voor de buitenwereld is zelfs pervers.

5. De confirmation bias negeren

Soms wil je tijdens een onderzoek graag je gewenste resultaat zien en kijk je alleen naar data die jouw resultaat zal ondersteunen. Dit heet “confirmation bias”, oftewel je bevoorrecht (onbewust) de data die jouw mening of resultaat ondersteunt, en sluit de rest uit. Het is beter om onderzoek uit te voeren zonder een resultaat te willen bereiken. De meeste professionele data-analyses worden gevoerd door juist een hypothese proberen te verwerpen aan de hand van een zogeheten nulhypothese, in plaats van deze te bewijzen.

Het gebruik van Big Data gaat er juist om beslissingen te maken gebaseerd op feiten en informatie, en niet op onderbuikgevoelens en meningen. Zo stuur je bewuster richting succes en wordt de organisatie intelligenter.

Bekijk alle 20 biases en verbeter decision making

6. Te kleine steekproefgrootte hanteren

Te kleine steekproefgrootte hanterenAls je een kleine steekproefgrootte aan data analyseert, loop je grote kans dat je de verkeerde conclusies zal trekken. Een kleine steekproefgrootte is vaak niet representatief voor het geheel. Het is meestal niet te zeggen of een variabele een statistische outlier is of niet, en dus of je deze uitbijter mee moet nemen in de analyse. Als je de resultaten van een kleine steekproefgrootte extrapoleert op een veel grotere dataset, is de kans groot dat de resultaten misleidend zullen zijn. Zorg dus dat je altijd genoeg data meeneemt in je analyse.

Voorbeeld: er is een parkeerterrein met vijf auto’s met vijf kleuren: blauw, rood, groen, zwart, en wit. Gebaseerd op deze informatie zou je kunnen concluderen dat elk van deze kleuren 20% kans heeft om voor te komen, en dat bijvoorbeeld paarse auto’s niet bestaan. Met een beetje gezond verstand weet je natuurlijk dat dit onzin is, maar hetzelfde principe geldt voor andere kleine datasets. Ze zijn vaak niet representatief.

7. Niet de juiste mensen in huis hebben

Je hebt de infrastructuur, je hebt de data, maar oeps, je hebt niet de juiste dataspecialisten. Als je bijvoorbeeld een data lake aanlegt, is het belangrijk om ervoor te zorgen dat je de juiste expertise in huis haalt om de data te interpreteren en te inventariseren. Daarbij is het ook van belang om er voor te zorgen dat de kwaliteit van de data gewaarborgd blijft. De juiste mensen in huis halen is daarbij van cruciaal belang.

Vooral de data scientist is een veelgevraagde functie, maar let wel op dat je zoekt naar een reëel persoon, en niet een schaap met vijf poten zoekt die in zijn of haar eentje al jouw BI-problemen komt oplossen. De truc is juist om met teams te werken die elkaar aanvullen op de nodige gebieden, en die wendbaar genoeg zijn om problemen op te lossen.