6 redenen om geen data lake aan te leggen | Opinie

6 redenen om géén data lake aan te leggen

Geschreven door

De hoeveelheid beschikbare data groeit exponentieel. Maar er zijn ook redenen om geen data lake aan te leggen.

cursus Big Data Analytics

Een meer aan data

In onze door technologie gedomineerde wereld geloven wij graag in vooruitgang. Maar soms vergeten we dat nieuw niet altijd beter is. Een goed voorbeeld hiervan is het fenomeen data lake. Letterlijk vertaalt: een meer aan data. Het is een hype in de wereld van Business Intelligence (BI) en Big Data. Veel bedrijven gingen er direct mee aan de slag. Maar was dit wel zo’n goed idee? Was het niet beter geweest eerst goed na te denken over wat je hiermee kunt bereiken?

Wat is een data lake?

Voordat we deze vragen beantwoorden, is het goed om een heldere voorstelling van een data lake te hebben. James Dixon, de grondlegger en CTO van Pentaho, vond de term uit. Hij beschrijft het als volgt:

“Als je een datamart beschouwt als een winkel vol met flesjes water – schoon, verpakt, georganiseerd en klaar voor consumptie – dan is het data lake een grote hoeveelheid water in een meer natuurlijke staat. De inhoud van dit meer komt uit diverse bronnen en vult zo het meer. Het is echter ongezuiverd water en niet verpakt. Meerdere gebruikers kunnen erin duiken, vissen, het onderzoeken en monsters meenemen.”

Datawarehouse versus data lake

Het grootste verschil tussen een datawarehouse en een data lake is dat een datawarehouse gevuld is met vooraf gestructureerde data. Een data lake is veel ruwer. Het grote voordeel van een datawarehouse is dat je door die structuur makkelijker antwoorden vindt op je BI-vragen dan bij een data lake. Maar in een data lake sla je veel complexere en of veel grotere massa’s aan data op. Die ga je vervolgens in analyses betrekken op het moment dat deze nodig zijn.

Is meer altijd beter?

Veel mensen denken dat meer altijd beter is. Veel organisaties gingen direct aan de slag met data lakes. Sommige managers zagen ze als een goede aanvulling op een datamart of hun datawarehouse. Of zelfs als vervanging. Maar er zijn 6 goede redenen om eerst goed na te denken voordat je zelf een data lake aanlegt.

1. Het meer blijft droog

Als je een meer wilt vullen, heb je miljoenen liters water nodig in plaats van een aantal flesjes. Je hebt dus vele terabytes aan data nodig en vooral ook de juiste data. Stel jezelf dus eerst de vraag of jouw organisatie wel een meer kan vullen en beheren, en met welk doel je deze big data wilt inzetten.

2. Regelgeving gooit roet in het eten

Veel data lakes worden gebruikt voor data die privacy- en regelgevingsrisico’s voor je organisatie opleveren. Organisaties verzamelen niet alleen data over medewerkers en klanten, maar ook over patiënten of cliënten. Deze data is echter niet allemaal onderworpen aan dezelfde regels. Dit klinkt heel logisch. Maar veel organisaties met een data lake weten niet altijd welke data ze allemaal verzamelen. En waar die data vandaan komt en welke verantwoordelijkheden en risico’s hieraan vastkleven.

Data stroomt in je data lake zonder duidelijk toezicht op de inhoud. Je verzamelt namelijk zo veel mogelijk. Omdat er bovendien een gebrek aan prioritering van de ruwe data is, is het nog moeilijker om aan alle wet- en regelgeving te voldoen.

3. Het meer wordt al snel een moeras

Op het moment dat je data lake zich vult, raakt het snel vervuild. Per definitie accepteert een data lake elke soort data. Met alle ruwe data die erin stroomt, is het ontzettend lastig om de datakwaliteit te bepalen, laat staan te bewaken.

Bovendien is het door de ruwe vorm bijna onmogelijk de lijn vast te stellen, en te houden, van ontdekkingen die andere analisten of gebruikers al deden met dezelfde data uit het meer. Zonder beschrijvende metadata moet elke onderzoeker telkens weer van meet af aan opnieuw beginnen. Het traceren van de juiste data is dan een ware nachtmerrie.

Als je niet een manier vindt om je data lake vanaf de start goed te onderhouden, loop je het risico dat je meer binnen de kortste keren een moeras wordt.

4. Geen vissers aanwezig

Okay, je hebt de technologie in huis voor het inrichten van een data lake. Maar heb je wel goede vissers, data scientists? Anders gezegd: beschik je wel over de juiste expertise om de data eruit te halen en effectief voor je organisatie in te zetten? Neem ook punt 2 en 3 goed in overweging. En heb je de juiste mensen om je meer in te dammen, te controleren, te zorgen dat het niet overstroomt en dat niet iedereen er zomaar “zonder visvergunning” ongecontroleerd in vist?

5. BI-tools nog niet allemaal klaar

Inmiddels heb je de vissers verzameld, maar beschikken zij wel over de juiste hengels? Nog lang niet alle BI-tools zijn namelijk zover dat ze kunnen hengelen in je data lake. En nieuwe tooling voor data lakes wijkt nogal af van hetgeen je gewend bent (en geldt punt 4). Voordat je een data lake aanlegt, moet je dus de juiste BI-hengels (en vissers) in huis hebben. Anders vis je naast het net.

6. Begin eerst klein

Heb je jouw zogenaamde “small data” al op orde en benut je die al optimaal? In plaats van direct een heel meer aan te leggen, is het voor veel organisaties beter om eerst eens te starten met flesjes mineraalwater.

Is jouw bedrijf klaar voor een data lake?

Een data lake kan een aanwinst zijn voor je organisatie. Maar start hier pas mee als alle randvoorwaarden op orde zijn. Anders word je data lake snel een moeras waar jouw organisatie hopeloos in vast komt te zitten.

Neem nu contact met ons op, dan kunnen we samen kijken of er wel een goede businesscase is voor een data lake binnen jouw organisatie.

  1. Avatar 6 redenen om géén data lake aan te leggen Gustavo Woltmann schreef:

    Bij Big Data gaat het niet altijd om meer is beter, het is veel logischer om enkel de relevante data te analyseren i.p.v. tijd en geld te verspillen aan data waar je toch niets mee bent. Zo’n data lake klinkt vrij onoverzichtelijk!

    • Avatar 6 redenen om géén data lake aan te leggen Minne van der Sluis schreef:

      Gustavo, je eerste punt is een mooie samenvatting van de portee van het verhaal 😉

      De overzichtelijkheid en bruikbaarheid van een data lake staat of valt in mijn ogen met goede metadata. Welke data hebben we wanneer, waarvandaan en met welke redenen in het ‘meer’ laten stromen. En welke inzichten zijn hiermee door wie en op welke wijze verkregen.

      Een data lake kan naar mijn mening echter wel heel zinvol zijn, zeker in de Big Data arena! Want hoe als organisatie nu goed en beheersbaar om te gaan met heel veel, veelvormige, snelstromende, soms vluchtige en wisselend betrouwbare, maar wel heel relevante, data? Die krijg je met geen mogelijkheid tijdig, volledig en schoon je data warehouse in… Dan is een data lake toch een uitkomst. Ook als je een traject loopt waarvan je weet dat er naar verloop van tijd een informatiebehoefte zal ontstaan, waarvoor je nu reeds de (big) data-vergaring aan moet zetten.
      Maar ook dan moet duidelijk zijn: het is ‘slechts’ een middel, geen doel!

  2. Avatar 6 redenen om géén data lake aan te leggen Erik Borgers schreef:

    Goed verhaal! Zonder de goeie tools staat het water je snel tot de lippen!

Reageer ook op dit artikel van Dick Pouw

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Een selectie van onze klanten

Word nu ook klant

Wil je ook klant bij ons worden? Wij helpen je maar wat graag verder met 6 redenen om geen data lake aan te leggen (opinie) of andere zaken waar je slimmer van wordt.

Daan van Beek, Managing Director

DAAN VAN BEEK MSc

Managing Director

neem contact met mij op

Fact sheet

Organisaties geholpen
16191
Trainingen & workshops
16192
Deelnemers opgeleid
16193
Beoordeling klanten
8,9
Consultants & docenten
16194
Kantoren
3
Jaar ervaring
14