Data integratie de nieuwe ETL? | 100% onafhankelijk onderzoek

Wordt data integratie de nieuwe ETL?

Geschreven door

Passionned Group is dé specialist in datagedreven werken. Onze bevlogen en ervaren consultants helpen grotere en kleinere organisaties bij de kanteling naar een intelligente, datagedreven organisatie. Om het jaar organiseren wij de prestigieuze prijs voor de Slimste organisatie van Nederland.

Verschil elk jaar groter

Het verschil tussen wat enerzijds ETL leveranciers bedenken en anderzijds gebruikers willen, lijkt elk jaar groter te worden. Het begint al bij de naam. Gebruikers praten nog steeds over ETL (Extract, Transform en Load), terwijl leveranciers dit een gepasseerd station vinden. Zij praten over data integratie, iets wat breder is dan de oorspronkelijke ETL, maar dezelfde problematiek beschrijft.

ETL of data integratie?

Wanneer we ervan uit gaan dat Google statistieken een indicatie geven van waar men in geïnteresseerd is, zien wij dat wereldwijd 240.000 mensen per maand (in Nederland: 2.400) op “ETL“ zoeken. De zoekterm “data integration” wordt “slechts” door 74.000 mensen (in Nederland: 720) ingetikt. Op de eerste Google pagina van “data integration” vinden wij bijna uitsluitend informatie van leveranciers. De eerste “ETL” pagina bevat heel veel (neutrale) informatie over het onderwerp zelf en is bijna vrij van leveranciers. Goede positionering van de producten blijft, zoals blijkt uit bovenstaand voorbeeld, een probleem.

Data Integratie & ETL

Toekomst producten

Door overnames in de afgelopen jaren biedt een aantal van de grote leveranciers (IBM, Oracle) meerdere producten aan die min of meer hetzelfde lijken te doen. Die bedrijven die deze producten willen rationaliseren, zullen zich gaan afvragen welk product in de toekomst blijft bestaan. En nog belangrijker welk product niet. Daarnaast zijn de open source producten sterk in opkomst. Twee jaar geleden waren deze nauwelijks meer dan een stuk hobbyisme. Maar nu praten wij over producten die qua functionaliteit goed te vergelijken zijn met de marktleiders.

De rol van de producten

De rol van de producten is in de loop van de tijd ook veranderd. Vier of vijf jaar geleden waren er twee mogelijkheden voor een ETL tool, te weten:

  1. Het werd gebruikt om periodiek gegevens over te brengen van één of meer bronsystemen naar een datawarehouse. Tijdens dit proces werden de gegevens enigszins schoongemaakt, ontdubbeld en voor zover mogelijk gevalideerd.
  2. Het werd ingezet bij het migreren van data. Eenmalig werden de brongegevens van het oude systeem met veel pijn en moeite overgeladen in het nieuwe systeem. Vaak ging het hier om een zelfgebouwd systeem dat vervangen werd door een nieuw aangekocht ERP systeem. Een proces dat zo moeilijk kon zijn dat veel bedrijven besloten helemaal geen historie mee te nemen.

Dit waren hele lange procedures, die vaak ‘s nachts draaien, of als het te veel was zelfs in het weekend. Vaak ging het fout en moest je het de volgende dag of weekend opnieuw gaan proberen. Bovengenoemde problemen bestaan nog. Het datawarehouse wordt tegenwoordig wat vaker up-to-date gehouden en soms wordt dat op een wat slimmere manier gedaan. Dit is wat ETL & data integratie tools altijd gedaan hebben en waarschijnlijk ook altijd zullen blijven doen.

Het saaie imago van ETL

Om van dit nogal saaie imago af te komen hebben de leveranciers “data integratie” uitgevonden. Volgens de cijfers van Google hebben ze dat echter nog niet goed in de markt weten te zetten. Data integratie is geen tool maar een architectuur. Het is een fundament dat je nodig hebt voor het bereiken van de heilige graal: een bron van de waarheid.

Data integratie kan ervoor zorgen dat er bedrijfsbreed voor ieder data element maar één definitie is. Geen discussies meer over wat bijvoorbeeld een klant is: ergens in je geïntegreerde omgeving staat het eenduidig gedefinieerd. Data integratie is een droom en dromen mag natuurlijk. Maar dromen kunnen ook nachtmerries worden.

Vaak weten we niet goed wat voor data we in huis hebben. Pas op het moment dat we gaan proberen om gegevens aan elkaar te koppelen, komen we erachter dat het anders ligt dan we altijd hadden gedacht. Op zich een probleem dat wel degelijk aangepakt moet worden, maar het schopt de gemaakte planning door de war.

Data Integratie volgens SAP BusinessObjects

Verbeteringen in data integratie producten

Ten opzichte van de traditionele ETL producten zijn er een aantal belangrijke verbeteringen in de data integratie producten. De belangrijkste gebieden waar de leveranciers aandacht aan hebben besteed zijn:

  1. Realtime toegang tot databronnen
  2. Datakwaliteit, afkomst van de data (lineage) en dataprofielen
  3. Cloud computing en SaaS
  4. Master Data Management (MDM)

Essentieel verschil tussen ETL en Data Integratie

Een essentieel verschil tussen traditioneel ETL en data integratie is de mogelijkheid om de realtime transacties af te kunnen tappen en deze gegevens meteen te laden in je datawarehouse. Niet met een separaat product, met eigen metadata en een eigen gebruikersinterface, maar met één geïntegreerd product.

In het verleden zijn vele datawarehouse initiatieven mislukt omdat de informatie die eruit kwam niet actueel genoeg was. En dus daarmee ook niet interessant. Het is moeilijk om de dagplanning van een fabriek te maken als je niet weet hoeveel van het personeel zich ziek c.q. beter heeft gemeld. Als de informatie pas morgen in het datawarehouse komt, kan je nu geen beslissingen nemen omtrent de productiecapaciteit.

Niet alle informatie hoeft natuurlijk binnen vijf minuten beschikbaar te zijn, maar bepaalde beslissingen kunnen alleen worden genomen op basis van gegevens die wel volledig up-to-date zijn. En dat is een groot voordeel van data integratie ten opzichte van het oude ETL.

Complexiteit van het ETL proces

Het ETL proces is al jaren onderschat qua complexiteit en dus ook qua kosten. Het lezen van oude “legacy” bestanden waarvan zowel de inrichting als de inhoud onduidelijk is, behoort tot de categorie “uitdaging” als je van Amerikaanse komaf bent. Een Nederlander die van klare taal houdt noemt het meestal wat het is: een probleem.

Er is een aantal problemen. Het belangrijkste probleem is waarschijnlijk metadata. Dat wil zeggen. wat is de inhoud van een data element en waar komt het vandaan. Het komt voor dat je in een bestand “omzet” ziet en in een ander bestand “revenue”. Die ga je netjes bij elkaar optellen om te komen tot een nieuw data element die we “totaal omzet” noemen. Het probleem is echter dat de omzet vermeld wordt in euro’s en revenue in dollars. Totaal omzet is daardoor een veld geworden waarvan de inhoud geen informatie geeft om beslissingen te ondersteunen.

Na veel slechte ervaringen op dit gebied zijn de meeste ETL tools inmiddels voorzien van uitgebreide mogelijkheden om de kwaliteit van de data te controleren. Ook kun je de herkomst registreren en middels profiling vreemde data signaleren en eventuele verbeteringen aanbrengen. Het enige wat nu overblijft is het gebruik maken van deze faciliteiten.

Cloud computing en SaaS

Cloud computing en SaaS (Software as a Service) zijn twee begrippen die veelal samengaan. In de eerste plaats wordt deze combinatie bekeken vanuit een prijsperspectief. In de ETL Matrix hebben wij alle leveranciers gevraagd om een offerte uit te brengen voor twee hardware configuraties. Een vrij kleine gebaseerd op een Windows Server en een tweede, middelgroot, met als basis een Unix server.

De prijsverschillen tussen leveranciers, voor zover men bereid was om prijzen te publiceren, waren tonnen (en dat is zonder hardware, installatie en configuratie). SaaS wordt over het algemeen gezien als een veel eerlijker prijsmodel, je betaalt voor wat je gebruikt. Als blijkt dat je meer capaciteit nodig hebt, kan je hierover gemakkelijk beschikken. De Cloud geeft ook veel meer flexibiliteit dan een eigen rekencentrum, zonder boetes voor outsourcing van de software, zonder aanschaf van de hardware, backups et cetera. Wel moet je rekening houden met security. In veel gevallen gaat het om bedrijfsgevoelige informatie en het is vaak moeilijk om uit te leggen dat je eigenlijk geen idee hebt waar de data zich bevindt. Een ander aandachtspunt is dat het soms niet eenvoudig is om software van verschillende leveranciers te koppelen in de Cloud. Dit kan de keuze van leverancier aanzienlijk beperken.

Master Data Management

Master Data Management (MDM) is ook een relatief nieuw fenomeen binnen de ETL en data integratie infrastructuur. Een van de grootste datakwaliteit problemen komt door het feit dat bepaalde belangrijke gegevens op meer dan één plaats onderhouden worden. Een vaak gebruikt voorbeeld zijn de NAW gegevens van medewerkers, leveranciers en klanten:

  • Het adres moet correct zijn, dat wil zeggen dat het bestaat
  • Het adres heeft juiste postcode
  • De straatnaam correct is gespeld
  • Het adres moet actueel zijn: de persoon is niet verhuisd

Master Data Management kan zorgen dat sleutelgegevens in verschillende bestanden gesynchroniseerd worden en er één bron van de waarheid komt.

Reageer op dit artikel van Daan van Beek

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Een selectie van onze klanten

Word nu ook klant

Wil je ook klant bij ons worden? Wij helpen je maar wat graag verder met data integratie de nieuwe etl? (100% onafhankelijk onderzoek) of andere zaken waar je slimmer van wordt.

Daan van Beek, Managing Director

DAAN VAN BEEK MSc

Managing Director

neem contact met mij op

Fact sheet

Organisaties geholpen
___
Trainingen & workshops
___
Deelnemers opgeleid
___
Beoordeling klanten
8,8
Consultants & docenten
___
Kantoren
3
Jaar ervaring
15