ETL | Extractie, Transformatie & Laden | ETL tools

ETL: Extractie, Transformatie & Laden

Schoon, transformeer en combineer je data en ontwikkel een solide data-infrastructuur met ETL tooling

Bouw een solide BI & datainfrastructuur met ETL tools

Het extraheren van data uit systemen, het daarna transformeren en laden van de data in een nieuwe database noemen we afgekort ETL. Met ETL tools automatiseer je dat proces zodat je niet elke keer handmatig dit proces hoeft te doorlopen. Met ETL vul je bijvoorbeeld een data warehouse, en je migreert of kopieert je data van het ene naar het andere systeem. Het voordeel van een gestructureerd ETL proces is dat je data uit verschillende systemen bij elkaar kunt brengen en die kan opschonen, koppelen en in een structuur kan gieten die zeer geschikt is om data snel te analyseren of te bekijken. Dat is het doel van Business Intelligence ETL (BI ETL).

De beste BI ETL tools: top 10 ETL tools

Als Passionned Group voeren wij grondig onderzoek uit naar de functionaliteit van ETL software en de markt voor data-integratie oplossingen. Zoek je de beste ETL tool voor jouw situatie, dan kun je met onze ETL-guide direct een shortlist maken. Of het nu gaat om commerciële ETL tooling of open source ETL tools. Onze gids toont de ETL tools van Oracle, de SAS ETL tool, de Microsoft ETL tool (SSIS), de ETL tools van Informatica, data warehousing ETL tools en vele andere data-integratie oplossingen.

In ons onderzoek zijn onder andere de volgende data ETL leveranciers en tools opgenomen:

  • Actian met Actian Avalanche
  • De complete Adeptia Suite
  • CloverDX Data Integratie
  • DataMigrator van Information Builders, tegenwoordig Tibco
  • Het volledige Elixir Repertoire
  • IBM ETL: InfoSphere, Tivoli en IBM Cloud Pak
  • Informatica ETL tools zoals Power Center
  • Microsoft ETL tool: SSIS, Azure Data Factory, Azure DataBricks
  • Oracle ETL tools zoals ODI, OWB en Oracle GoldenGate
  • ETL tools van Pentaho zoals PDI (Pentaho Data Integration)
  • De leverancier en ETL tool Precisely
  • Qlik Compose en Qlik Replicate
  • Sesame Software met Relational Junction
  • ETL tools SAP met Data Services (Business Objects Data Integration, BODI)
  • SAS: DataFlux, SAS ETL en SAS Data Integration Studio
  • Talend met Open Studio, Cloud Data Integration en Talend Data Fabric
  • Tibco Data Management (inclusief datavirtualisatie)

Dit zijn wel de belangrijkste ETL software tools die op dit moment beschikbaar zijn op de markt en een behoorlijke staat van dienst hebben. Wil je deze ETL tooling met elkaar vergelijken? Download dan hier onze ETL & Data Integratie Guide 2021.

naar de ETL Guide

Wat is ETL en waar staat deze afkorting voor?

De afkorting ETL staat voor Extractie, Transformatie en Laden van data. Deze ETL betekenis leggen we uit door de afzonderlijke termen toe te lichten:

  • Extractie: tijdens deze stap ga je data uit je bronnen selecteren, filteren en overhevelen naar een tijdelijke opslagplaats. Die kan zich in het interne geheugen van de computer bevinden of op de zogenaamde harde schijf. Een voorbeeld van een extractie is het selecteren van de orders en orderregels die gisteren nieuw zijn binnengekomen. Tijdens de extractie pas je vaak het principe van ‘change data capture’ toe, zodat je alleen data selecteert die ten opzichte van de vorige ‘load’ is toegevoegd aan de database.
  • Transformatie: hier ga je de data transformeren naar een structuur die beter geschikt is voor analyse van grote hoeveelheden data. Je gaat bijvoorbeeld van een sterk genormaliseerde structuur naar een gedenormaliseerde structuur zoals een dimensioneel model met een sterschema of sneeuwvlokschema.
  • Laden: in deze laatste stap ga je de getransformeerde ETL data permanent opslaan in een database of file. Dit kan een datawarehouse zijn, een CRM systeem waar je klantdata uit andere systemen in wilt kunnen zien of een bestand waarmee bijvoorbeeld een analist of controller een analyse wil gaat uitvoeren.

De ETL data integratie kan via en in de cloud plaatsvinden (cloud ETL) of gewoon op een ETL server in je eigen rekencentrum. Met “ETL as a service” of “SaaS ETL” maak je data-integratie op afroep beschikbaar. Je betaalt dan alleen voor het gebruik. De hoogte van de rekening die je krijgt is dan bijvoorbeeld afhankelijk van de omvang van de data, het aantal gebruikers of de duur van het ETL proces. Wat is nu de relatie tussen ETL en BI? Met BI wil je data snel kunnen monitoren en analyseren via rapporten, dashboards of algoritmes en dan heb je een solide data infrastructuur nodig die je met ETL kan maken.

Het complete ETL proces in één visual

Zoals eerder toegelicht bestaat elk ETL proces uit drie grote stappen: extractie, transformatie en laden. Er is vaak niet één proces nodig maar meerdere. Om bijvoorbeeld een datawarehouse elke nacht bij te werken heb je misschien wel tweehonderd ETL processen nodig. Elke procesje is verantwoordelijk voor een stukje van de totale transformatie die je wilt realiseren. Duurt het totale ETL proces te lang, dan is het ’s morgens niet klaar en zijn de cijfers op je dashboard niet bijgewerkt. Het is dus zaak om te zorgen dat je ETL snel kan draaien en op tijd klaar is. Maximaal 2 uur is hier een aanvaardbare limiet. Duurt het langer, dan adviseren we je om over te stappen op realtime ETL.

Het ETL proces en de architectuur met ETL processen
Figuur 1: het ETL proces en bijbehorende architectuur

Naast de stappen extractie, transformatie en laden kun je ook controles uitvoeren op de datakwaliteit. Het beste moment om die controle uit te oefenen is tussen de stappen extractie en transformatie. Heb je nog vragen over deze ETL proces uitleg? Neem dan hier contact met ons op voor een nadere toelichting of onafhankelijk ETL advies.

ETL management: data governance van a tot z

Het in goede banen leiden van alle ETL in een organisatie vindt plaats door een data manager of ETL manager. Het ETL management definiëren we als de verantwoordelijkheid voor het opstellen van datadefinities en transformaties en het beheer ervan. De manager krijgt daarbij hulp van de (freelance) ETL developer, de data architect, de databaseadministrator, de metadata beheerder en de data custodian. Deze ETL experts zorgen er samen voor dat de ETL processen goed gedocumenteerd worden en daardoor goed kunnen worden onderhouden. Vragen die verder bij ETL management van belang kunnen zijn:

Wat betekent de term ETL BI?

Deze term duidt op een relatie tussen ETL en Business Intelligence. Vanuit het vakgebied BI wil je kunnen beschikken over een deugdelijke data infrastructuur die je in staat stelt om snel en flexibel rapporten en dashboards te bouwen, en data vlot te analyseren. ETL heb je dus nodig voor data analytics en BI.

Wat is een ETL database?

Aan het einde van het ETL proces moet je de data opslaan in een database. Een dergelijke database noem je ETL database en in het geval van een datawarehouse noem je dat een ETL datawarehouse.

Wat wordt bedoeld met een ETL datawarehouse of datawarehousing ETL?

Met ETL tools kun je op een modelmatige manier een datawarehouse ontwikkelen zodat het ETL proces real-time, dagelijks of wekelijks wordt bijgewerkt.

Wat doet een freelance ETL developer of ETL specialist?

Een (freelance) ETL developer of specialist ontwikkelt programma’s om het totale ETL proces geautomatiseerd te kunnen laten verlopen. Vaak gebruiken ze hier ETL tools voor, maar tegenwoordig ook steeds vaker datawarehouse automation tools.

Wat is het uurtarief van een freelance ETL developer?

Het gemiddelde uurtarief voor een freelance ETL developer varieert tussen de 80 en de 125 euro , afhankelijk van de senioriteit en de gevraagde skills en ervaring. Neem hier contact met ons op voor de inhuur van een freelance ETL developer of data engineer.

Wat betekent het dat je ETL compliance moet nastreven?

Vooral wanneer je ETL gebruikt voor het vullen van een datawarehouse waarmee je dashboards en rapporten bijwerkt is het noodzakelijk om te kunnen aantonen dat in het totale ETL proces geen fouten zitten. Een auditor of accountant moet ervan uit kunnen gaan dat de cijfers compleet zijn en op een correcte manier worden opgebouwd. ETL compliance heb je dus nodig om aan je accountant aan te tonen dat je op een correcte manier managementinformatie genereert.

Wat is ETL metadata management?

Metadata beschrijft de data in je ETL database. Die metadata moet je op een goede manier vastleggen en beheren. Je legt zo definities vast van (berekende) velden en op die manier kun je snel impactanalyses uitvoeren en data lineage toepassen. Met een impact analyse kun je via ETL metadata management makkelijk achterhalen waar welke velden in het ETL proces zijn gebruikt. Met data lineage kun je achterhalen hoe een berekening van een KPI op je dashboard (bijvoorbeeld winstgevendheid of netto marge) is opgebouwd en welke velden daarvoor allemaal zijn gebruikt.

Welke ETL topics zijn nog meer van belang?

Een vraag die klanten ons vaak stellen heeft te maken met open source ETL. Wat zijn de mogelijkheden en onmogelijkheden van een open source ETL tool, welke tools zijn er op de markt en wat zijn de kosten ten opzichte van commerciële ETL software? Andere topics die bij ETL een belangrijke rol spelen zijn: connectiviteit naar je bronsystemen, data governance, data mappings, data pipelines, scheduling van ETL taken, datakwaliteit management, datareplicatie en master data management.

Wat zijn Big Data ETL tools?

Big Data en ETL hebben aan elkaar moeten wennen. De ETL tools van tien jaar geleden waren niet, of heel slecht, in staat om ongestructureerde data zoals video’s, geluidsfragmenten of sensordata te verwerken. Tegenwoordig kunnen bijna alle ETL tools big data verwerken en die opslaan in een data lake (bron: de ETL & Data Integratie Guide 2021). Ook kan ETL een data lake als bron gebruiken om bijvoorbeeld een tabel te vullen met het aantal tweets dat een bedrijf per dag verstuurt. Het (real-time) combineren van gestructureerde data uit een datawarehouse en ongestructureerde data uit een data lake blijft nog steeds een grote uitdaging. Alleen zeer ervaren ETL experts kunnen je daarbij helpen. Data integratie oplossingen die beide soorten data correct kunnen verwerken en combineren krijgen in onze gids het predicaat ‘Big Data ETL tools’. Big betekent hier niet alleen dat het gaat om grote hoeveelheden data, maar ook om complexe data zoals video’s, documenten en geluidsfragmenten.

Volg hier onze online ETL training

In onze ETL & Data Integratie Guide leer je niet alleen alle ETL tools goed kennen, maar kun je ook een eigen ETL matrix samenstellen met de self-service analyse module. Daarnaast bevat onze ETL-guide een trainingsmodule waarmee je de belangrijkste concepten op het vlak van ETL en data integratie leert doorgronden.

Maak van je ETL geen spaghetti

ETL is een complexe aangelegenheid en binnen no-time zit je opgescheept met een enorme bak aan spaghetti die je nauwelijks kunt ontwarren. Onze ervaren ETL specialisten helpen je graag bij het opzetten van een toekomstbestendige datainfrastructuur en ETL processen. Neem hier contact met ons op voor de inhuur van een ETL expert en vraag een offerte aan.

neem contact met ons op

Plaats review

Geef je mening over dit product, artikel of dienst

Dit veld is verplicht!
Dit veld is verplicht! optioneel
Dit veld is verplicht! optioneel
Dit veld is verplicht! optioneel
Dit veld is verplicht!
Review verzendenHet formulier bevat fouten.
Opleidingen
Kennisbank
Advies
Interim

Deze organisaties gingen je voor

Word nu ook klant

Wil je ook klant bij ons worden? Wij helpen je maar wat graag verder met etl en data integratie of andere zaken waar je slimmer van wordt.

Daan van Beek, Eindbaas & specialist in continu verbeteren

DAAN VAN BEEK MSc

Eindbaas & auteur van het boek 'De intelligente, datagedreven organisatie'

neem contact met mij op

Fact sheet

Organisaties geholpen
___
Trainingen & workshops
___
Deelnemers opgeleid
___
Beoordeling klanten
8,9
Consultants & docenten
___
Kantoren
3
Jaar ervaring
16
EDIT POST