Blog

Trends voor een modern Datawarehouse: nieuwe software en moderne architectuur.

Ontwikkelingen in de IT staan niet stil. De enige constante factor is verandering. Zo ook in de Business Intelligence wereld.  Het is een kunst om als organisatie proactief op veranderingen in te spelen en als IT-specialist des te meer.

De buzzwords zoals ‘Intelligent Data Lake’, ‘schema-on-read’, ‘Data Wrangling’, ‘Artificial Intelligence’, ‘Big Data Analytics’ en ‘Machine Learning’ vliegen de laatste jaren om de oren, men hoort er niet bij als er niet over wordt gesproken. Maar hoe verhouden nieuwe technologieën zich tot het traditionele Datawarehouse?

Nieuwe software: Datawarehouse blijft de basis.
Het Datawarehouse in relationele databases zoals we die alom wel kennen, -in de jaren 90 groot geworden- wordt nog altijd succesvol ingezet. Data Marts op basis van Kimballs dimensioneel model -op basis van feiten en dimensies- is nog altijd een bewezen goede manier om data te structureren.
Een veel gehoorde opmerking is dat Data Lakes in de cloud het traditionele Datawarehouse zullen vervangen. Echter, met een losstaand Data Lake, zonder validatie, schema’s of business rules heb je geen goud in handen.

Nieuwe technologieën zorgen dus niet voor een vervanging. De anatomie van een modern Datawarehouse blijft redelijk ongeschonden. Het is de kunst om een juiste balans te vinden om de nieuwe technieken voor het juiste gebruiksdoel in te zetten.
Een Data Lake kan al gauw een Data Swamp worden, wanneer data wordt ontsloten zonder gebruiksdoel. Daarnaast zal data altijd gemodelleerd moeten worden om er informatie van maken voor inzichten. Met ‘Schema-on-read’, waar data geïnterpreteerd wordt op het moment van lezen in plaats van gieten in een vooraf gedefinieerd model, verplaatst men de modelleringsstap dus verder in het Datawarehouse. Het is dus niet zo dat modellering nu niet meer nodig is!

Moderne architectuur: de anatomie van een Datawarehouse.

Hierin zijn moderne technieken opgenomen in een ad-hoc omgeving, waarbij nieuwe ontwikkelingen op toepasbaarheid getoetst kunnen worden. Een typisch data science-toepassing is immers een cyclus van trial-and-error op ruwe (on)gestructureerde data, waarin hypotheses op hun uitkomsten gevalideerd worden voordat deze worden ingezet.

Het is tevens mogelijk om de (persistent) staging laag niet meer op een RDBMS te hosten, maar op een Hadoop cluster. Een van de nieuwe features binnen SQL Server maakt het mogelijk om met SQL queries direct te kunnen lezen uit een cluster om HIVE-tabellen en files te virtualiseren. Hiermee is integratie naar een Datawarehouse mogelijk en minimaliseer je het gebruik van aparte ETL-processen.

De data wordt bij voorkeur geïntegreerd in een Data Vault, wat kan zorgen voor een toekomstvast model, mits gemodelleerd op basis van de bedrijfsprocessen. Data Vault is namelijk een modelleertechniek die bronsysteem onafhankelijk een weerspiegeling van bedrijfsentiteiten en processen weergeeft. Wanneer juist geïmplementeerd, is het model toekomstvast, ongeacht wijzigingen van bronsystemen. Nieuwe systemen kunnen relatief eenvoudig toegevoegd of aangepast worden, zonder de integriteit van het model in gevaar te brengen.

Daarnaast leent de techniek zich er zeer voor om te worden geautomatiseerd, het bestaat immers altijd uit vaste entiteiten (Hubs, Links en Satalites). Conspect biedt een oplossing voor deze automatisering door middel van eigen Datawarehouse Automation Tool.

Van Datawarehouse tot Visual Analytics

De moderne front-end tools zoals Tableau, Pyramid Analytics en Power BI bieden gebruikers de mogelijkheid gebruik te maken van zowel de (on)gestructureerde ad-hoc omgeving als de gestructureerde en geconformeerde Datawarehouse omgeving. Dit door de grote diversiteit aan connectoren in de tools en de frequente updates.
Succesvol Self Service BI heeft echter altijd een samenwerking tussen IT en business nodig, omdat eerstgenoemde verstand heeft van data management en de gebruiker de data het beste kan interpreteren en toepassen.

Heeft u hulp nodig bij het ontwerpen van een Datawarehouse? Benieuwd welke combinatie van technologieën goed past bij uw doelstellingen?
Wij komen graag in contact om te bespreken op welke manier wij kunnen helpen. Bel ons via 036-538 72 92 of vul dit formulier in.

Door Joerie Brugts - BI Consultant bij Conspect - 12 maart 2019