Data Catalogus metamodel: grip op data
Van greenfield naar productie
Drie jaar geleden besloot Financiële Dienstverlener (FD) haar strategie drastisch om te gooien en datagedreven werken tot een kerncompetentie van haar primaire processen te maken. Om die strategie te realiseren werd een meerjarig programma geïnitieerd waarbij langs drie assen benodigde veranderingen werden gerealiseerd: cultuur & werkprocessen, data(management) en technologie & infrastructuur. Door middel van experimentele projecten werden in een afgebakende omgeving de eerste data-toepassingen gerealiseerd.
De kennis en ervaring uit deze projecten werd gebruikt om een data platform op basis van Microsoft Azure te ontwikkelen en een datapositie op te bouwen. Datamanagement-processen kregen vorm, kennis & vaardigheden van medewerkers werden verder ontwikkeld en primaire processen anders ingericht. Het resultaat was dat primaire processen én via experimenten en pilots én met structurele data-toepassingen ondersteund konden worden.
De ontwikkeling van deze ‘capabilities’ vond parallel plaats aan het realiseren van concrete data-toepassingen. Terwijl als het ware de fabriek nog werd gebouwd, werden de eerste producten al geleverd. Door de continue groei in omvang en in het gebruik van data werd het belang van datamanagement vanzelfsprekend alleen maar groter. Hiertoe werden gebruikelijke aspecten als dataclassificatie, gegevenseigenaarschap, data autorisatie, data profiling, gegevens-leveringsovereenkomsten (GLO) en gegevensbescherming ingericht.
Hoewel ieder van deze initiatieven voor meer controle en grip zorgde, werd ook duidelijk dat de noodzakelijke beheersing meer en meer onder druk kwam te staan. FD realiseerde zich dat er op z’n minst twee uitdagingen waren. Ten eerste nam het overzicht over de verschillende datamanagement aspecten steeds verder af en werd het steeds lastiger de samenhang tussen deze aspecten in beeld te houden. Het gevolg hiervan was dat ieder aspect afzonderlijk meer aandacht kreeg waardoor het overzicht uiteindelijk nog verder verslechterde. Ten tweede werd duidelijk dat voor de uitvoering van ieder aspect – of het nu dataclassificatie, profiling of een GLO was – één master catalogus van data assets onontbeerlijk was. Voor FD was het vanzelfsprekend dat het oplossen van deze twee problemen essentieel was om de toekomstige groei verder op te kunnen vangen. En om het programma over te kunnen laten gaan naar de staande organisatie en om compliant te blijven met wet- & regelgeving.
Als voorkeursleverancier werd Deltiq gevraagd om te helpen met deze vraagstukken. Hoewel het vanaf het begin duidelijk was dat – op termijn – ondersteuning door een data catalogus-tool noodzakelijk en onvermijdelijk was, was ook duidelijk dat het in de kern begrijpen waar we het over hebben als over ‘data’ gesproken wordt, essentieel was. Als eerste stap hebben we daarom het Data Catalogus meta-model ontwikkeld. Dit bestond uit slechts drie scherp gedefinieerde componenten en werd geïllustreerd aan de hand van concrete voorbeelden uit de (data)praktijk van FD. Het bleek het begin van een radicaal andere manier van het implementeren van datamanagement en ondersteuning ervan met een data catalogus.
“De kracht van het Data Catalogus meta-model is de eenvoud. Met slechts drie concepten kan vrijwel elk datamanagement vraagstuk worden benaderd. Door ieder keer op deze drie concepten terug te vallen wordt consistentie en onderlinge samenhang gewaarborgd.” – Wouter van Aerle, Managing Partner Deltiq
Van onduidelijkheid naar overzicht
Het meta-model vormde een logisch startpunt om alle lopende datamanagement-initiatieven aan te relateren. Hiertoe werd – tool onafhankelijk – van ieder initiatief in kaart gebracht wat de belangrijkste eigenschappen waren. Voor bijvoorbeeld het beheren van GLO’s was dit de identificatie van de GLO zelf, de leveringskarakteristieken, de data die in het kader van een GLO periodiek wordt geleverd en de eigenaar van de afspraken. Of voor data autorisatie de data waarop geautoriseerd moet worden, de rollen & rechten die daarbij gebruikt moeten worden en de gebruikers(groepen). Alle relevante eigenschappen werden zo in kaart gebracht waarbij er altijd een relatie viel te leggen naar één van drie kernconcepten. Feitelijk groeide het meta-model op deze manier met aanvullende informatie.
Door uit te gaan van lopende datamanagement-initiatieven werd bovendien aangesloten bij actuele vraagstukken: alleen díe data-concerns die gemanaged moesten worden, werden opgenomen in het model en later toegevoegd aan de catalogus. Deze agile manier van werken zorgde zo voor praktische relevantie.
Het geheel werd op een ‘one-pager’ gevisualiseerd waardoor alle datamanagement-initiatieven in hun samenhang inzichtelijk gemaakt worden. Dit bleek een krachtig en eenvoudig communicatiemiddel. Betrokkenen – zowel binnen het programma als onder gebruikers – herkenden de aspecten waar ze mee te maken hadden én begrepen nu veel beter hoe hun werk zich verhield tot dat van andere collega’s. Alleen al door dit enkele overzicht, werd de afstemming tussen verschillende datamanagement-initiatieven verbeterd.
Het overzicht hielp ook bij het identificeren van die eigenschappen die het meest cruciaal waren voor datamanagement. Het is niet verrassend dat dit de drie kernconcepten waren die we in de eerste stap hadden geïdentificeerd. Alleen werd nu veel inzichtelijker waarom dat het geval was.
Daarnaast ondersteunde het overzicht bij het scherper in beeld krijgen van de afbakening van datamanagement aspecten, zoals data autorisatie, compliancy en gegevensleveringen. Dit werd vervolgens gebruikt voor het herdefiniëren van benodigde verbeter-initiatieven en prioriteiten. Met de one-pager ontstond overzicht en inzicht maar het was ook duidelijk dat verdere verdieping nodig was om de betreffende administraties in een Data Catalogs-oplossing concreet te kunnen realiseren.
Daarom hebben we het tussenresultaat uitgewerkt in een conceptueel informatiemodel. Hierin werden alle in kaart gebrachte eigenschappen precies beschreven en gedefinieerd. Door gebruik te maken van fact-based modeling – een formele modelleermethode – waren we in staat om dubbelzinnigheid of onduidelijkheden door vage termen weg te nemen, nieuwe concepten te introduceren die specifieke vraagstukken oplosten en spelregels te formuleren (‘Gebruikers van het type “Consument” mogen alleen data in de Productie-omgeving raadplegen’). Met de genoemde one-pager hadden we nu eenheid van taal om op een ondubbelzinnige manier over ieder relevant datamanagement vraagstuk te praten. Omdat de onderliggende methode – fact-based modeling – gebruik maakt van concrete voorbeelden, dus uit de directe operationele praktijk van FD – was het model bovendien begrijpelijk en herkenbaar voor de betrokkenen. Dat zorgde voor buy-in en ondersteuning voor het model waardoor de acceptatiegraad toenam
Met ook een formele beschrijving lag er nu een vertrekpunt om verbeteringen door te voeren. Hiertoe wordt het meta-model als verplichte basis gebruikt. Elk datamanagement-initiatief moet in het model ‘passen’. Als concepten ontbreken wordt het meta-model bijgewerkt. Op basis van het model werden administraties ingericht. Zo worden alle data science-projecten en de door een project gebruikte data geregistreerd. Hoewel die registratie vooralsnog nog in Excel plaatsvindt, worden de rubrieken die worden vastgelegd volledig voorgeschreven door het meta-model.
Verschillende Azure diensten worden gebruikt voor verschillende datamanagement processen. Zo wordt Identity Governance (ID) en Azure Active Directory (AAD) gebruikt om gebruikers op self-service manier toegang tot data te laten aanvragen. Aan de hand van het meta-model viel precies af te bakenen welke functionaliteit ID en AAD wel c.q. niet afdekten. Purview is de eind 2020 door Microsoft gelanceerde Data Catalogus-oplossing. Op basis van het meta-model is een beoordeling van Purview uitgevoerd. Zo werd duidelijk welke Catalog-requirements – voorgeschreven door het model – door Purview worden ondersteund. Op basis hiervan wordt Purview verder ingericht. Voor specifieke aspecten wordt maatwerksoftware ontwikkeld om eigenschappen te administreren die niet door Purview worden vastgelegd. Het meta-model schrijft voor welke eigenschappen apart moeten worden geadministreerd.
Back in control
Met het Data Catalogus meta-model heeft FD weer grip op alle ontwikkelingen rondom datamanagement. Het vormt de basis voor de verdere inrichting van de Data Catalogus Purview en het realiseren van aanvullende catalogus-functionaliteiten op alternatieve manieren.
Specifieke betrokkenen zijn blij over de gang van zaken en zien dat hun belangen worden afgedekt. Bovendien heeft deze manier van werken gezorgd voor significante efficiëncy-verbeteringen: het blijkt mogelijk met dezelfde inspanning meer gebruikers en meer data te beheren.