Wat is een data administratie of data catalog?
Metadata Management Solution, Data Governance tooling, Metadata platform, Data discovery, Enterprise Metadata Management, Enterprise Data Catalog. De marketing termen vliegen je soms om de horen.
Wij praten bij voorkeur over een Data Administratie. Maar wat is dat nu eigenlijk?
Vaak maken we de vergelijking tussen de financiële administratie en een data administratie. Aan de hand van die vergelijking geven we hier een beschrijving van wat in onze ogen een data administratie is (of zou moeten zijn…).
De basis van iedere financiële administratie is de boekhouding. Op Wikipedia wordt hiervan een definitie gegeven die iets ingekort als volgt luidt:
Een systematische, veelal dagelijkse, en chronologische neerslag van feiten en gedragingen met een financiële impact waarmee ondernemingen, personen en (overheids)instellingen worden geconfronteerd, uitgedrukt in cijfers en meestal bijgehouden in een journaal.
Deze definitie is een bruikbare referentie om tot een omschrijving van een data administratie te komen:
De onderdelen uit deze definitie worden hieronder stap-voor-stap toegelicht:
Systematisch
Systematisch wil zeggen: volgens een bepaalde systematiek.
Die systematiek bestaat in de financiële wereld uit bijvoorbeeld het rekeningstelsel dat wordt gehanteerd (i.e. de lijst van grootboekrekeningen: de categorisering die wordt gebruikt om de financiële gedragingen vast te leggen, zoals debiteuren, crediteuren, inventaris, machines, gebouwen). Maar ook de beginselen die worden gebruikt bij het administreren zoals dubbel boekhouden, wet- en regelgeving (IFRS, GAAP) of organisatiespecifieke standaarden die bijvoorbeeld zijn beschreven in een accounting manual. Tot die systematiek behoren ook gestandaardiseerde werkprocessen, rollen en verantwoordelijkheden en bijbehorende organisatie.
Deze analogie maakt duidelijk dat voor een effectieve data administratie, een dergelijke systematiek eveneens nuttig en nodig is. Het equivalent van het rekeningstelsel is het metamodel: een formele specificatie van de ‘feiten, gebeurtenissen en eigenschappen met betrekking tot data’(zie het 2e deel van de definitie!) die geadministreerd worden. Naast het metamodel is er ook sprake van ‘boekhoudregels’: spelregels die niet in het model zelf formeel gespecificeerd kunnen worden en bepalen hoe bepaalde metadata geadministreerd mag of moet worden. Ook in het geval van een data administratie is er sprake van wet- en regelgeving die voor kan schrijven wat en/of hoe er geadministreerd moet worden. Zo schrijft de AVG voor dat de verwerking van persoonsgegevens in een verwerkingsregister moet zijn opgenomen. Een verwerkingsregister zien we dus – volgens bovenstaande definitie – als onderdeel (sub-administratie) van een data administratie.
Feiten, gebeurtenissen en eigenschappen m.b.t. tot data
Alles wat je over de data zelf wil weten, kan gezien worden als ‘feiten, gebeurtenissen en eigenschappen’. Denk aan vragen als:
- In welke bron(nen) ligt deze data opgeslagen?
- Welke kwaliteitseisen zijn van toepassing?
- Wat is de betekenis van deze data?
- Welke vertrouwelijkheidsclassificatie is op deze data van toepassing?
- Wat is de bewaartermijn van deze data?
- Welke elementen in deze dataset kwalificeren als persoonsgegeven?
- Welke gegevens worden extern uitgewisseld?
- etc.
Dit is de informatie waarin een data administratie moet kunnen voorzien.
Binnen een onderneming
Met de formulering ‘binnen een onderneming’ wordt de reikwijdte van een data administratie aangegeven. Andere overwegingen ten aanzien van de reikwijdte zijn weliswaar denkbaar maar een vergelijkbare scope als voor de HR- en Financiële administratie is niet onlogisch.
Niet alleen wordt hiermee de scope aangegeven, impliciet wordt ook bedoeld dat de organisatorische context leidend is voor wat geadministreerd moet worden. Het belang van aspecten als privacy, beveiliging, gegevensuitwisseling, kwaliteit, semantiek etc. verschilt per organisatie. Als gevolg daarvan zal de reikwijdte en diepgang van vast te leggen informatie hierover dan ook verschillen.
Uitgedrukt in kwalitatieve of kwantitatieve zin
Ziehier de metadata zelf: metadata is dus de vastlegging van ‘feiten, gebeurtenissen en eigenschappen met betrekking tot data [..] uitgedrukt in kwalitatieve of kwantitatieve zin’. Zo kan de vertrouwelijkheidsclassificatie van een bepaalde dataset ‘Zeer vertrouwelijk’ zijn. Het vastleggen van die eigenschap creëert dus metadata over die dataset.
Vastgelegd in een daartoe ingerichte administratie
De metadata die wordt gecreëerd, beheerd en gebruikt moet vanzelfsprekend ergens worden opgeslagen. Er is een ‘system of record’ voor die metadata nodig. Nu komen we op het terrein van metadata management- en data governance tools (ja, kom maar door! Nu mag het). Een waaier aan technologische oplossingen is hier mogelijk, variërend van commerciële software (bijvoorbeeld Collibra, InfoSphere of Alation), open-source oplossingen (bijvoorbeeld DataHub, Amundsen of Apache Atlas) of eigen gemaakte oplossingen.
De (rest van de) definitie van een data administratie maakt nu twee belangrijke eisen ten aanzien van de inzet van dergelijke oplossingen expliciet:
- De gekozen technologische oplossing zal in staat moeten zijn om alle relevante metadata (‘feiten, gedragingen etc.’) vast te kunnen leggen. Dat is overigens zeker niet vanzelfsprekend voor veel oplossingen. Er zijn verschillen in functionaliteit die beperkingen opleggen aan het soort metadata dat kan worden vastgelegd.
- De opzet, inrichting en gebruik van dergelijke middelen moet op een systematische wijze gebeuren. Dat heeft zowel betrekking op het inrichten van de administratie(bijvoorbeeld het aanmaken van nieuwe typen metadata) als het opvoeren (de data entry dus) van de metadata zelf. Ook hier helpt de vergelijking met de financiële administratie. Er is weinig verbeelding nodig om na te gaan wat er zou gebeuren als iedereen zo maar lukraak zelf kostenplaatsen mag aanmaken, of een willekeurige gebruiker zelf naar eigen inzicht mag bedenken wat de betalingscondities zijn bij een factuur.
Sleutelrol voor metamodel
Het opstellen van een metamodel is de eerste stap in ons Data Catalog Accelerator Programma. Hierin stellen we een klantspecifiek, integraal, consistent en eenduidig metamodel op waarmee een organisatie over haar eigen data kan praten en communiceren. Ook vormt het metamodel een blauwdruk voor het inrichten van een data administratie. Die kan vervolgens met een tool naar keuze worden ingericht.
Binnen enkele weken realiseren we een concrete oplossing en een optimale basis om uw catalogus verder uit te bouwen.
Verder lezen?
De Data Administratie is onmisbaar voor de data management-functie.