Over het beheren van datakwaliteit bestaat onder bedrijven behoorlijk wat onduidelijkheid, laat staan dat helder is hoe een onderneming het optimaliseren van datakwaliteit het beste kan aanpakken. Jack de Hamer, mede-eigenaar van datamanagementspecialist Type2Solutions, definieerde een vijftal eenvoudige stappen die praktische hulp bieden bij het optimaliseren van datakwaliteit. Met behulp van triviale voorbeelden probeert hij bovendien het nogal abstracte begrip data helder uit te leggen.
Wie zoekt naar een definitie van datakwaliteit beheer, kan uitkomen bij techopedia.com. Op deze site is de volgende (vertaalde) definitie van datakwaliteit beheer te lezen: ‘Datakwaliteit beheer is een administratief proces. Daarbinnen zijn richtlijnen, verantwoordelijkheden en processen vastgesteld met betrekking tot het verzamelen van gegevens, het gebruik en het onderhoud van gegevens. Ook zijn in dit proces afspraken gemaakt over het verwijderen en het distribueren van gegevens. Een onderneming die datakwaliteit beheer goed wil inrichten en laten slagen, dient energie te steken in de samenwerking tussen de beheerder van de systeemprocessen (IT) en de beheerder van de bedrijfsprocessen (de business).’ Helaas geeft bovenstaande definitie geen antwoord op hoe je dat als bedrijf nu aanpakt.
Op basis van jarenlange ervaring definieerde De Hamer de volgende vijf eenvoudige stappen die praktische hulp bieden bij het optimaliseren van datakwaliteit:
Stap 1. Bepaal de gegevensverzameling en de elementen daarbinnen die u wilt optimaliseren
Verdeel en heers!
Deze uitspraak geldt voor oorlogvoering, maar ook voor gegevens. De eerste stap van ieder data optimalisatie initiatief is het verdelen van de gegevenselementen in verschillende verzamelingen (entiteiten). Voorbeelden van entiteiten zijn: landen, crediteuren, facturen, contracten, magazijnen of artikelen. Dat verdelen klinkt overigens eenvoudiger dan het is!
Gelukkig hebben veel softwareleveranciers deze verdeling in het verleden al voor u gemaakt. U kunt dus meeliften op de inspanningen van anderen door simpelweg te kijken naar hoe de gegevens in uw CRM-, WMS- of ERP-systeem zijn verdeeld en gestructureerd.
Het is aan te raden om te beginnen met slechts één verzameling die behoort tot uw ‘stamgegevens’. Deze stamgegevens gebruikt u namelijk telkens opnieuw en op meerdere plaatsen binnen uw eigen systemen en organisatie. Levert u digitaal gegevens aan een webshop of afnemer, dan zijn dit ook vaak stamgegevens.
Voorbeelden van stamgegevens zijn: artikelen, crediteuren en debiteuren. In transactiegegevens zijn stamgegevens continu gebruikte data. Denk bijvoorbeeld aan uw energienota. Op iedere nota (transactiegegevens) staan de producten (stamgegevens) die u als klant (stamgegevens) afneemt.
Pas nadat u de vijf stappen in dit document hebt doorlopen, beschikt u over de controle van de verzameling stamgegevens. Pas nadat u controle heeft gekregen over de eerste verzameling selecteert u een tweede en pas nadat u controle heeft gekregen over de tweede selecteert u een derde. Dit proces herhaalt u totdat alle gewenste stamgegevensverzamelingen onder controle heeft gekregen. Pas daarna gaat u aan de slag met de ‘transactiegegevens’.
Deze aanpak zorgt voor een blijvende focus. Aanvullend beschikt u over snel meetbare resultaten en blijft u in controle. Als bonus heeft de optimalisatie van uw stamgegevens ook een positief effect op de kwaliteit van de gerelateerde entiteiten.
Stap 2. Bepaal per gegevenselement de regels die van toepassing zijn en automatiseer de controles
Als er een verzameling gekozen is, dient u per gegevenselement te bepalen welke definities er van toepassing zijn. Dit kunnen er meerdere zijn. Hoe duidelijker de definities zijn, des te eenvoudiger het is om deze definities te vertalen naar regels die automatisch zijn uit te voeren.
De definities kunnen zowel technisch als functioneel van aard zijn. Voorbeelden van duidelijke definities zijn:
- Het element heeft een verplichte waarde;
- Het element bevat unieke waardes;
- De maximale lengte van de waarde is 2 karakters;
- De waarde mag alleen alfanumerieke karakters bevatten;
- De minimale lengte van de waarde is 6 karakters;
- De waarde mag alleen ‘Ja’ of ‘Nee’ bevatten.
Stap 3. Stel per gegevensverzameling één persoon aan die verantwoordelijk is voor de optimalisatie
Deze persoon, de data owner, is verantwoordelijk voor het (laten) corrigeren van de uitzonderingen. Deze data owner kan uiteraard verantwoordelijk zijn voor meerdere verzamelingen. Afhankelijk van de hoeveelheid en het soort correcties kunt u kiezen voor een handmatige correctie, een automatische correctie of een hybride vorm. De resultaten van de correcties worden op regelmatige basis, bijvoorbeeld dagelijks of wekelijks, door de business en eventueel IT met de data owner geëvalueerd.
Stap 4. Controleer geautomatiseerd de gegevens op basis van de definitie en bewaar het resultaat
Het is bijna onmogelijk om handmatig de kwaliteit van de grote hoeveelheden gegevens op een frequente basis te controleren. U heeft voor de automatische controle software nodig die de door u gedefinieerde regels uit kan voeren op de gegevens. De regels binnen deze software doorzoeken uw gegevens razendsnel en detecteren en presenteren alle uitzonderingen. Daarnaast slaat de software de details van de uitzonderingen en de cumulatieve resultaten op in een centrale database. Dit stelt u in staat om, in een door u te kiezen periode, de trends in de verbetering of de verslechtering van de datakwaliteit vast te stellen.
Zodra voor de data owner duidelijk is welke uitzonderingen er zijn, kan hij/zij acties uitzetten en beginnen met het (laten) corrigeren van deze uitzonderingen en het optimaliseren van de datakwaliteit.
Stap 5. Corrigeer de uitzonderingen en pas waar en wanneer nodig de scope en definitie aan
Op basis van de uitzonderingen plant de data owner correctieve acties in of zet hij/zij deze uit. Ook schakelt de data owner, indien noodzakelijk, extra capaciteit in. Aanvullend kan deze persoon nieuwe definities toevoegen, dan wel de bestaande definities aanpassen of verwijderen. Met dit proces verbetert u continu de datakwaliteit en het bestaande datakwaliteit optimalisatieproces.
In onderstaande figuur wordt dit optimalisatie proces grafisch weergegeven
Uitleg
Vanuit de datasource van de applicatie wordt de gegevensverzameling (stap 1) geëxtraheerd. Deze gegevens worden door de T2S Data Quality Monitor (stap 4) automatisch geanalyseerd op basis van de regels die volgen uit de definities (stap 2). De uitzonderingen op de regels worden gedetecteerd en gepresenteerd aan de data owner (stap 3). De data owner verzamelt de uitzonderingen en besluit op basis daarvan welke van onderstaande verbeteracties ondernomen moet worden.
- Optimalisatie van de datakwaliteit door correctie van de uitzonderingen;
- Optimalisatie of finetunen van de definities.
Door gebruik van dit proces wordt continu de datakwaliteit en het bestaande datakwaliteit optimalisatie proces verbeterd (stap 5).
Ten slotte
In sommige situaties zult u ontdekken dat u achter de theoretische definitie van een element staat maar dat het door de bestaande bedrijfs- en systeemprocessen niet eenvoudig is om de uitzonderingen te corrigeren.
Ik herinner me een situatie waarbij er als definitie gesteld werd dat er geen zakelijke producten gekoppeld mochten zijn aan particuliere contracten en vice versa. Dit was op zich een logische keuze maar helaas waren er toch een aantal actieve particuliere contracten met zakelijke producten. Om dit te corrigeren waren er twee opties: het zakelijke product op het contract verwijderen en een nieuw product met andere voorwaarden koppelen of; het particuliere contract beëindigen en een nieuw zakelijk contract opvoeren. Beide keuzes hadden significante klantimpact. Om die reden is er toen besloten om niet de contracten aan te passen maar de definitie scherper te stellen. De contract startdatum werd bij de definitie betrokken en alle contracten afgesloten voor een bepaald moment werden niet beoordeeld op deze regel.
Voor de huiseigenaren onder u: vanaf 2013 wordt een dergelijke definitie ook voor aflossingsvrije hypotheken gehanteerd. Sloot u voor die datum een aflossingsvrije hypotheek af dan werd de kwaliteit daarvan door de Nederlandse overheid als goed beoordeeld althans u mocht in ieder geval de betaalde hypotheekrente aftrekken. Sloot u na die datum een aflossingsvrije hypotheek af dan is de rente opeens niet meer aftrekbaar en lijkt deze hypotheekvorm ongewenst geworden.
Dit voorbeeld geeft duidelijk weer dat de kwaliteit van gegevens en hypotheken sterk afhankelijk is van de marktomstandigheden en de bijbehorende definitie. Omdat u deze definitie voor uw gegevens op ieder moment zelf mag bepalen en wijzigen is het belangrijk om flexibel om te kunnen gaan met de definitie en de bijbehorende regels die de datakwaliteit van uw gegevens toetsen en kwantificeren.
Jack de Hamer – Mede-oprichter en eigenaar Type2Solutions