‘Hoeveel dimensies heeft datakwaliteit?’ Wanneer je een beetje in de materie komt, hoor je van ‘dimensies van datakwaliteit’. Je komt ‘Accuracy’ vaak tegen. En ‘Precision’. Maar ook ‘Relevancy’, ‘Value-added’ of ‘Completeness’. En als je dieper duikt – ‘Semantic Consistency’ en haar lelijke tweelingbroer: ‘Syntactic Consistency’. Om nog maar te zwijgen over ‘Believability’, ‘Verifiability’, ‘Timeliness’, ‘Latency’ en ‘Conciseness’. Voor een beginner op het pad van datagedreven werken: Het duizelt van de dimensies. Daarom de vraag: ‘Hoeveel dimensies heeft datakwaliteit?’
Het korte antwoord: dat hangt er vanaf.
Een kort antwoord
Nou! Daar zijn we mooi klaar mee. Als we de datakwaliteit van dat antwoord bekijken is de ‘Beknoptheid’ wel in orde, maar de ‘Toepasbaarheid’ laat duidelijk te wensen over!
Maar daar raken we wel aan de kern. Als je data wilt van goede kwaliteit, dan moet je bepalen wat precies de goede kwaliteit is. En dan komt de aap uit de mouw… je mag het helemaal zelf bepalen. Alhoewel. Helemaal zelf? Dus… Hoeveel dimensies heeft datakwaliteit?
Een lang antwoord
Het lange antwoord is: Dat hangt samen met het doel waarvoor je de data verzamelt of waarvoor je het in de toekomst wilt gebruiken. Maar er zijn er een paar die je eigenlijk altijd wel kunt gebruiken:
1. Conciseness
2. Accuracy
3. Timeliness
4. Consistency
5. Accessibility
6. Precision
Als je mee hebt geteld, dan is dat wel een lijstje van 6 dimensies. Nu heb ik heel bewust voor een lijstje van 6 gekozen. Niet omdat het er per se 6 zijn; maar omdat mensen lijstjes van 6 dingen goed kunnen onthouden. En je krijgt er zelfs een ezelsbruggetje bij van mij: CAT-CAP. Als je dus een plaatje hebt van een Kat met een Pet, dan weet je dat het over deze 6 dimensies gaat.
Conciseness (Beknoptheid)
We beginnen met Conciseness. Wanneer je naar een bepaald stukje data op zoek bent, dan is het belangrijk dat het beknopt is. Oneindige strengen data waarin ergens een keer het antwoord op jouw vraag te vinden is: Dat is niet te doen! Daarom; lever data beknopt aan. Een goed voorbeeld is postcode+huisnummer. Dat is genoeg om je huis te vinden. Stel je voor dat je op de brief zou moeten schrijven: ‘In Nergenshuizen, in de wijk Troosteloos, op de derde straat, staat ergens tegen de snelweg een huis met een blauwe deur. Dan twee huizen naar rechts.’ Allicht zou de brief aankomen hoor; maar 1234AB 99… dat is toch sneller.
Accuracy (Accuraatheid)
Accuracy; dat heeft alles te maken met de connectie tussen het informatieobject en het echte-wereld-object. Dus: de verbinding tussen die twee bestaat. Wanneer iemand zijn postcode foutief invult, dan is de verbinding weg. De brieven komen nooit meer aan bij hem.
Timeliness (Op-tijd-zijn)
Timeliness is de tijdscomponent van de data. Voor jaarverslagen is het belangrijk dat er data over het hele vorige jaar is. En misschien zelfs van de jaren daarvoor, om de trends en ontwikkelingen te laten zien. Maar als het gaat om openstaande facturen, dan wil de incasso-afdeling alleen de huidige openstaande facturen zien; niet diegenen die vorige maand keurig zijn betaald.
Consistency (Consistentie)
Consistency is een vreemde: Hij bestaat eigenlijk uit twee componenten: Syntactic Consistency en Semantic Consistency. De eerste gaat over de vormgeving van je datapunten; ‘-1000 euro’ en ‘€ 1000 negatief’ betekent allebei hetzelfde. Maar iets wat hetzelfde betekent, is op een volstrekt andere wijze vormgegeven. De semantische consistency gaat juist de andere kant op. Wanneer je een veld in een database hebt wat aangeeft wanneer een contract begint … en in dat veld zet je: ‘31-12-9999’ als de offerte is mislukt; dan maak je deze datakwaliteit fout. Je zet dan een stukje informatie wat iets anders betekent in dit veld.
Accesibility (Toegankelijkheid)
Accesibility gaat over de vraag of je uberhaupt wel bij de data kan komen. Je kunt daarbij nagaan wanneer iemand de data nodig heeft; wat is die persoon aan het doen? Zelf vind ik het interessant om te kijken wat er in vrachtwagens zit. Dus; elke keer als je een vrachtwagen inhaalt op de snelweg: Wat zit er in? Vaak weet je het niet, maar die data is er wel. In de vrachtbrief – die op een paar meter afstand in de cabine ligt – staat helder beschreven wat de lading behelst. Hij is alleen niet bereikbaar voor mij. Hoe anders is dat als de vrachtwagen gevaarlijke stoffen vervoert: Werkelijk een verademing! Een oranje bord aan de zijkant geeft aan wat er in zit: 1203. Heerlijk! Dat is benzine. 1202? Fijn! Dat is diesel. 1824? Natronloog.
Precision (Precisie)
Precision gaat ten slotte over hoe precies de data wordt vormgegeven. Een vrachtwagen over de weegbrug; dat gaat in stappen van 20 kilo. Bij een potje pindakaas kijken ze niet op een grammetje, maar de dosering van medicijnen: Daar wordt met microgrammen gewerkt. Niet alleen bij gewichten gaat het om precisie; maar ook bij kleuren. Rood-wit-blauw is prima om de nederlandse vlag te omschrijven; maar als je de kleuren precies wilt weten omdat je vlaggen wilt gaan maken; dan heb je zelfs aan een omschrijving van het ministerie van Algemene Zaken niet genoeg. ‘Helder vermiljoen, helder wit en kobaltblauw.’ Misschien dat je dan het beste nog de CMYK-indeling aan kunt houden: 0.84.77.32, 0.0.0.0, 76.50.0.46. Dat geeft het precies aan.
Niet dat het heel veel uitmaakt: Deze vlag is heel herkenbaar… maar de kleur blauw wijkt wel net iets van de norm af.
Conclusie
Dus: Hoeveel dimensies heeft datakwaliteit? Deze 6 zijn een goed begin. Hiermee kun je een heel eind komen – maar er zijn er meer; zoveel als je wilt. Want weet je wat mijn overweging was om deze CAT-CAP te maken? ‘Memorability’ … ‘Herinnerbaarheid’. En die stond er nou net niet tussen.