For at beskrive hvad (god) datakvalitet er, så må man overveje hvordan man definerer dette begreb.
Grundlæggende bedømmes datakvalitet ud fra, hvor høj grad data er egnet til tilsigtede anvendelser i drift, beslutningstagning, strategi og planlægning.
Kort og godt, er der altså tale om hvor passende et datasæt er, til et bestemt formål. Kvaliteten af et datasæt afhænger derfor af konteksten det skal anvendes i.
Ofte anvendes udtrykket ”fit for purpose”, som er opfundet af den amerikanske data forsker Thomas C. Redman. Redman var den første i datavidenskab til at introducere kvalitetsprincipper for data og information.
Siden hans opfindelse af ”data quality” som begreb, har Redman været en toneangivende fortaler for mulighederne ved en mere aktiv brug af data i forretningssammenhænge.
6 dimensioner, der beskriver hvad god datakvalitet er
Nu hvor oprindelsen af begrebet er afklaret er det nærliggende at se nærmere på de seks dimensioner der ligger til grund for vurdering af datakvalitet.
- Accuracy (Akkurathed) – Er data’en korrekt? Et data element repræsenterer en faktisk værdi i den virkelige verden. Akkuratheden afhænger af om der forekommer en afvigelse/fejl mellem værdien indkodet i data elementet og den faktiske værdi eksisterende i den virkelige verden. Et eksempel på manglende akkurathed, kunne være en fejlstavning af en adresse eller et navn.
- Validity (Validitet) – Imødekommer data’en de fastsatte kriterier? Validiteten afhænger af om et datasæt er indkodet under den korrekte klassificering eller ligger inde for rækkevidden af valide værdier bestemt af fastsatte kriterier. Et eksempel på manglende validitet, kunne være en ukorrekt klassificering af firma status eller firma type. Et eksempel kunne også være en fødselsdato som ikke ligger inde for et bestemt fastsat interval.
- Timeliness (Aktualitet) – Repræsenterer data’en virkelighed fra det påkrævede tidspunkt? Aktualitet afhænger af om et datasæt eller data element stemmer overens med tiden. Et eksempel på manglende aktualitet kan være at et firmas adresseskift træder i kraft d. 1. september, men adressen først ændres i en database d. 6. september.
- Completeness (Komplethed) – Er data’en komplet? Kompletheden afhænger af om al påkrævet potentielle data er indkodet i et dataset. Kriterierne som er sat for den påkrævet data, afhænger af hvilken kontekst data’en skal indgå i. Et eksempel på manglende komplethed kunne være en firmaadresse med et manglende postnummer.
- Uniqueness (Unikhed) – Er data’en indhentet korrekt og kun indhentet en gang? Unikheden afhænger af at et datapunkt kun bliver indkodet en enkelt gang. Manglende unikhed kan altså findes ved forekomst af dubletter i et dataset. Et eksempel kunne være en person der er registeret i en database to gange, men med forskellige identifikatorer.
- Consistency (Overensstemmelse) – Stemmer data’en overens? Overensstemmelse afhænger af om alle datapunkter i et datasæt er stemmer overens og at der ikke forekommer afvigelser ved at eksempelvis to datapunkter modsiger hinanden eller de ikke indkodet i samme format.
Ved vurdering af datakvalitet er det ikke nødvendigvis alle seks dimensioner som er relevante for et data element. Tager man et dataset med eksempelvis fødselsdatoer som et eksempel, er det kun dimensionerne akkurathed og komplethed der er relevante.
Hvis du vil finde ud af hvor god datakvaliteten er i din database, så tag fat i vores salgsafdeling og hør mere. Du finder deres kontaktinfo her.