Syntetiske data kan afhjælpe blinde datavinkler: Sådan fungerer det

Klumme: Det er anslået, at omkring 60 procent af data anvendt til udvikling af AI og analyse vil blive syntetisk genereret, og Gartner anslår, at syntetiske data i 2030 vil overgå brugen af reelle data.

Artikel top billede

(Foto: JumpStory)

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

Verden er i konstant udvikling.

Som oftest er udvikling en god ting, vel og mærke hvis den er baseret på fakta, indsigt og viden. I min verden betyder det data og analyse.

Udfordringen, vi dog ofte står overfor, er, at de datasæt vi skal analysere og sædvanligvis betragter som valide, i stedet ofte er skæve.

Skæve data er eksempelvis, når der er en forkert fordeling af de indsamlede data i forhold til det grundlag, de burde repræsentere.

Vi kan f.eks. se, at meget af den tilgængelige data, der i dag bliver anvendt indenfor blandt andet forskning, er baseret på undersøgelser af mænd. Det vil sige, at kvinder er underrepræsenteret, og at resultatet dermed ikke er validt, hvis der skal tegnes et repræsentativt og empirisk korrekt billede af befolkningen.

Researchere og forfattere har redegjort for en række eksempler, hvor den indsamlede viden alene eller for hovedparten baserer sig på indsigter om mænd. Bl.a. i bogen Invisible Women af Caroline Criado Perez, som fornylig er oversat til dansk og blandt andet har været omtalt i Femina.

Den skævvridning udgør en reel, praktisk udfordring – ikke mindst i sundhedssektoren. Der er dog en løsning på den udfordring – introduktion af syntetiske data.

Udfylder huller i mangelfulde data

Syntetiske data har siden 90’erne været anvendt til at skabe forbedrede datasæt.

De kan dog også anvendes til at sikre overholdelse af GDPR, ved at emulere faktiske data hvorved de bliver anonymiseret.

Tilmed kan de i nogle tilfælde anvendes til at skabe testmiljøer, hvor der endnu ikke foreligger data og skabe en indsigt i hvad der måske sker. Det vil sige, at syntetiske data kan stå i stedet for reelle data.

På den baggrund tjener syntetiske data også en funktion ved machine learning.

Det er anslået at omkring 60 procent af data anvendt til udvikling af AI og analyse vil blive syntetisk genereret, og Gartner anslår at syntetiske data i 2030 vil overgå brugen af reelle data.

Jeg skal ikke gå dybere ind i det tekniske (det kan man evt gøre her), men blot nævne at i forhold til generering af syntetiske data er de algoritmebaserede og handler grundlæggende om at lære den fælles sandsynlighedsfordeling i et originalt datasæt - for at generere et nyt datasæt med samme fordeling.

Der ligger derfor store analytiske muligheder og venter, uden at man krænker love eller rettigheder.

Uagtet om man påtænker at introducere syntetiske data eller ej, er man som dataansvarlig forpligtet til at behandle sine data optimalt.

Vi bør aldrig gå på kompromis med de foreliggende datasæt, hvilket også er grundlaget i forhold til responsible AI.

Data governance er alfa og omega

Når vi arbejder med data, skal vi være sikre på kvaliteten. Særligt når data bliver introduceret til analyse med AI.

For AI er ikke bedre end de data der bliver stillet til rådighed. Omvendt kan AI være et fantastisk redskab, når data er på plads, indsamlet og håndteret korrekt – og en tvingende nødvendighed at inkorporere fremover.

Korrekt data governance er derfor vokset til idag at være noget nær altafgørende. Også juridisk. Tænk blot GDPR.

Data er i min optik det mest værdifulde vi har at arbejde med, men kun hvis vi forstår at udlede den ønskede indsigt.

Derfor er det så afgørende at fastholde fokus på data governance, innovationsmuligheder gennem højnet datakvalitet og brug af syntetiske data samt responsible AI.

Det er hjørnestenene i fremtiden strategiske arbejde. Dårlige data leverer dårlig indsigt og ringe beslutningsgrundlag. Man er kort sagt ikke bedre eller klogere end de data man arbejder med og udfra.

Tilbage står, at vi som samfund, foruden rent kommercielt, hver dag øger mængden af data.

Skal vi kunne få glæde af de muligheder det indebærer, skal vi være mere nøjeregnende med at observere vores behandling og håndtering af data samt brug af AI.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.

Navnenyt fra it-Danmark

Renewtech ApS har pr. 15. marts 2026 ansat Per Forberg som Account Manager for Sustainable Relations. Han skal især beskæftige sig med etablere nye partnerskaber med henblik på ITAD og sourcing kontrakter med hostingvirksomheder og strategiske slutbrugere. Han kommer fra en stilling som Nordic Key Account Manager hos Tesa. Han er uddannet hos Lund University og har en MBA i Management. Han har tidligere beskæftiget sig med at styrke salgsaktiviteter og partnerskaber på tværs af nordiske markeder. Nyt job

Per Forberg

Renewtech ApS

Pentos har pr. 2. juni 2025 ansat Erik Ebert som Country Manager. Han skal især beskæftige sig med udvidelsen af Pentos til Danmark og Norden. Det kræver bl.a. etablering af et lokalt leverance team og SAP Partnerskab. Han kommer fra en stilling som Senior Director hos Effective People. Han har tidligere beskæftiget sig med HR systemer baseret på SAP SuccessFactors hos en række danske større og mellemstore virksomheder. Nyt job

Erik Ebert

Pentos

Pentos har pr. 2. juni 2025 ansat Jonas Kyhnau som Seniorkonsulent. Han skal især beskæftige sig med at rådgive virksomheder om HR digitalisering og implementering af SAP SuccessFactors og SmartRecruiters. Han kommer fra en stilling som Seniorkonsulent og PMO lead hos Gavdi. Han er uddannet Cand.merc Human Resource Management fra Copenhagen Business School. Han har tidligere beskæftiget sig med med Onboarding, Employee Central (Core HR). Nyt job

Jonas Kyhnau

Pentos