Syntetiske data kan afhjælpe blinde datavinkler: Sådan fungerer det

Klumme: Det er anslået, at omkring 60 procent af data anvendt til udvikling af AI og analyse vil blive syntetisk genereret, og Gartner anslår, at syntetiske data i 2030 vil overgå brugen af reelle data.

Artikel top billede

(Foto: JumpStory)

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

Verden er i konstant udvikling.

Som oftest er udvikling en god ting, vel og mærke hvis den er baseret på fakta, indsigt og viden. I min verden betyder det data og analyse.

Udfordringen, vi dog ofte står overfor, er, at de datasæt vi skal analysere og sædvanligvis betragter som valide, i stedet ofte er skæve.

Skæve data er eksempelvis, når der er en forkert fordeling af de indsamlede data i forhold til det grundlag, de burde repræsentere.

Vi kan f.eks. se, at meget af den tilgængelige data, der i dag bliver anvendt indenfor blandt andet forskning, er baseret på undersøgelser af mænd. Det vil sige, at kvinder er underrepræsenteret, og at resultatet dermed ikke er validt, hvis der skal tegnes et repræsentativt og empirisk korrekt billede af befolkningen.

Researchere og forfattere har redegjort for en række eksempler, hvor den indsamlede viden alene eller for hovedparten baserer sig på indsigter om mænd. Bl.a. i bogen Invisible Women af Caroline Criado Perez, som fornylig er oversat til dansk og blandt andet har været omtalt i Femina.

Den skævvridning udgør en reel, praktisk udfordring – ikke mindst i sundhedssektoren. Der er dog en løsning på den udfordring – introduktion af syntetiske data.

Udfylder huller i mangelfulde data

Syntetiske data har siden 90’erne været anvendt til at skabe forbedrede datasæt.

De kan dog også anvendes til at sikre overholdelse af GDPR, ved at emulere faktiske data hvorved de bliver anonymiseret.

Tilmed kan de i nogle tilfælde anvendes til at skabe testmiljøer, hvor der endnu ikke foreligger data og skabe en indsigt i hvad der måske sker. Det vil sige, at syntetiske data kan stå i stedet for reelle data.

På den baggrund tjener syntetiske data også en funktion ved machine learning.

Det er anslået at omkring 60 procent af data anvendt til udvikling af AI og analyse vil blive syntetisk genereret, og Gartner anslår at syntetiske data i 2030 vil overgå brugen af reelle data.

Jeg skal ikke gå dybere ind i det tekniske (det kan man evt gøre her), men blot nævne at i forhold til generering af syntetiske data er de algoritmebaserede og handler grundlæggende om at lære den fælles sandsynlighedsfordeling i et originalt datasæt - for at generere et nyt datasæt med samme fordeling.

Der ligger derfor store analytiske muligheder og venter, uden at man krænker love eller rettigheder.

Uagtet om man påtænker at introducere syntetiske data eller ej, er man som dataansvarlig forpligtet til at behandle sine data optimalt.

Vi bør aldrig gå på kompromis med de foreliggende datasæt, hvilket også er grundlaget i forhold til responsible AI.

Data governance er alfa og omega

Når vi arbejder med data, skal vi være sikre på kvaliteten. Særligt når data bliver introduceret til analyse med AI.

For AI er ikke bedre end de data der bliver stillet til rådighed. Omvendt kan AI være et fantastisk redskab, når data er på plads, indsamlet og håndteret korrekt – og en tvingende nødvendighed at inkorporere fremover.

Korrekt data governance er derfor vokset til idag at være noget nær altafgørende. Også juridisk. Tænk blot GDPR.

Data er i min optik det mest værdifulde vi har at arbejde med, men kun hvis vi forstår at udlede den ønskede indsigt.

Derfor er det så afgørende at fastholde fokus på data governance, innovationsmuligheder gennem højnet datakvalitet og brug af syntetiske data samt responsible AI.

Det er hjørnestenene i fremtiden strategiske arbejde. Dårlige data leverer dårlig indsigt og ringe beslutningsgrundlag. Man er kort sagt ikke bedre eller klogere end de data man arbejder med og udfra.

Tilbage står, at vi som samfund, foruden rent kommercielt, hver dag øger mængden af data.

Skal vi kunne få glæde af de muligheder det indebærer, skal vi være mere nøjeregnende med at observere vores behandling og håndtering af data samt brug af AI.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.

Netcompany A/S

Microsoft Operations Engineer

Midtjylland

Politiets Efterretningstjeneste

Få et job i den højere sags tjeneste som sikkerhedsspecialist i PET

Københavnsområdet

Netcompany A/S

Senior Network Engineer

Nordjylland

Forsvarsministeriets Materiel- og Indkøbsstyrelse

Nye kolleger søges til IT Stab i Forsvaret

Nordjylland

Computerworld Events

Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

Digital transformation | København

Executive Conversations: Kina, Trump og AI-ledelse

Kina, USA og AI flytter magt og markeder. Geopolitik rammer leverandørkæder, chips, data og standarder. Lær at koble global risiko med konkret it-ledelse. Få styr på governance, sikkerhed og compliance i AI. Deltag og styrk din handlekraft.

Infrastruktur | København

Cloud & infrastruktur 2026: AI, afhængighed og digital handlefrihed

Cloud er strategisk infrastruktur og fundament for AI, drift og innovation. Geopolitik og regulering ændrer leverandørvalg og dataplacering. Computerworld samler beslutningstagere om afhængighed, europæiske alternativer og digital handlefrihed.

Digital transformation | Aarhus C

Computerworld Summit 2026 - Aarhus

Styrk din digitale strategi med konkret brug af AI og ny teknologi. Mød 200 it-professionelle, få indsigter, løsninger og netværk på én dag. Computerworld Summit i Aarhus viser hvordan teknologi skaber forretningsværdi – her og nu.

Se alle vores events inden for it

Navnenyt fra it-Danmark

Renewtech ApS har pr. 1. februar 2026 ansat Thomas Bjørn Nielsen som E-Commerce Manager. Han skal især beskæftige sig med at optimere og vækste virksomhedens digitale platforme yderligere. Han kommer fra en stilling som Operations Project Manager hos Tiger Media. Han er uddannet fra Aalborg Universitet og har en MSc. i International Virksomhedsøkonomi. Nyt job

Thomas Bjørn Nielsen

Renewtech ApS

Lector ApS har pr. 2. februar 2026 ansat Jacob Pontoppidan som Sales Executive i Lectors TeamShare gruppe. Jacob skal især beskæftige sig med vækst af TeamShare med fokus på kommerciel skalering, mersalg og en stærk go to market eksekvering. Jacob har tidligere beskæftiget sig med salg og forretningsudvikling i internationale SaaS virksomheder. Nyt job

Jacob Pontoppidan

Lector ApS

Marie Søndergaard, Acting Chief Product Owner hos Energinet, har pr. 26. januar 2026 fuldført uddannelsen Master i it, linjen i organisation på Aarhus Universitet via It-vest-samarbejdet. Færdiggjort uddannelse

Marie Søndergaard

Energinet

Khaled Zamzam, er pr. 1. marts 2026 ansat hos Immeo som Consultant. Han er nyuddannet i Informationsteknologi fra DTU. Nyt job