Syntetiske data kan afhjælpe blinde datavinkler: Sådan fungerer det

Klumme: Det er anslået, at omkring 60 procent af data anvendt til udvikling af AI og analyse vil blive syntetisk genereret, og Gartner anslår, at syntetiske data i 2030 vil overgå brugen af reelle data.

Artikel top billede

(Foto: JumpStory)

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

Verden er i konstant udvikling.

Som oftest er udvikling en god ting, vel og mærke hvis den er baseret på fakta, indsigt og viden. I min verden betyder det data og analyse.

Udfordringen, vi dog ofte står overfor, er, at de datasæt vi skal analysere og sædvanligvis betragter som valide, i stedet ofte er skæve.

Skæve data er eksempelvis, når der er en forkert fordeling af de indsamlede data i forhold til det grundlag, de burde repræsentere.

Vi kan f.eks. se, at meget af den tilgængelige data, der i dag bliver anvendt indenfor blandt andet forskning, er baseret på undersøgelser af mænd. Det vil sige, at kvinder er underrepræsenteret, og at resultatet dermed ikke er validt, hvis der skal tegnes et repræsentativt og empirisk korrekt billede af befolkningen.

Researchere og forfattere har redegjort for en række eksempler, hvor den indsamlede viden alene eller for hovedparten baserer sig på indsigter om mænd. Bl.a. i bogen Invisible Women af Caroline Criado Perez, som fornylig er oversat til dansk og blandt andet har været omtalt i Femina.

Den skævvridning udgør en reel, praktisk udfordring – ikke mindst i sundhedssektoren. Der er dog en løsning på den udfordring – introduktion af syntetiske data.

Udfylder huller i mangelfulde data

Syntetiske data har siden 90’erne været anvendt til at skabe forbedrede datasæt.

De kan dog også anvendes til at sikre overholdelse af GDPR, ved at emulere faktiske data hvorved de bliver anonymiseret.

Tilmed kan de i nogle tilfælde anvendes til at skabe testmiljøer, hvor der endnu ikke foreligger data og skabe en indsigt i hvad der måske sker. Det vil sige, at syntetiske data kan stå i stedet for reelle data.

På den baggrund tjener syntetiske data også en funktion ved machine learning.

Det er anslået at omkring 60 procent af data anvendt til udvikling af AI og analyse vil blive syntetisk genereret, og Gartner anslår at syntetiske data i 2030 vil overgå brugen af reelle data.

Jeg skal ikke gå dybere ind i det tekniske (det kan man evt gøre her), men blot nævne at i forhold til generering af syntetiske data er de algoritmebaserede og handler grundlæggende om at lære den fælles sandsynlighedsfordeling i et originalt datasæt - for at generere et nyt datasæt med samme fordeling.

Der ligger derfor store analytiske muligheder og venter, uden at man krænker love eller rettigheder.

Uagtet om man påtænker at introducere syntetiske data eller ej, er man som dataansvarlig forpligtet til at behandle sine data optimalt.

Vi bør aldrig gå på kompromis med de foreliggende datasæt, hvilket også er grundlaget i forhold til responsible AI.

Data governance er alfa og omega

Når vi arbejder med data, skal vi være sikre på kvaliteten. Særligt når data bliver introduceret til analyse med AI.

For AI er ikke bedre end de data der bliver stillet til rådighed. Omvendt kan AI være et fantastisk redskab, når data er på plads, indsamlet og håndteret korrekt – og en tvingende nødvendighed at inkorporere fremover.

Korrekt data governance er derfor vokset til idag at være noget nær altafgørende. Også juridisk. Tænk blot GDPR.

Data er i min optik det mest værdifulde vi har at arbejde med, men kun hvis vi forstår at udlede den ønskede indsigt.

Derfor er det så afgørende at fastholde fokus på data governance, innovationsmuligheder gennem højnet datakvalitet og brug af syntetiske data samt responsible AI.

Det er hjørnestenene i fremtiden strategiske arbejde. Dårlige data leverer dårlig indsigt og ringe beslutningsgrundlag. Man er kort sagt ikke bedre eller klogere end de data man arbejder med og udfra.

Tilbage står, at vi som samfund, foruden rent kommercielt, hver dag øger mængden af data.

Skal vi kunne få glæde af de muligheder det indebærer, skal vi være mere nøjeregnende med at observere vores behandling og håndtering af data samt brug af AI.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.

Læses lige nu

    Event: Strategisk It-sikkerhedsdag 2026 - Aarhus

    Sikkerhed | Aarhus C

    Få overblik over cybersikkerhedens vigtigste teknologier, trusler og strategiske valg. Hør skarpe oplæg om AI-risici, forsvar, compliance og governance. Vælg mellem tre spor og styrk både indsigt og netværk. Deltag i Aarhus 22. januar.

    22. januar 2026 | Gratis deltagelse

    Navnenyt fra it-Danmark

    Norriq Danmark A/S har pr. 1. september 2025 ansat Thea Scheuer Gregersen som Finace accountant. Hun skal især beskæftige sig med håndteringer af bl.a. bogføring og finansiel rapportering på tværs af selskaberne. Hun er uddannet Bachelor´s degree i Business Administration & Economics og en Master of Sustainable Business degree. Nyt job

    Thea Scheuer Gregersen

    Norriq Danmark A/S

    Netip A/S har pr. 15. september 2025 ansat Jimmi Overgaard som Key Account Manager ved netIP's kontor i Viborg. Han kommer fra en stilling som Sales Executive hos Globalconnect A/S. Nyt job

    Jimmi Overgaard

    Netip A/S

    Enterprise Rent-A-Car har pr. 1. september 2025 ansat Christian Kamper Garst som Senior Key Account Manager. Han skal især beskæftige sig med at vinde markedsandele i hele Norden som led i en storstilet turnaround-strategi. Han kommer fra en stilling som Salgsdirektør hos Brøchner Hotels. Nyt job

    Christian Kamper Garst

    Enterprise Rent-A-Car