Artikel top billede

(Foto: JumpStory)

Syntetiske data kan afhjælpe blinde datavinkler: Sådan fungerer det

Klumme: Det er anslået, at omkring 60 procent af data anvendt til udvikling af AI og analyse vil blive syntetisk genereret, og Gartner anslår, at syntetiske data i 2030 vil overgå brugen af reelle data.

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

Verden er i konstant udvikling.

Som oftest er udvikling en god ting, vel og mærke hvis den er baseret på fakta, indsigt og viden. I min verden betyder det data og analyse.

Udfordringen, vi dog ofte står overfor, er, at de datasæt vi skal analysere og sædvanligvis betragter som valide, i stedet ofte er skæve.

Skæve data er eksempelvis, når der er en forkert fordeling af de indsamlede data i forhold til det grundlag, de burde repræsentere.

Vi kan f.eks. se, at meget af den tilgængelige data, der i dag bliver anvendt indenfor blandt andet forskning, er baseret på undersøgelser af mænd. Det vil sige, at kvinder er underrepræsenteret, og at resultatet dermed ikke er validt, hvis der skal tegnes et repræsentativt og empirisk korrekt billede af befolkningen.

Researchere og forfattere har redegjort for en række eksempler, hvor den indsamlede viden alene eller for hovedparten baserer sig på indsigter om mænd. Bl.a. i bogen Invisible Women af Caroline Criado Perez, som fornylig er oversat til dansk og blandt andet har været omtalt i Femina.

Den skævvridning udgør en reel, praktisk udfordring – ikke mindst i sundhedssektoren. Der er dog en løsning på den udfordring – introduktion af syntetiske data.

Udfylder huller i mangelfulde data

Syntetiske data har siden 90’erne været anvendt til at skabe forbedrede datasæt.

De kan dog også anvendes til at sikre overholdelse af GDPR, ved at emulere faktiske data hvorved de bliver anonymiseret.

Tilmed kan de i nogle tilfælde anvendes til at skabe testmiljøer, hvor der endnu ikke foreligger data og skabe en indsigt i hvad der måske sker. Det vil sige, at syntetiske data kan stå i stedet for reelle data.

På den baggrund tjener syntetiske data også en funktion ved machine learning.

Det er anslået at omkring 60 procent af data anvendt til udvikling af AI og analyse vil blive syntetisk genereret, og Gartner anslår at syntetiske data i 2030 vil overgå brugen af reelle data.

Jeg skal ikke gå dybere ind i det tekniske (det kan man evt gøre her), men blot nævne at i forhold til generering af syntetiske data er de algoritmebaserede og handler grundlæggende om at lære den fælles sandsynlighedsfordeling i et originalt datasæt - for at generere et nyt datasæt med samme fordeling.

Der ligger derfor store analytiske muligheder og venter, uden at man krænker love eller rettigheder.

Uagtet om man påtænker at introducere syntetiske data eller ej, er man som dataansvarlig forpligtet til at behandle sine data optimalt.

Vi bør aldrig gå på kompromis med de foreliggende datasæt, hvilket også er grundlaget i forhold til responsible AI.

Data governance er alfa og omega

Når vi arbejder med data, skal vi være sikre på kvaliteten. Særligt når data bliver introduceret til analyse med AI.

For AI er ikke bedre end de data der bliver stillet til rådighed. Omvendt kan AI være et fantastisk redskab, når data er på plads, indsamlet og håndteret korrekt – og en tvingende nødvendighed at inkorporere fremover.

Korrekt data governance er derfor vokset til idag at være noget nær altafgørende. Også juridisk. Tænk blot GDPR.

Data er i min optik det mest værdifulde vi har at arbejde med, men kun hvis vi forstår at udlede den ønskede indsigt.

Derfor er det så afgørende at fastholde fokus på data governance, innovationsmuligheder gennem højnet datakvalitet og brug af syntetiske data samt responsible AI.

Det er hjørnestenene i fremtiden strategiske arbejde. Dårlige data leverer dårlig indsigt og ringe beslutningsgrundlag. Man er kort sagt ikke bedre eller klogere end de data man arbejder med og udfra.

Tilbage står, at vi som samfund, foruden rent kommercielt, hver dag øger mængden af data.

Skal vi kunne få glæde af de muligheder det indebærer, skal vi være mere nøjeregnende med at observere vores behandling og håndtering af data samt brug af AI.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.