Disse data er den hemmelige ingrediens, hvis du vi have bedre AI-modeller

Klumme: Syntetiske data får begrænset opmærksomhed på de mange AI-konferencer, og det er en skam, for her kan man virkelig få skærpet output af sine modeller.

Artikel top billede

(Foto: Foto af Uriel SC)

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

For nylig var jeg i Amsterdam for at deltage i World Summit AI; en af de største konferencer i Europa indenfor AI.

Det helt store tema i år var, uden overraskelse, generativ AI (GenAI). Alle niveauer af organisationerne har fået appetit for GenAI, og er i den grad ude med lyttelapperne for tiden.

Som de fleste nok har bemærket, er det næsten umuligt at åbne en blog, tage på en konference eller sågar åbne LinkedIn uden at vælte over utallige indlæg om emnet. Ofte fulde af temmelig luftige use cases med store sprogmodeller (LLM’er).

Desværre, fristes jeg til at sige. For jeg oplever, at der fokuseres rigtig meget på LLM’er, og specifikt use-cases med chat-bots og bruger-prompts i fokus.

Det er lidt ærgerligt, for GenAI har meget mere at byde på. Et rigtig godt eksempel er syntetisk data, som relativt nemt kan anvendes til at højne præcisionen af eksisterende modeller.

Herunder går jeg lidt i dybden og besvare et par ofte stillede spørgsmål – som forhåbentlig forklarer, hvorfor jeg synes, vi burde udvide dialogen om GenAI til mere end blot LLM’er.

Syntetiske data – hvad og hvorfor

Helt overordnet, så er syntetiske data kunstigt genererede data, der efterligner karakteristika og mønstre fra et givent datasæt, uden direkte at kopiere enkelt observationer.

Idéen er at generere mere data for et givent event som eksempelvis svindel-transaktioner, fremfor at anvende forskellige sampling-teknikker, som ret beset smider observationer, og dermed information, væk.

Der er mange anvendelsesområder, men her er et par af de vigtigste:

Mere præcise Machine Learning-modeller:
Det er ofte svært at modellere en skæv fordeling som for eksempel ved fraud-modellering, som anvendes til at afsløre svindel, men hvor procentdelen af fraud cases ofte er en forsvindende lille del af den samlede datamængde.

Her kan der genereres flere fraud cases, som dermed balancerer datasættet og øger signalet i data.

Deling af sensitivt data:
Mange partnerskaber kræver deling af data, men det er ofte besværligt med for eksempel personfølsomt data.

Syntetisk data indeholder ingen faktisk information fra enkeltpersoner eller enheder, hvorfor de er anonymiseret af natur, og derfor lettere kan deles både i og udenfor organisationen.

Mere repræsentative data:
Historiske data er ofte biased, hvilket kan resultere i analyser, resultater og beslutninger som dermed også er biased.

Med syntetisk data kan man genere observationer for de mindre repræsenterede grupper, og dermed ofte reducere bias, og skabe mere fair og transparant AI.

Hvordan generer jeg syntetisk data?

Nu bliver det en smule teknisk, men hold tungen lige i munden!

Der er flere metoder til at generere syntetiske data, men fælles for dem alle, så er der nogle algoritmer som lærer mønstrene i et ’originalt’ datasæt, som senere kan anvendes til at generere mere af det samme data, altså syntetiske data.

En populær metode er General Adversarial Networks (GANs), som består af to neurale netværk (NN), der samarbejder om at skabe noget nyt og realistisk data. I sin enkelthed består metoden af:

Generatoren: Det første NN genererer ‘falsk’ data, som ligner det originale træningsdata. Tænk på det som en kunstner, der prøver at kopiere et billede, så det ser så ægte ud som muligt.

Diskriminatoren: Det andet NN fungerer som en kritiker. Det forsøger at skelne mellem det originale og falske data, som generatoren danner.

De to netværk træner hinanden: Generatoren bliver bedre til at efterligne data, og diskriminatoren bliver bedre til at skelne. Efter tilpas mange iterationer bliver outputtet så overbevisende, at det er svært at skelne det ’falske’ og originale data, og vi kan dermed generere overbevisende syntetisk data.

Er der noget jeg skal være opmærksom på?

Nogle gange bliver algoritmer lidt for gode til at finde mønstrene i data, hvorfor det syntetiske data bliver en direkte kopi af det oprindelige datasæt. Det er derfor vigtigt, at man har en proces til at validere outputtet af algoritmerne inden det syntetiske data blindt anvendes. En sådan proces omfatter ofte at sammenligne fordelingen af variable, tjekke om der er ens observationer i datasætte mm.

Hvordan kommer jeg selv i gang?

Der er flere aktører derude, som tilbyder kommercielle løsninger målrettet specifikke brancher som for eksempel pharma- og finansindustrien, og der findes også mere generiske produkter der spænder bredere. Alternativt er der flere kodebiblioteker, hvis man har mere unikke behov.

Som med så meget andet software, så skal man beslutte, om man ønsker at bygge sin egen løsning eller licensere en kommerciel løsning.

Men jeg anbefaler varmt, at man ser på mulighederne frem for at lade sig forblænde af de rene LLM-use cases, som ellers får det meste af taletiden lige nu.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.

Læses lige nu
    Computerworld Events

    Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

    Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
    Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
    Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
    Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

    It-løsninger | Online

    ERP Insights 2025

    Få den nyeste viden om værktøjer, der kan optimere hele din virksomhed med udgangspunkt i AI og fleksibilitet.

    It-løsninger | København Ø

    Automatisering med Copilot & Agentic AI

    Høst viden og erfaringer fra andre om, hvordan Copilot og Agentic AI i praksis kan skabe værdi og fleksibilitet i din organisation.

    Sikkerhed | Online

    Erfaringer fra frontlinjen: Sådan ændrer trusselsbilledet sig

    Kort og fokuseret digitalt event: Erfaren frontkæmper fra den digitale sikkerhedsverden giver dig overblik og konkrete anbefalinger til det aktuelle trusselsbillede.

    Se alle vores events inden for it

    Navnenyt fra it-Danmark

    Netip A/S har pr. 15. september 2025 ansat Benjamin Terp som Supportkonsulent ved netIP's kontor i Odense. Han er uddannet IT-Supporter hos Kjaer Data. Nyt job

    Benjamin Terp

    Netip A/S

    Norriq Danmark A/S har pr. 1. september 2025 ansat Ahmed Yasin Mohammed Hassan som Data & AI Consultant. Han kommer fra en stilling som selvstændig gennem de seneste 3 år. Han er uddannet cand. merc. i Business Intelligence fra Aarhus Universitet. Nyt job

    Ahmed Yasin Mohammed Hassan

    Norriq Danmark A/S

    Norriq Danmark A/S har pr. 1. september 2025 ansat Katrine Køpke Rasmussen som Consultant. Hun skal især beskæftige sig med sikre vækst i NORRIQS kunders forretninger gennem hendes skarpe rapporteringer. Nyt job

    Katrine Køpke Rasmussen

    Norriq Danmark A/S

    Sentia har pr. 1. oktober 2025 ansat Morten Jørgensen som Chief Commercial Officer. Han skal især beskæftige sig med udbygning af Sentias markedsposition og forretningsområder med det overordnede ansvar for den kommercielle organisation. Han kommer fra en stilling som Forretningsdirektør hos Emagine. Nyt job