Disse data er den hemmelige ingrediens, hvis du vi have bedre AI-modeller

Klumme: Syntetiske data får begrænset opmærksomhed på de mange AI-konferencer, og det er en skam, for her kan man virkelig få skærpet output af sine modeller.

14. november 2024 kl. 13.00

(Foto: Foto af Uriel SC)

Mike Wriedt Johansson Klummeskribent

Mike Wriedt Johansson

Klummeskribent

Mike Wriedt Johansson er en del af SAS’ globale specialist team inden for data science. Han hjælper hovedsageligt strategiske kunder med at forstå, designe og implementere AI løsninger.

Han har en cand.merc.(mat.) fra CBS, hvor han også i flere år har undervist i faget Operationsanalyse. Med flere års arbejde som konsulent har Mike ikke kun teoretisk viden, men hands-on erfaring med implementering og udrulning af AI løsninger i en bred vifte af industrier.

Læs mere

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

For nylig var jeg i Amsterdam for at deltage i World Summit AI; en af de største konferencer i Europa indenfor AI.

Det helt store tema i år var, uden overraskelse, generativ AI (GenAI). Alle niveauer af organisationerne har fået appetit for GenAI, og er i den grad ude med lyttelapperne for tiden.

Som de fleste nok har bemærket, er det næsten umuligt at åbne en blog, tage på en konference eller sågar åbne LinkedIn uden at vælte over utallige indlæg om emnet. Ofte fulde af temmelig luftige use cases med store sprogmodeller (LLM’er).

Desværre, fristes jeg til at sige. For jeg oplever, at der fokuseres rigtig meget på LLM’er, og specifikt use-cases med chat-bots og bruger-prompts i fokus.

Det er lidt ærgerligt, for GenAI har meget mere at byde på. Et rigtig godt eksempel er syntetisk data, som relativt nemt kan anvendes til at højne præcisionen af eksisterende modeller.

Herunder går jeg lidt i dybden og besvare et par ofte stillede spørgsmål – som forhåbentlig forklarer, hvorfor jeg synes, vi burde udvide dialogen om GenAI til mere end blot LLM’er.

Syntetiske data – hvad og hvorfor

Helt overordnet, så er syntetiske data kunstigt genererede data, der efterligner karakteristika og mønstre fra et givent datasæt, uden direkte at kopiere enkelt observationer.

Idéen er at generere mere data for et givent event som eksempelvis svindel-transaktioner, fremfor at anvende forskellige sampling-teknikker, som ret beset smider observationer, og dermed information, væk.

Der er mange anvendelsesområder, men her er et par af de vigtigste:

Mere præcise Machine Learning-modeller:
Det er ofte svært at modellere en skæv fordeling som for eksempel ved fraud-modellering, som anvendes til at afsløre svindel, men hvor procentdelen af fraud cases ofte er en forsvindende lille del af den samlede datamængde.

Her kan der genereres flere fraud cases, som dermed balancerer datasættet og øger signalet i data.

Deling af sensitivt data:
Mange partnerskaber kræver deling af data, men det er ofte besværligt med for eksempel personfølsomt data.

Syntetisk data indeholder ingen faktisk information fra enkeltpersoner eller enheder, hvorfor de er anonymiseret af natur, og derfor lettere kan deles både i og udenfor organisationen.

Mere repræsentative data:
Historiske data er ofte biased, hvilket kan resultere i analyser, resultater og beslutninger som dermed også er biased.

Med syntetisk data kan man genere observationer for de mindre repræsenterede grupper, og dermed ofte reducere bias, og skabe mere fair og transparant AI.

Hvordan generer jeg syntetisk data?

Nu bliver det en smule teknisk, men hold tungen lige i munden!

Der er flere metoder til at generere syntetiske data, men fælles for dem alle, så er der nogle algoritmer som lærer mønstrene i et ’originalt’ datasæt, som senere kan anvendes til at generere mere af det samme data, altså syntetiske data.

En populær metode er General Adversarial Networks (GANs), som består af to neurale netværk (NN), der samarbejder om at skabe noget nyt og realistisk data. I sin enkelthed består metoden af:

Generatoren: Det første NN genererer ‘falsk’ data, som ligner det originale træningsdata. Tænk på det som en kunstner, der prøver at kopiere et billede, så det ser så ægte ud som muligt.

Diskriminatoren: Det andet NN fungerer som en kritiker. Det forsøger at skelne mellem det originale og falske data, som generatoren danner.

De to netværk træner hinanden: Generatoren bliver bedre til at efterligne data, og diskriminatoren bliver bedre til at skelne. Efter tilpas mange iterationer bliver outputtet så overbevisende, at det er svært at skelne det ’falske’ og originale data, og vi kan dermed generere overbevisende syntetisk data.

Er der noget jeg skal være opmærksom på?

Nogle gange bliver algoritmer lidt for gode til at finde mønstrene i data, hvorfor det syntetiske data bliver en direkte kopi af det oprindelige datasæt. Det er derfor vigtigt, at man har en proces til at validere outputtet af algoritmerne inden det syntetiske data blindt anvendes. En sådan proces omfatter ofte at sammenligne fordelingen af variable, tjekke om der er ens observationer i datasætte mm.

Hvordan kommer jeg selv i gang?

Der er flere aktører derude, som tilbyder kommercielle løsninger målrettet specifikke brancher som for eksempel pharma- og finansindustrien, og der findes også mere generiske produkter der spænder bredere. Alternativt er der flere kodebiblioteker, hvis man har mere unikke behov.

Som med så meget andet software, så skal man beslutte, om man ønsker at bygge sin egen løsning eller licensere en kommerciel løsning.

Men jeg anbefaler varmt, at man ser på mulighederne frem for at lade sig forblænde af de rene LLM-use cases, som ellers får det meste af taletiden lige nu.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.