Generativ AI i praksis: Store sprogmodeller ændrer fuldstændig spillereglerne for klassisk anvendelse af machine learning

Klumme: Hvad er sammenhængen mellem klassisk machine learning (ML), som vi har haft i mange år, og så de helt nye store sprogmodeller inden for Generativ AI? Få svaret her.

2. maj 2024 kl. 12.22

Erik David Johnson Chief AI Officer, Delegate

AI er her, der og alle vegne. Men samtidig presser de kritiske spørgsmål sig på: For hvad er det egentligt som AI reelt kan? Hvordan står det til med de store populære sprogmodeller? Og hvor langt er vi reelt kommet med AI-udviklingen hvis vi lige ser bort fra al hypen?

Det er spørgsmål som AI-ekspert Erik David Johnson har lovet at folde ud i en række klummer om Generativ AI i praksis på Computerworld.dk. Den første kommer her.

God læselyst

Lars Jacobsen, chefredaktør

I sidste indlæg kom vi ind på hvad Generativ AI er og ikke er - ikke mindst hvordan det med de nuværende tilgange ikke vil kunne lede til det niveau af AI (AGI) som vi drømmer om, og indtil nu kun har set på film.

Det blev noget filosofisk, men i dag skal vi ned i praktikken, og udfolde en særlig slags anvendelse af Generativ AI og store sprogmodeller, som jeg oplever, at mange totalt overser.

Dagens spørgsmål vil nemlig være: Hvad er sammenhængen mellem klassisk machine learning (ML), som vi har haft i mange år, og så de helt nye store sprogmodeller inden for Generativ AI?

Vis modellen nok eksempler og så vil den trænede AI-model kunne kigge på nye billeder, den ikke har set før, og fortælle os om det er et menneskeligt ansigt eller ikke med høj præcision, fordi den har lært mønstret i, hvad det vil sige, at noget er et ansigt.

Samme tilgang kunne man have med røntgenbilleder af kræfttilfælde og ikke-kræfttilfælde, eller historiske transaktionsdata for kunder, der valgte at skifte til konkurrenten og kunder, der valgte at blive – også kaldet churn prediction.

Her prøver man at finde mønstret, der ledte til, at man mistede en kunde, bruger den trænede model til at forudse, om det vil ske i fremtiden, og så tager aktion til at prøve at fastholde dem.

Trods udviklingen er det fortsat klassisk ML, der er bedst til ting som churn prediction, fordi meget af inputtet, såsom transaktionsdata, ikke er sprogligt, og modellen alene skal trænes på ens egne data.

Erik David Johnson

Chief AI Officer, Delegate

Min indgangsvinkel til AI har været lidt speciel. Jeg startede med at læse Analytisk Sprogfilosofi og Kognitiv Semantik på Københavns Universitet, og skiftede derefter retning mod sin store passion for programmering og blev Cand.it i Software Engineering på IT-universitet (ITU), med en specialisering i Avanceret AI programmering, og fag ved Center for Sprogteknologi (CST).

Denne lidt særegne kombination af emneområder, kombinerer jeg i min forskning i hvordan fremtidens sprogteknologiske AI-løsninger skal bygges, som er valideret af Berkeley Universitet. Jeg brugte faktisk mit speciale til at udgive min mangeårige forskning, i stedet for at gå Ph.d.-vejen, for hurtigere at kunne træde ind på arbejdsmarkedet, så jeg kalder mig gerne ”amatørforsker”, trods den internationale anerkendelse. Kort sagt forudser min forskning for 15+ år siden, den udvikling vi ser med store sprogmodeller nu i dag.

Dengang skulle til USA og forske hvis jeg skulle arbejde med min specialviden inden for sprogteknologi, men da jeg valgte at blive i Danmark, arbejdede jeg i stedet med klassisk Machine Learning (ML), hvor jeg har haft alle rollerne: Programmør, Arkitekt, Leveranceansvarlig og Visionær – og har stået bag prisvindende ML-løsninger der i produktion i Danmark i dag. De første 6½ var jeg kendt som ”Mr. AI” i Netcompany, og i dag er jeg så Chief AI Officer i konsulenthuset Delegate.

I den tid har jeg deltaget i talrige udvalg og råd, såsom Regeringens Ekspertgruppe for Dataetik, som nedsatte det Dataetiske Råd vi har i dag, og sidder lige nu som næstforperson i IT Branchens NewTech Policy Board, hvor jeg er med til at forme landskabet i Danmarks møde med Generativ AI, og tit kaldes ind af regeringen som rådgiver og formidler af emnet. Se i øvrigt mere om mig på erk.dk.

Læs mere

Store sprogmodeller som ChatGPT, Copilot og lignende bygger ovenpå unsupervised learning.

Det vil sige, at man ikke har tilrettelagt træningseksemplerne, men i stedet slipper modellen løs på en masse data, som den selv skal finde sammenhængskraften i – nemlig den totale sammenhængskraft mellem alle ord og fraser på alle sprog!

Store sprogmodeller er derfor fra det øjeblik, hvor du får dem i hænderne, trænet på voldsomme mængder af sprogligt materiale, som internettet, Wikipedia, alle bøger, artikler, osv.

På den måde er de meget generelle, men mestrer til gengæld de menneskelige sprog.

Herfra kan vi så fokusere disse sprogkyndige generelle modeller ned på vores egne data, men det er et emne til næste indlæg.

Store sprogmodeller gør mere end at bruge deep unsupervised learning. De benytter også reinforcement learning til at justere modellernes svarform og adfærd og Googles Transformer-arkitektur, men det er også et helt emne i sig selv.

For nu er pointen, at klassisk machine learning, i form af deep unsupervised learning er en central del af de store sprogmodellers opbygning, sammen med andre tilføjelser, så nye som 2017, og Generativ AI er et område hvor der fortsat forskes intenst.

Store Sprogmodeller i Klassisk ML

Men hvad med den anden vej?

For hvis skarpe anvendelser såsom churn prediction fortsat laves bedst med klassisk machine learning på ens egne specifikke kundedata, kan store sprogmodeller så ikke hjælpe her?

Jo det kan de faktisk, og nu når vi til den lidt oversete pointe, som jeg indledte med at omtale. Store sprogmodeller ændrer nemlig fuldstændig spillereglerne for klassisk anvendelse af ML.

I klassisk anvendelse af ML kan man nemlig ikke arbejde med sproglige data.

Når modellen tager imod data, skal det være i form af spænd af tal – eksempelvis decimaltal mellem 0,0 og 1,0. Den kan i sin rene form ikke tage imod ustruktureret data såsom de menneskelige, naturlige sprog.

Hvis vi ser på churn prediction som eksempel, havde det ellers været smart, for hvis en kunde på en bestemt dato har skrevet en sur klagemail, er det værdifuldt input til en model, der ved at kigge på historiske kundedata skal finde mønstre i, hvad der gør, at man mister kunder.

Men det kan store sprogmodeller altså hjælpe os med.

De kan kort sagt kvantificere sproglige data – altså omsætte sprog til tal.

Man kan således bede en stor sprogmodel vurdere fra 0-20 hvor irriteret, interesseret, afmattet, ophidset og så videre ordlyden er i en e-mail eller anden sproglig udveksling med kunden er, og benytte disse tal som input til en klassisk ML-model.

Så selv om der er stor værdi i de sproglige udvekslinger, som man kan have med en stor sprogmodel i sig selv, så skal man ikke undervurdere dens evne til at omsætte det menneskelige sprog til matematik, og dermed åbne op for, at vi kan lave nogle løsninger i klassisk ML, som ikke var mulige før.

Generativ AI kan meget, når det står alene, men den sande værdi kommer først, når vi samtænker det med vores egne data og bygger features oven på deres generelle virkemåde – hvordan vi bedst gør dette, skal vi høre mere om i det næste indlæg.