Spektakulære nyskabelser indenfor sprog og kunstig intelligens: Her er fremtiden for samtale-AI

Klumme: Chatbots og maskinlæring er to fundamentalt forskellige metoder til at bygge en AI, som vi kan tale med. Her er de tekniske fremskridt, der er kommet med dyb læring.

13. september 2021 kl. 11.06

Ole Winther Professor i data science, CTO og co-founder, Raffle

Ole Winther

Professor i data science, CTO og co-founder, Raffle

Professor i data science på DTU og i genomisk bioinformatik på KU/Rigshospitalet. CTO og co-founder, Raffle.

Ole Winther er en af Danmarks førende forskere og undervisere i maskinlæring. Ole udvikler nye algoritmer for dyb læring og anvender maskinlæring indenfor tekstanalyse, biologi og medicin.

Derudover er Ole keynote på flere Computerworld-seminarer.

Læs mere

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

Når man skal lave en traditionel chatbot, skal designeren forudbestemme hele forløbet af samtalen. Det er meget tidskrævende og ikke særligt nemt at opdatere, hvis man senere har brug for at ændre samtaleforløbet.

Når man i stedet bruger maskinlæring, er udfordringen at sætte en model op, som kan lære ud fra samtaler og så få samlet nok træningsdata.

I tre foregående klummer har jeg beskrevet de værktøjer, som bruges i dag.

I denne klumme vil jeg se nærmere på de mest spektakulære nyskabelser indenfor sprog og kunstig intelligens.

Metoderne er ret bredt tilgængelige, så vi ved allerede en del om begrænsningerne og hvilke kreative måder, man kan bruge den nye AI på.

Der kan selvfølgelig ske meget, men alt tyder på at maskinlæring og ikke traditionelle chatbotter er fremtiden indenfor samtale AI.

‍Hvad samtale-AI skal kunne

‍Lad os først se på hvad samtale-AI skal kunne, før den er klar til brug:

Kontekstual indblik. Når AI giver et svar, skal den være i stand til at tage hensyn til det, der er blevet sagt tidligere i samtalen og det den “ved” i forvejen. Det den “ved” kan for eksempel være det, der står i en vidensbase (såsom Wikipedia).
Nøjagtighed. Svarene skal være nøjagtige og relevante. Det går ikke, at den svarer forkert eller på noget helt andet, end det vi taler med den om.
Så lidt bias som muligt. Det er svært at undgå bias. Det afspejler nemlig de holdninger, som kommer til udtryk i det datamateriale, der trænes på. Så hvis man selv styrer sit træningsdata, så er man meget bedre stillet. På den anden side har de sidste års udvikling vist, at man kan få meget bedre modeller, hvis man pre-træner dem på store offentlige datasæt, som altid vil indeholde en form for bias. Derfor er der brug for metoder, der eksplicit undersøger om modeller har bias.
Det skal være nemt at gå til nye domæner. Man ønsker at bruge så få ressourcer som muligt på at indsamle træningsdata, når man bygger en samtale AI for et nyt emne.
Håndtere store vidensbaser. Jo mere information der kan håndteres, desto mere anvendelig er AI.
Ræsonere. Evnen til at kunne bruge logiske ræsonnementer er ikke et must for en samtale AI, men det hjælper til med at gøre brugeroplevelsen bedre, for det giver brugeren en oplevelse af at blive forstået.

Er GPT-3 løsningen?

GPT-3 (Generative Pre-trained Transformer) fra OpenAI var en af 2020s store AI gennembrud.

En milliard dollar investering fra Microsoft gjorde det muligt for OpenAI at træne en sprogmodel med 175 milliard parametre. Den kan kun køre i skyen på en distribueret GPU-cluster og er trænet på en stor bid af al tekstdata fra internettet.

Resultaterne er imponerende, men GPT-3 kommer også med en del alvorlige begrænsninger og bias.
Det er en generativ sprogmodel, som kan læse en tekst og skrive videre derfra - et ord ad gangen. Brugeren “prompter” GPT-3 med en starttekst, som bestemmer konteksten, for det GPT-3 skriver.

Så hvis man laver et spørgsmål-svar system, som f.eks. handler om raffle.ai (det AI selskab overtegnede er en del af), så kan man give GPT-3 følgende prompt:

“raffle.ai is an AI company. Our mission is to help businesses and customers release time using AI-powered search.

Q: What is the AI technology used by raffle.ai?
A: raffle.ai uses deep learning NLP.

Q: What can raffle.ai Customer Service product be used for?
A: raffle.ai Customer Service assists customer service agents to answer customer tickets.

Q: Is raffle.ai a chatbot?
A:"

Efter denne prompt begynder GPT-3 at skrive tekst:

“No, raffle.ai is a virtual agent powered by deep learning.

Q: How many languages does raffle.ai support?
A: raffle.ai supports all languages.

Q: How does raffle.ai work?
A: raffle.ai is a virtual agent that uses deep learning to learn from the content of a ticket.”

Den viste tekst er genereret af GPT-3 gennem deres openAI API.

Konceptuelt er træningen af GPT-3 meget simpel: Forudsig det næste ord givet den tekst, der kommer før. Man kan træne den på alt det tekstdata, som man kan få fat på. Træning er “unsupervised”. Opskaleringen af model og data får så interessante ting til at ske.

Da GPT-3 er trænet på en stor del af det offentlige internet, vil information om raffle.ai også være gemt i modellens 175 milliard parametre.

Den har også gemt en masse generel baggrundsviden om AI. Når modellen så forudsiger det næste ord, kombinerer den dette til at give et svar, der ofte virker ganske overbevisende.

Prompten består af to dele.

Den første del får modellen til at “tune ind” på raffle relevant information, der er gemt i modellens parametre.

Den anden del med spørgsmål og svar får modellen til at “fange” at vi forventer spørgsmål og svar. Det kan den, fordi modellen har lært fra data på internettet, som er sat op på nogenlunde samme måde.

Generative og kreative

For nyligt offentliggjorde OpenAI endnu et spektakulært eksempel på, hvordan man kan skalere modellen og bruge data fra internettet til at lave kunstig intelligens, som kan skabe ikke-trivielt nyt indhold.

DALL-E — navnet er en hyldest til Salvador Dali og Pixar’s WALL-E — genererer billeder ud fra en tekst-prompt. DALL-E bruger en model, der minder meget om GPT-3, og som er trænet på milliarder af billeder med billedtekst.

Billederne af avokadostole er skabt af DALL-E med prompten “an armchair in the shape of an avocado”.

Hvis man googlede “avocado chair”, før disse billeder kom frem, ville man ikke finde ret meget. Så modellen kan faktisk skabe noget, som ikke fandtes før.

Ligesom med GPT-3 afhænger resultatet meget af promptens kvalitet og kreativiteten er stor her.

Det sidste skud på GPT-3 stammen er Codex. Codex ligner GPT-3, men er specialiseret til computerkode.

Inspirationen til Codex kom da også fra GPT-3, for GPT-3 kan faktisk også skrive computerkode, da den jo allerede er trænet på en masse computerkode, som er hentet fra internettet.

Med Codex har verden fået et system, der er specialiseret til at hjælpe brugeren med at oversætte en tekstbeskrivelse, af hvad vi vil have programmet til gøre, til et computerprogram. Det har potentialet til at demokratisere programmering og hjælpe den glemsomme programmør.

Sandheden er derude… men det er løgnene også

GPT-3 forstår kontekst, mestrer nye domæner uden eksplicit træning og kan håndtere store datamængder, fordi meget af internettet er dets træningssæt.

Kan GPT-3 så alt det, der står på vores samtale AI ønskeliste?

Svaret er desværre stadigvæk et klart nej.

Vi har ikke styr på, om svarene er faktuelt korrekte. GPT-3 finder hen ad vejen på tingene ud fra det, den har læst på internettet. GPT-3 har derfor præcis de samme bias, som det data den er trænet på.

GPT-3s udviklere har forsøgt at filtrere uønsket indhold væk, men internettet indeholder uoverskueligt meget information, og meget af det er bare løgn (og ikke så meget latin).

Et andet problem er, at i modsætning til det meste af den tekst vi finder på internettet, så har GPT-3s tekst ingen afsender.

Et tredje problem kan blive, at jo større modeller bliver, desto større er risikoen for, at de bliver til stokastiske papegøjer, som plaprer løs med fordrejede versioner af, hvad de har læst på internettet.

Universitetsforskere er begyndt at tage de mulige konsekvenser af disse modeller seriøst.

Det bliver derfor interessant at følge, om den offentlige forskning kan bidrage, for lige nu er det big-tech med deres mange forsker- og computerressourcer, som sætter dagsordenen.

Fremtidens AI vil have brug for os

Det er ret nemt at afsløre GPT-3s manglende evne til at ræsonere. Men hvis vi kan lære noget af AI udviklingen de seneste år, så er det, at den udfordring også nok skal blive løst.

To nye udvidelser af tidens favorit model transformeren — switch transformeren og feedback transformeren — adresserer dette ved enten at gøre modellen større eller lade modellen processere data i flere skridt.

At større modeller er bedre modeller, er en af de vigtige læringer, som maskinlæring har gjort de seneste ti år.

Ved at lade den første komponent i modellen bestemme, hvilken sub-komponent der skal stå for det næste skridt i beregningen, kan man lave modellen meget større uden at lave mere beregning.

Hvis modellen får lov til at beregne videre på sine egne interne repræsentationer, kan man indbygge muligheden for, at modellen begynder at kunne løse nogle af de simple mangler, som den har i dag.

Tilsammen vil denne type ændringer tage sprogmodellerne til næste niveau.

På trods af sine mangler har GPT-3 mange anvendelsesmuligheder.

Vi kommer til at se en del eksempler, hvor mennesker arbejder sammen med en AI. Din AI leverer således en del af det kreative, og du vil som menneske bestemme, i hvilken retning kreativiteten skal gå.

Næste generation af GPT vil have nye metoder til at styre retningen for det der bliver skabt.

Erfaringerne med modeller som GPT-3 har lært os, at hvis man bygger modeller, der er trænet på meget bred information, har man ikke i lige så høj grad brug for træningsdata.

Man skal i stedet - som eksemplet ovenfor viser - finde på en prompt, som tuner modellen ind på det, den skal skrive om.

Måske har vi stadigvæk brug for at kunne tilgå vores data, som også er beskrevet i denne klumme.

En kombination af de to tilgange kunne derfor også være vejen frem. Det vil kun tiden vise. Under alle omstændigheder tyder alt på, at vi snart igen vil blive overrasket over, hvad AI kan udrette.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.