Vi har nok efterhånden alle prøvet det.
At få et helt faktuelt forkert svar fra ChatGPT, som du udmærket ved er forkert, men som chatbotten overbevisende fremlægger som værende korrekt.
Og selvom OpenAI’s verdensomspændende chatbot utvivlsomt er blevet væsentligt forbedret de seneste år, hallucinerer den fortsat. Og det bliver den formentligt ved med.
For ChatGPT er programmeret på en måde, hvor den hellere skal opfinde svar end indrømme, at den tager fejl. Det konkluderer en ny rapport fra OpenAI selv.
Det fremgår af forskningsartiklen “Why Language Models Hallucinate”, der er udgivet i begyndelsen af september af tre forskere fra OpenAI.
Ifølge rapporten er problemet grundlæggende, at sprogmodeller belønnes for at gætte, og ikke for at give korrekte svar eller indrømme uvidenhed.
Det er en konsekvens af, hvordan modellerne bliver trænet og efterfølgende evalueret.
“De fleste gængse evalueringsmetoder belønner hallucinerende adfærd,” skriver forskerne i rapporten ifølge The Register.
Et forkert svar er bedre end 100 procent korrekthed
Som et konkret eksempel bad forskerne en OpenAI-model om at oplyse fødselsdagen på én af forfatterne til rapporten, Adam Tauman Kalai. Den kom med tre forskellige bud, og alle var forkerte.
Problemet er ifølge forskerne, at modellen ikke er trænet til at sige “det ved jeg ikke”. Tværtimod er den trænet til altid at give et svar, uanset hvor usikkert det måtte være.
Det skyldes dybest set, at et forkert svar en gang imellem – ifølge OpenAI – er bedre, end at chatbotten altid skal være 100 procent korrekt.
“Over tusindvis af testspørgsmål klarer den gættende model sig bedre i pointgivning end en forsigtig model, der indrømmer usikkerhed,” skriver OpenAI i et blogindlæg om rapporten.
Umuligt at træne AI på fejlfrit data
Hallucinationerne begynder allerede i prætræningen, hvor modellerne fodres med massive datamængder fra internettet og andre tekstkilder.
Hvis informationen ikke er entydig eller kun optræder én gang, vil modellen ofte forsøge sig med et gæt.
For eksempel skriver forskerne, at hvis 20 procent af alle fødselsdagsoplysninger i træningsdata kun optræder én gang, så vil modellen sandsynligvis også hallucinere på cirka 20 procent af fødselsdagsspørgsmålene.
Senere forværres problemet af den måde, sprogmodeller evalueres på. Mange benchmarks er designet som multiple choice-tests, hvor der kun gives point for rigtige svar, og ikke for at sige “det ved jeg ikke”.
Det presser modellerne til at levere et gæt frem for at melde pas.
OpenAI mener selv, at løsningen er at ændre selve incitamentet: I stedet for at belønne modeller for at give et svar, skal man belønne dem for at udvise passende usikkerhed.
“Enkle ændringer i evalueringsmetoderne kan fjerne barrierer for at undertrykke hallucinationer og åbne døren for mere nuancerede sprogmodeller,” lyder det i konklusionen.
Det ideelle ville ifølge forskerne være at træne modeller på fejlfrie datasæt, men det er i praksis umuligt. I stedet forsøger OpenAI nu at træne kommende versioner af ChatGPT til i højere grad at kunne sige “det ved jeg ikke”.
Ifølge selskabet er denne tilgang allerede implementeret i træningen af den kommende ChatGPT-5-model.