Afsløring: ChatGPT er kodet til at opfinde svar i stedet for at sige “ved ikke”

Et forkert svar er bedre end 100 procent korrekthed

Som et konkret eksempel bad forskerne en OpenAI-model om at oplyse fødselsdagen på én af forfatterne til rapporten, Adam Tauman Kalai. Den kom med tre forskellige bud, og alle var forkerte.

Problemet er ifølge forskerne, at modellen ikke er trænet til at sige “det ved jeg ikke”. Tværtimod er den trænet til altid at give et svar, uanset hvor usikkert det måtte være.

Det skyldes dybest set, at et forkert svar en gang imellem – ifølge OpenAI – er bedre, end at chatbotten altid skal være 100 procent korrekt.

“Over tusindvis af testspørgsmål klarer den gættende model sig bedre i pointgivning end en forsigtig model, der indrømmer usikkerhed,” skriver OpenAI i et blogindlæg om rapporten.

Umuligt at træne AI på fejlfrit data

Hallucinationerne begynder allerede i prætræningen, hvor modellerne fodres med massive datamængder fra internettet og andre tekstkilder.

Hvis informationen ikke er entydig eller kun optræder én gang, vil modellen ofte forsøge sig med et gæt.

For eksempel skriver forskerne, at hvis 20 procent af alle fødselsdagsoplysninger i træningsdata kun optræder én gang, så vil modellen sandsynligvis også hallucinere på cirka 20 procent af fødselsdagsspørgsmålene.

Senere forværres problemet af den måde, sprogmodeller evalueres på. Mange benchmarks er designet som multiple choice-tests, hvor der kun gives point for rigtige svar, og ikke for at sige “det ved jeg ikke”.

Det presser modellerne til at levere et gæt frem for at melde pas.

OpenAI mener selv, at løsningen er at ændre selve incitamentet: I stedet for at belønne modeller for at give et svar, skal man belønne dem for at udvise passende usikkerhed.

“Enkle ændringer i evalueringsmetoderne kan fjerne barrierer for at undertrykke hallucinationer og åbne døren for mere nuancerede sprogmodeller,” lyder det i konklusionen.

Det ideelle ville ifølge forskerne være at træne modeller på fejlfrie datasæt, men det er i praksis umuligt. I stedet forsøger OpenAI nu at træne kommende versioner af ChatGPT til i højere grad at kunne sige “det ved jeg ikke”.