(Foto: Jonathan Kemper/Unsplash)

ChatGPT's nye AI-motor kan forstå memes og bestå matematik prøver på højt niveau: Men hvor god er den nye GPT4-model egentlig?

Version 4.0 af ChatGPT’s Ai-model er ude: Her er de nye muligheder, den tilbyder.

20. marts 2023 kl. 14.50

OpenAI’s ChatGPT har siden november 2022 sat AI-assisterede systemer i den brede bevidsthed.

Med ét kunne man konversere i ganske naturligt sprog med en kunstig intelligens, som på mange leder og kanter kan give tilfredstillende – men også forkerte eller foruroligende svar.

’Hjernen’ bag tjenesten, den generative sprog-model kaldet ’GPT’, slippes nu løs i en version 4.0, som nu bygger ovenpå et langt mere omfattende dataset.

Hvor GPT version 3.0 fra 2020 arbejder med omkring 175 milliard parametre, håndterer version 4.0 nu næsten 1.000 gange flere: Svimlende 170 billioner parametre.

Med sit langt mere udviklede neurale netværk er GPT 4.0 modellen nu også i stand til at genkende elementer i billeder og videoer, hvilket øger mulighederne for GPT4 baserede tjenester markant.

Forstår 'memes'

Mens GPT-modellerne hidtil har været begrænset til tekstbaseret inputs, kan version 4.0 nu forstå, hvad det er der vises i billeder og afkode en eventuelt sammenhæng.

I OpenAI’s egen præsentation af GPT4 modellen viser den, hvordan et billede bestående af tre fotos fra det sociale nyhedsmedie Reddit kan tolkes som en vittighed – som var det en tegneserie, der afkodes.

Når GPT4-modellen spørges ind til at forklare vittigheden, kan den fortælle, hvad de tre billeder afbilleder (en iPhone med et VGA-stik, en æske med VGA-stik efterligning til Lightning-port og til sidst en Ligtning-stikket inde i attrappen), sætte dem i sammenhæng, for så til sidst at forklare det sjove i fotosekvensen.

”Humoren i dette billed kommer fra absurditeten, der er i at stikke et outdatet VGA-stik til en lille moderne smarpthones lade-stik,” lyder forklaringen fra den kunstige intelligens.

Af visuelt drevne færdigheder viser OpnAI også muligheden for at afkode grafer og tabeller, tekniske tegninger og endda internet-memes, såsom et kort over klodens kontinenter bestående af kyllinge-nuggets.

En 10-tals studerende

Med sit mere omfattende dataset at trække på, udkonkurrerer GPT4 den foregående på en lang række akademiske discipliner.

GPT4 har fået lov at prøve kræfter med dusinvis af standardiserede amerikanske skriftlige prøver i varierede discipliner såsom engelsk, historie, biologi, fysik og selv avancerede prøver såsom avanceret matermatik og den amerikanske advokatstands afgangseksamen.

Her scorer GPT4 generelt langt bedre end sin forgænger, som døjer med at placere sig i den bedre halvdel i et felt af gennemsnittelige menneskelige testdeltagere.

De nye algortimer klarer sig langt bedre og placerer sig oftest i toppen af feltet med prøveresultater, der placerer den foran 80 til 90 procent af menneskelige deltagere – præstationer, der oftest vil udløse 10- eller 12- taller i undervisningssammenhæng.

Bedre til sprogforståelse

Samtidig er GPT4-modellens evne til at forstå meningen i den tekst, der læses, skudt betragteligt i vejret i forhold til GPT3.5-forgængeren.

Hvor version 3.5 af modellen opnåede en nøjagtighed på 70,1 procent i en standardiseret mål for engelsk sprogforståelse, er version 4.0 nu oppe på 85,5 procent.

Gevinsten er ikke blot at finde i den engelske sprogforståelse, men gælder også øvrige sprog, såsom spansk (83,7 procent), tysk (83,6 procent) og fransk (83,1 procent).

Selv små sprogområder, såsom islandsk og walisisk opnår scorer, som er højere med GPT4, end GPT3.5 var med sit ’modersmål’, engelsk.

Mere personlighed

Mens ChatGPT som udgangspunkt er tilskrevet bestemt stil og tone, åbner GPT4 for at tildele en evenuelt chat-overbygning mere personlighed.

Her viser GPT4 sig at kunne udvise flersidet personligheder ved at antage vidt forskellige tonefald – lige fra en sokratisk lærer, en shakespeare inspireret pirat eller en JSON kommando-prompt.

OpenAI indskærper dog her, at tilpasningsgraden af skal ligge indenfor selskabets retningslinjer, mens det samtidig erkender, at system-beskeder er en af de nemmeste måder at ’jailbreake’ GPT-platformen til at gå udenfor sine definerede grænser).

Langt mere nøjagtig – og fintunet censur

Med sit større datasæt opnår GPT 4 store landvindinger indenfor tjenestens nøjagtighed.

Hvor tidligere versioner af GPT-modellerne kunne opdigte oplysninger eller få såkaldte ’hallucinationer’ i mellem 40 og 60 procent af tilfældene er GPT4-modellen nu i stand til svare faktuelt korrekt i mellem 70 og 80 procent af tiden indenfor en stribe områder fra videnskab, til historie til finans og over teknologi.

GPT4-modellen vil dog stadig have en tidsmæssig begrænsning qua sit datasæt, som stopper ved omkring september 2021.

Samtidig vil GPT4 modellen indføre en strengere grad af censur overfor forespørgsler af tvivlsom karakter.

Forespørgsler såsom ’hvordan laver jeg en bombe’ vil fremover mødes af en pure afvisning af forespørgslen, hvor tidligere versioner kunne have tendens til at forsøge at svare helt eller delvist på sådanne forespørgsler.

Andre givetvis mindre tvivlsomme forespørgsler såsom, ’hvor finder jeg billige cigaretter’, vil blive besvaret mere fyldestgørende end ved tidligere modeller, mens sundhedsrisikoen ved rygning fortsat vil fremhæves.