Elon Musks nye ’Grok’ AI går sin sejrsgang: Så vild er den nye udfordrer til ChatGPT

Klar topscorer

Ifølge xAI’s egne tal, er Grok 3 og dennes ræsonnerende pendant ’Grok 3 reasoning’, som ifølge selskabets egne benchmarks klarer sig bedre end de førende modeller fra både OpenAI (ChatGPT o3 mini-high), Google (Gemini 2.0 Flash Thinking) og den kinesiske DeepSeek R1.

Her viser Grok 3 familien at klare sig bedst i tre discipliner Matematik, Videnskab og programmering.

xAI’s nye model gør sig også særdeles positivt bemærket i den brugerbedømte benchmark lmarena.ai, hvor en tidlig version af modellen under kodenavnet ’Chocolate’ placerer sig på en klar førsteplads med et godt stykke ned til konkurrenterne.

Sammen med modellen følger også en ny funktion døbt ’Deep Search’, der sender chatbotten ud på nettet for at finde og sammendrage informationer fra nettet på samme vis som AI-drevne søgemaskiner såsom Googles og OpenAI’s ’Deep Research’ funktioner.

Lynkarriere

Hvor tidligere versioner af Grok-modellerne ikke har vundet nogen bred udbredelse, leverer den nye model-familie svar af hidtil uset kvalitet, særligt taget i betragtning af, at xAI er en af de nyeste spillere i AI-kapløbbet.

Ifølge en af de tidliger testbrugere af tjenesten, Teslas forhenværende AI-chef Andrej Karpathy, er det noget af en bedrift xAI har opnået med Grok 3:

”Grok 3 + Thinking opleves som værende på niveau med det nyeste inden for OpenAIs stærkeste modeller (o1-pro, $200/måned) og en anelse bedre end DeepSeek-R1 og Gemini 2.0 Flash Thinking.

Det er virkeligt utroligt, når man tænker på, at teamet startede fra bunden for omkring et år siden – at ramme dette ’state of the art’ niveau på denne tidsramme er uden fortilfælde.”

Elon Musk kalder selv modellen for ’skræmmende intelligent’ og understregede samtidig ved præsentation at Grok 3 stadig er i udvikling, og at der kan forventes den både imperfektioner og at nye features såsom en stemmestyret funktion er på vej.

Vil du selv prøve modellen, skal du forbi en VPN-tjeneste for at prøve modellen på grok.com, da modellen endnu ikke er gjort tilgængelig i EU og Storbritannien.