Sikkerhed i generativ AI: Kan en sprogmodel røbe dine hemmeligheder?

Klumme: Kan en sprogmodel røbe det, du har skrevet? Sjældent på den måde, folk forestiller sig. Der er dog andre ting, der kan gøre stor skade på kort tid.

19. januar 2026 kl. 12.30

(Foto: Warren/Unsplash)

Erik David Johnson Chief AI Officer, Context&

Erik David Johnson

Chief AI Officer, Context&

Min indgangsvinkel til AI har været lidt speciel. Jeg startede med at læse Analytisk Sprogfilosofi og Kognitiv Semantik på Københavns Universitet, og skiftede derefter retning mod sin store passion for programmering og blev Cand.it i Software Engineering på IT-universitet (ITU), med en specialisering i Avanceret AI programmering, og fag ved Center for Sprogteknologi (CST).

Denne lidt særegne kombination af emneområder, kombinerer jeg i min forskning i hvordan fremtidens sprogteknologiske AI-løsninger skal bygges, som er valideret af Berkeley Universitet. Jeg brugte faktisk mit speciale til at udgive min mangeårige forskning, i stedet for at gå Ph.d.-vejen, for hurtigere at kunne træde ind på arbejdsmarkedet, så jeg kalder mig gerne ”amatørforsker”, trods den internationale anerkendelse. Kort sagt forudser min forskning for 15+ år siden, den udvikling vi ser med store sprogmodeller nu i dag.

Dengang skulle til USA og forske hvis jeg skulle arbejde med min specialviden inden for sprogteknologi, men da jeg valgte at blive i Danmark, arbejdede jeg i stedet med klassisk Machine Learning (ML), hvor jeg har haft alle rollerne: Programmør, Arkitekt, Leveranceansvarlig og Visionær – og har stået bag prisvindende ML-løsninger der i produktion i Danmark i dag. De første 6½ var jeg kendt som ”Mr. AI” i Netcompany, og i dag er jeg så Chief AI Officer i konsulenthuset Delegate.

I den tid har jeg deltaget i talrige udvalg og råd, såsom Regeringens Ekspertgruppe for Dataetik, som nedsatte det Dataetiske Råd vi har i dag, og sidder lige nu som forperson i IT Branchens NewTech Policy Board, hvor jeg er med til at forme landskabet i Danmarks møde med Generativ AI, og tit kaldes ind af regeringen som rådgiver og formidler af emnet. Se i øvrigt mere om mig på erk.dk.

Læs mere

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

Der er en bestemt type bekymring, jeg støder på igen og igen, når snakken falder på generativ AI og sikkerhed. Den kommer typisk i én af to versioner:

Enten: "Hvis sprogmodellen træner på mine data, kan den så bagefter fortælle dem til andre?"

Eller: "Hvis jeg skriver noget privat i en chat, er det så nu 'inde i sprogmodellen' for altid?"

Det lyder rimeligt, hvis man i baghovedet ser sprogmodellen som en database: Du putter en hemmelighed ind, og så ligger den der som en række i en tabel, indtil en anden bruger ved et uheld får den serveret.

Men det er netop her, misforståelsen bor. En sprogmodel er ikke en database, og når man først forstår hvordan den faktisk "lærer", så ændrer hele frygten karakter.

Den mentale model, der skaber forvirring

Vi er vant til systemer, hvor input bliver til lagring.

I klassisk it giver det mening at spørge: "Hvor bliver teksten gemt?" og "hvem kan slå den op?"

Derfor laver hjernen en hurtig oversættelse: Sprogmodel = lager. Og så følger den logiske konklusion: Hvis modellen har trænet på mine data, kan den vel også finde dem igen.

Det er bare ikke sådan, træning virker i store sprogmodeller.

Når en sprogmodel trænes, lægger man ikke tekst ind i et "hemmelighedsarkiv".

Man justerer et enormt antal parametre, så modellen bliver bedre til at forudsige næste ord i en sætning. Den lærer mønstre, stil, sandsynligheder og sammenhænge. Ikke "dokumenter."

Hvis database-analogien var rigtig, ville man kunne spørge: "Giv mig præcis det, Charles skrev 13. oktober kl. 10:32", og så ville modellen hente det frem.

Men det, der faktisk foregår, er nærmere: "Efter at have set nok lignende tekst, bliver den bedre til at skrive noget i samme retning."

Det er forskellen på at gemme og at lære.

Hvad sker der, når du taler med en model?

Her bliver det tit rodet sammen, fordi der findes to niveauer: modellen og systemet omkring modellen.

Når du skriver i en chat med en sprogmodel, bliver din tekst brugt som kontekst til at lave svaret her og nu i selve samtalen, indtil du starter en ny samtale.

Men det er ikke det samme som, at den "har lagret det inde i sig selv."

Det, folk i praksis frygter, er noget andet: At din tekst bliver ved med at eksistere efter samtalen, og at en anden bruger senere kan få den ud af modellen.

Og her er det afgørende at forstå, at den risiko ikke primært kommer fra sprogmodellen, men fra helt klassiske ting omkring modellen som lagring, adgang, logs, integrationer, fejlkonfiguration og governance.

Der findes også teoretisk set model-nære risici som memorering og udtrækningsangreb, som seriøse udbydere tester og forsøger at mitigere, men de hører til sjældenhederne i praksis.

Når modellen trænes på dine data

"Men hvis den bliver gentrænet på mine data, så ligger de vel i den?"

I princippet jo, men ikke som man forestiller sig; ikke som en tabelværdi i en database, eller som et stykke tekst i et bibliotek.

Når data indgår i gentræning, bliver de ikke liggende som tekst, der kan slås op.

De bliver til bittesmå ændringer i neurale forbindelser. Og for at modellen skal kunne spytte en specifik hemmelighed tilbage – ordret og præcist – kræver det som regel noget, der ligner gentagelse, stabil tilstedeværelse og stærke signaler i træningen.

En enkelt privat oplysning, sagt én gang, er normalt ikke en "ting", der får sin egen plads i modellen.

Den bliver fortyndet i et hav af træningsmønstre og generalisering. Det betyder ikke, at memorering er umulig. Det kan ske, især hvis tekst optræder igen og igen.

Men det er netop det: en undtagelse, man adresserer med test, filtrering, datahygiejne og træningspraksis – ikke en automatisk konsekvens af at "sprogmodellen har fået én ting at vide én gang."

At antage, at "gentræning = opslagbar hemmelighed," er som at tro, at hvis du læser en bog én gang, så kan du recitere side 173 ordret resten af livet.

Nogle mennesker kan. De fleste kan ikke. Og for modeller er mekanismen noget helt tredje: der er en stor forskel på at lære en regelmæssighed og at gemme en sætning.

Den rigtige risiko ligger ofte et andet sted

Det interessante er, at de egentlige lækager i praksis sjældent handler om, at modellen "afslører" noget, den har trænet på.

De handler i stedet om, at systemet omkring modellen får adgang til noget, den ikke burde.

Det er her, vi ser de reelle sikkerhedsproblemer: når en chatbot er koblet til dokumenter, mail, intranet, kundeoplysninger eller sagsdata.

Så kan modellen godt ende med at svare med noget fortroligt – men ikke fordi, den har hemmeligheden i sin neurale "hukommelse", men fordi der på anden vis har været adgang hertil.

På den måde bliver "sprogmodellen som database" en dobbelt fælde: Den får os til at fokusere på den mindst sandsynlige del (at en hemmelighed ligger som tekst inde i modellen), og overser den mest sandsynlige del (at data ligger i systemer, logs og rettigheder, rundt om modellen, der kan misbruges).

Så er det ligegyldigt, om den træner på dine data?

Tæt på, men ikke helt. Det kan være vigtigt af juridiske, kontraktuelle og etiske grunde, og det kan være helt afgørende i regulerede miljøer.

Men hvis begrundelsen er "ellers kan den afsløre min hemmelighed", så er begrundelsen ofte bygget på en forkert forståelse af, hvad en model er.

Her skal jeg også sige, at mange udbydere af sprogmodeller har givet fortabt på at forklare, hvordan brugernes input ender som justerede mønstre, frem for bevaret data man kan slå op, og i stedet lægger deres marketingstrategi op ad brugernes forfejlede forforståelse.

"Vi garanterer at den ikke træner på dine data" er for mig lidt som at sige om en flyvemaskine: "Vi garanterer at den ikke river hul i himlen".

Den mere velfunderede bekymring er snarere, hvad der sker med ens data, inden de forsvinder ind i sprogmodellen:

Hvem kan se mine data? Hvor længe gemmes de? Bliver de brugt til forbedring? Kan jeg slå det fra? Er der adgangskontrol? Hvad er retention? Hvilke integrationer er der? Hvordan håndteres databrud?

Den korte pointe, til debatten om sikkerhed og træning

Hvis jeg skulle kondensere hele artiklen til én sætning, ville det være denne: En sprogmodel er ikke et arkiv over det, du har skrevet – den er en maskine, der generaliserer mønstre.

Når vi forstår det, forsvinder en stor del af de stereotype fordomme og den "database-logik", der præger debatten.

Og vi får i stedet øje på det, der virkelig betyder noget: datastyring, adgang, integrationer og den konkrete måde løsningen er bygget på.

Det er også her, den voksne sikkerhedssamtale starter.

Ikke i frygten for at neuroner sladrer, men i spørgsmålet om, hvordan vi designer systemer, der ikke kommer til at gøre det ad andre veje.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.