18 aug 2025, mån

Revolution i AI: Ny metod gör det möjligt att styra ChatGPT:s tankar

neural networks

Forskare vid UC San Diego har utvecklat ett sätt att styra stora språkmodeller som ChatGPT – med kirurgisk precision. Genombrottet kan förändra hur vi bygger och litar på AI.

Tänk dig att kunna vrida på en ratt och bestämma exakt hur en AI-modell ska bete sig. Inte bara vad den ska säga – utan hur den tänker.

Det är precis vad ett forskarteam lett av Mikhail Belkin vid UC San Diego har lyckats med. Genom en metod som låter dem identifiera och justera interna funktioner i språkmodeller som ChatGPT och Gemini, har de hittat ett sätt att ”styra” AI:n på djupet – och minska risken för farliga, felaktiga eller fördomsfulla svar.

– Det är som att vi förstår ingredienserna i AI:s tårta, inte bara ser det färdiga bakverket, säger Belkin.

En AI med moralisk kompass?

Forskarnas teknik bygger på något de kallar icke-linjär funktionsinlärning. Genom att studera AI-modellernas interna aktivitet – lager för lager – kunde teamet kartlägga vilka mönster som hänger ihop med till exempel toxicitet, hallucinationer eller språklig noggrannhet.

När de väl visste var problemet satt kunde de styra modellen att bete sig annorlunda. Resultatet? AI:n blev mindre skadlig, mer faktabaserad – och kunde till och med justeras för att förstå Shakespeare eller skriva poesi.

– Vi får en inblick i AI:ns ”tankemönster”, säger Belkin. Och vi kan börja påverka dem.

Billigare och bättre AI – för alla

Förutom att göra AI säkrare öppnar tekniken för effektivare modellutveckling. Genom att fokusera på rätt delar av modellen tror forskarna att man kan minska behovet av enorma datamängder och dyra resurser – något som idag ofta bara är tillgängligt för techjättar.

Det kan bana väg för specialanpassade AI-system: en medicinsk assistent som alltid ger saklig vårdinformation, eller en skrivpartner som aldrig återanvänder klyschor eller stereotypa uttryck.

Koden är dessutom öppen – fri för andra forskare att bygga vidare på.

– När AI blir en del av vår vardag måste vi förstå och kunna vägleda dess beteende, säger Rajesh Gupta, professor vid UC San Diego.

– Det här är ett viktigt steg mot en mer pålitlig, rättvis och mänsklig AI.

Källa:

Bild av: phys.org

By Linus

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *