Zum Inhalt springen

Neue Methode steuert KI-Ausgaben und deckt Schwachstellen auf

Forscher haben eine Möglichkeit entwickelt, die Ausgaben großer Sprachmodelle gezielt zu lenken, indem sie mathematisch die Bedeutung einzelner Konzepte im Inneren der Modelle verstärken oder abschwächen. Die Technik könnte zu zuverlässigeren, effizienteren und weniger rechenintensiven Trainingsverfahren für Large Language Models führen – birgt jedoch auch Risiken. Die Ergebnisse erschienen am 19. Februar 2026 im Fachjournal Science.

Das Team um Mikhail Belkin von der University of California San Diego und Adit Radhakrishnan vom Massachusetts Institute of Technology identifizierte in mehreren offenen Modellen wie Llama und Deepseek insgesamt 512 Konzepte in fünf Kategorien – von Ängsten und Stimmungen bis hin zu Orten. Durch einfache mathematische Operationen konnte die Bedeutung dieser Konzepte angepasst werden. Die Methode funktionierte nicht nur in Englisch, sondern auch in Sprachen wie Chinesisch und Hindi.

Aufbauend auf einer Arbeit aus dem Jahr 2024 nutzten die Wissenschaftler sogenannte Recursive Feature Machines, um Muster in den internen mathematischen Operationen der Modelle zu erkennen, die spezifische Konzepte kodieren. „Wir konnten diese Muster mit überraschend einfacher Mathematik verändern“, sagte Belkin.

Die Steuerung verbesserte die Leistung der Modelle bei präzisen Aufgaben, etwa der Übersetzung von Python- nach C++-Code. Zudem half sie, Halluzinationen zu erkennen. Gleichzeitig zeigte sich die Methode als Angriffsvektor: Durch Abschwächung des Konzepts „Verweigerung“ ließen sich Sicherheitsmechanismen umgehen (Jailbreaking). Die Modelle gaben dann Anleitungen zur Herstellung von Kokain oder erfanden Sozialversicherungsnummern. In weiteren Versuchen verstärkten die Forscher politische Vorurteile oder Verschwörungstheorien – etwa die Behauptung, Satellitenbilder der Erde seien eine NASA-Vertuschung einer flachen Erde, oder die Behauptung, COVID-Impfstoffe seien giftig.

Die Methode ist recheneffizient: Auf einer einzelnen NVIDIA-A100-GPU dauerte die Identifikation und Steuerung eines Konzepts weniger als eine Minute und benötigte unter 500 Trainingsbeispiele. Die Forscher beobachteten, dass neuere und größere Modelle leichter steuerbar waren. Sie gehen davon aus, dass das Verfahren auch bei kleineren, lokal lauffähigen Modellen funktioniert.

Die Arbeit unterstreicht, dass Modelle mehr Wissen besitzen, als sie in ihren Antworten ausdrücken. Ein besseres Verständnis interner Repräsentationen könnte grundlegende Verbesserungen bei Leistung und Sicherheit ermöglichen. Nächste Schritte umfassen die Anpassung der Steuerung an spezifische Eingaben und Anwendungen.

Die Studie wurde unter anderem von der National Science Foundation, der Simons Foundation, dem TILOS-Institut der UC San Diego und dem Office of Naval Research der USA gefördert. Die Forscher konnten die Methode nicht an geschlossenen kommerziellen Modellen wie Claude testen, halten sie aber für grundsätzlich auf alle großen Sprachmodelle anwendbar.

Autoren-Avatar
LabNews.AI
The Editors in Chief of labnews.ai are Marita Vollborn and Vlad Georgescu. They are bestselling authors, science writers and science journalists.More details on X-Press Journalistenbüro GbRFind out more abot their books on Bestsellerwerkstatt.More Info on Wikipedia:https://de.wikipedia.org/wiki/Marita_Vollbornhttps://de.wikipedia.org/wiki/Vlad_Georgescu