Wie umständlich wäre es, jedes Mal beim Wechsel zu einem neuen Smartphone alle Kontakte und Fotos manuell übertragen zu müssen? Aktuelle Modelle der Künstlichen Intelligenz (KI) stehen vor einem ähnlichen Problem. Sobald ein überlegenes neues KI-Modell – wie beispielsweise eine neue Version von ChatGPT – entwickelt wird, muss es mit riesigen Datenmengen und hohem Kostenaufwand neu trainiert werden, um sich Fachwissen in bestimmten Bereichen anzueignen. Ein koreanisches Forschungsteam hat nun eine Technologie zur „Wissensübertragung“ zwischen KI-Modellen entwickelt, die diese Ineffizienz beheben kann.
KAIST gab am 27. Januar bekannt, dass ein Forschungsteam unter der Leitung von Professor Hyunwoo J. Kim von der School of Computing in Zusammenarbeit mit einem Forschungsteam der Korea University eine neue Technologie entwickelt hat, die in der Lage ist, erlerntes Wissen effektiv zwischen verschiedenen KI-Modellen zu „transplantieren“.
In letzter Zeit haben sich Bild-Sprach-Modelle (VLM), die Bilder und Text gleichzeitig verstehen, rasant weiterentwickelt. Man kann sie sich leicht als multimodale KI vorstellen, wie beispielsweise ChatGPT, das Erklärungen liefert, wenn ein Nutzer ein Foto zeigt und eine Frage stellt. Diese Modelle haben den Vorteil, sich durch das Vorlernen umfangreicher Bild- und Sprachdaten relativ schnell an neue Anwendungsgebiete mit geringen Datenmengen anpassen zu können.
Die Notwendigkeit, diesen „Anpassungsprozess“ bei jeder Veröffentlichung eines neuen KI-Modells von Grund auf neu durchzuführen, wurde jedoch als erhebliche Ineffizienz kritisiert. Auch bestehende Anpassungstechniken wiesen Einschränkungen auf: Sie waren schwer anwendbar, wenn sich die Modellstruktur auch nur geringfügig änderte, oder sie erhöhten den Speicher- und Rechenaufwand erheblich, da mehrere Modelle gleichzeitig verwendet werden mussten.
Um diese Probleme zu lösen, schlug das Forschungsteam „TransMiter“ vor, eine übertragbare Anpassungstechnik, die es ermöglicht, erlerntes Wissen unabhängig von der Struktur oder Größe des Modells wiederzuverwenden. Kern dieser Technologie ist die direkte Übertragung der von einer KI während des Lernprozesses gesammelten „Anpassungserfahrung“ auf ein anderes KI-Modell.
Die Technologie der Forscher verändert nicht die komplexe interne Struktur der KI; stattdessen überträgt sie das durch Beobachtung der Vorhersageergebnisse (Ausgabe) erworbene Wissen an eine andere KI. Selbst wenn die KI-Modelle unterschiedliche Architekturen aufweisen, kann eine andere KI dieses Wissen sofort nutzen, sofern es auf den Antworten auf dieselben Fragen basiert. Dadurch entfällt der aufwendige und zeitintensive Retraining-Prozess, und die Geschwindigkeit wird kaum beeinträchtigt.
Diese Studie ist von großer Bedeutung, da sie erstmals beweist, dass KI-Anpassungswissen – dessen Wiederverwendung bei unterschiedlichen Modellstrukturen oder -größen bisher als nahezu unmöglich galt – unabhängig vom Modelltyp präzise übertragen werden kann. Dies dürfte nicht nur die Kosten für wiederholtes Lernen reduzieren, sondern auch als sogenannte „Knowledge Patch“-Technologie eingesetzt werden, die große Sprachmodelle (LLMs) in Echtzeit an spezifische Bedürfnisse anpasst.
Professor Hyunwoo J. Kim erklärte: „Durch die Erweiterung dieser Forschung können wir die Kosten des Nachtrainings, das immer wieder durchgeführt werden musste, wenn ein sich schnell entwickelndes hyperskalierbares Sprachmodell auftauchte, erheblich reduzieren. Dies ermöglicht ‚Modell-Patches‘, mit denen sich auf einfache Weise Expertise in spezifischen Bereichen hinzufügen lässt.“
An der Studie wirkten Taehoon Song (Masterstudent, KAIST School of Computing), Sanghyeok Lee (Postdoktorand) und Jihwan Park (Doktorand, Korea University) als Koautoren mit; Professor Hyunwoo J. Kim fungierte als korrespondierender Autor. Die Forschungsergebnisse wurden für eine mündliche Präsentation (4,6 % Annahmequote, Stand 2025) auf der AAAI 2026 (Association for the Advancement of Artificial Intelligence), der renommiertesten internationalen Konferenz im Bereich KI, angenommen und am 25. Januar präsentiert.
- Titel des Papers: Übertragbare modellagnostische Anpassung von Bild- und Sprachmodellen für eine effiziente Generalisierung von schwachen zu starken Modellen
- DOI: https://doi.org/10.48550/arXiv.2508.08604
Das Labor von Professor Hyunwoo J. Kim präsentierte derweil insgesamt drei Arbeiten auf der Konferenz, darunter diese Arbeit und „TabFlash“, eine in Zusammenarbeit mit Google Cloud AI entwickelte Technologie zur Verbesserung des Verständnisses von Tabellen in Dokumenten.
