Ein semi-automatisiertes Verfahren mit Large-Language-Models (LLM) ermöglicht die zuverlässige Umwandlung unstrukturierter ambulanten Berichte bei Multipler Sklerose (MS) in strukturierte Daten. Durch Kombination mehrerer Modelle zu einem Konsensoutput erreichen die Forschenden eine Fehlerquote, die der manuellen Auswertung durch Neurologen entspricht. Die Studie erschien am 13. Februar 2026 in Frontiers in Artificial Intelligence.
Das Team um Philip Lennart Poser von der Ruhr-Universität Bochum testete kommerzielle LLMs von OpenAI, Anthropic und Google an 30 anonymisierten ambulanten Berichten aus dem Jahr 2023. Untersucht wurden 19 Variablen unterschiedlicher Komplexität, darunter Diagnose, Krankheitsverlauf, EDSS-Score, Datum der ersten Manifestation, aktuelle Immuntherapie, Oligoklonale Banden, MRT-Befunde und Gehfähigkeit.
In neun Iterationsschritten wurde der Prompt schrittweise optimiert. Zunächst traten strukturelle Fehler (falsche Spaltennamen, abweichende Reihenfolge, fehlende Spalten) auf, wenn nur Textprompts verwendet wurden. Der Wechsel zu strukturierten JSON-Ausgabefunktionen der APIs eliminierte diese Fehler vollständig. Anschließend wurde der Inhalt verbessert: Durch schrittweise Anpassung des Prompts sank die Fehlerquote bei den einzelnen Modellen deutlich.
Der entscheidende Fortschritt gelang durch Erstellung eines Konsensoutputs aus drei Flaggschiff-Modellen (Claude-3.7-Sonnet, Gemini-2-Pro, o3-mini). Nur übereinstimmende Ergebnisse wurden übernommen; bei fehlendem Konsens wurde die Variable ausgeschlossen. Bei diesem Vorgehen betrug die echte Fehlerquote (true-error-rate) nur 1,48 Prozent – vergleichbar mit der manuellen Auswertung durch Neurologen (ca. 2 Prozent). Als echte Fehler galten nur inhaltliche Abweichungen, die nicht durch den Bericht verifizierbar waren; bei Datumsangaben wurde eine Toleranz von einem Monat eingeräumt.
Die Methode nutzt Zero-Shot-Learning ohne spezifisches Training und erfordert keine aufwendige Infrastruktur. Sie ermöglicht die schnelle und kostengünstige Analyse großer Mengen unstrukturierter Routine-Daten. Die Autoren betonen jedoch, dass die Bewertung von LLM-Fehlern weiterhin herausfordernd bleibt und jede wissenschaftliche Anwendung strenger Validierung bedarf.
Das Verfahren könnte künftig die Nutzung real-world-Daten in der MS-Forschung erleichtern, etwa für Qualitätssicherung, Registerstudien oder retrospektive Analysen. Es unterstreicht das Potenzial von LLM-Konsensansätzen, um die Barrieren unstrukturierter klinischer Dokumentation zu überwinden. Die retrospektive Auswertung wurde von der Ethikkommission Westfalen-Lippe genehmigt.
source
https://doi.org/10.3389/frai.2026.1658575
