Zum Inhalt springen

Konsens-Ansatz mit Large-Language-Models verbessert Zuverlässigkeit bei Extraktion strukturierter Daten aus MS-Berichten

Ein semi-automatisiertes Verfahren mit Large-Language-Models (LLM) ermöglicht die zuverlässige Umwandlung unstrukturierter ambulanten Berichte bei Multipler Sklerose (MS) in strukturierte Daten. Durch Kombination mehrerer Modelle zu einem Konsensoutput erreichen die Forschenden eine Fehlerquote, die der manuellen Auswertung durch Neurologen entspricht. Die Studie erschien am 13. Februar 2026 in Frontiers in Artificial Intelligence.

Das Team um Philip Lennart Poser von der Ruhr-Universität Bochum testete kommerzielle LLMs von OpenAI, Anthropic und Google an 30 anonymisierten ambulanten Berichten aus dem Jahr 2023. Untersucht wurden 19 Variablen unterschiedlicher Komplexität, darunter Diagnose, Krankheitsverlauf, EDSS-Score, Datum der ersten Manifestation, aktuelle Immuntherapie, Oligoklonale Banden, MRT-Befunde und Gehfähigkeit.

In neun Iterationsschritten wurde der Prompt schrittweise optimiert. Zunächst traten strukturelle Fehler (falsche Spaltennamen, abweichende Reihenfolge, fehlende Spalten) auf, wenn nur Textprompts verwendet wurden. Der Wechsel zu strukturierten JSON-Ausgabefunktionen der APIs eliminierte diese Fehler vollständig. Anschließend wurde der Inhalt verbessert: Durch schrittweise Anpassung des Prompts sank die Fehlerquote bei den einzelnen Modellen deutlich.

Der entscheidende Fortschritt gelang durch Erstellung eines Konsensoutputs aus drei Flaggschiff-Modellen (Claude-3.7-Sonnet, Gemini-2-Pro, o3-mini). Nur übereinstimmende Ergebnisse wurden übernommen; bei fehlendem Konsens wurde die Variable ausgeschlossen. Bei diesem Vorgehen betrug die echte Fehlerquote (true-error-rate) nur 1,48 Prozent – vergleichbar mit der manuellen Auswertung durch Neurologen (ca. 2 Prozent). Als echte Fehler galten nur inhaltliche Abweichungen, die nicht durch den Bericht verifizierbar waren; bei Datumsangaben wurde eine Toleranz von einem Monat eingeräumt.

Die Methode nutzt Zero-Shot-Learning ohne spezifisches Training und erfordert keine aufwendige Infrastruktur. Sie ermöglicht die schnelle und kostengünstige Analyse großer Mengen unstrukturierter Routine-Daten. Die Autoren betonen jedoch, dass die Bewertung von LLM-Fehlern weiterhin herausfordernd bleibt und jede wissenschaftliche Anwendung strenger Validierung bedarf.

Das Verfahren könnte künftig die Nutzung real-world-Daten in der MS-Forschung erleichtern, etwa für Qualitätssicherung, Registerstudien oder retrospektive Analysen. Es unterstreicht das Potenzial von LLM-Konsensansätzen, um die Barrieren unstrukturierter klinischer Dokumentation zu überwinden. Die retrospektive Auswertung wurde von der Ethikkommission Westfalen-Lippe genehmigt.

source

https://doi.org/10.3389/frai.2026.1658575

Autoren-Avatar
LabNews.AI
The Editors in Chief of labnews.ai are Marita Vollborn and Vlad Georgescu. They are bestselling authors, science writers and science journalists.More details on X-Press Journalistenbüro GbRFind out more abot their books on Bestsellerwerkstatt.More Info on Wikipedia:https://de.wikipedia.org/wiki/Marita_Vollbornhttps://de.wikipedia.org/wiki/Vlad_Georgescu