Zum Inhalt springen

Große Sprachmodelle zeigen eine starke Leistung bei klinischen Argumentationsaufgaben von Ärzten

Laut einer neuen Studie, die reale Daten der Notaufnahme nutzte, übertraf ein hochmodernes Large-Sprach-Modell (LLM) menschliche Ärzte bei allgemeinen klinischen Argumentationsaufgaben, einschließlich Entscheidungen in der Notaufnahme, der Identifizierung wahrscheinlicher Diagnosen und der Auswahl der nächsten Schritte im Management. Die Autoren der Studie –, eine der bisher größten Studien zum Vergleich künstlicher Intelligenz und Ärzte bei einem breiten Spektrum klinischer Denkaufgaben –, sind sich darüber im Klaren, dass ihre Ergebnisse nicht bedeuten, dass KI-Systeme bereit sind, selbstständig Medizin zu praktizieren, oder dass Ärzte dies tun können aus dem Diagnoseprozess entfernt werden. Die Ergebnisse werfen jedoch dringende Fragen zur zukünftigen Bewertung und Implementierung von Instrumenten der künstlichen Intelligenz (KI) in der klinischen Versorgung auf. Seit mehr als 65 Jahren sind schwierige klinische Diagnosefälle der Goldstandard für die Bewertung medizinischer Computersysteme. In jüngster Zeit haben LLMs frühere rechnerische Ansätze in diesen komplexen Fällen übertroffen. Trotz dieser Fortschritte jedoch Die meisten medizinischen Studien zu LLMs haben enge oder hochkontrollierte Szenarien untersucht und es fehlte oft ein direkter Vergleich mit der Leistung von Humanärzten bei realen klinischen Denkaufgaben. Die rasche Weiterentwicklung LLM-basierter medizinischer Instrumente erfordert nun eine strengere Bewertung.

Hier bewerteten Peter Brodeur und Kollegen umfassend die Diagnose- und Behandlungsplanungsfähigkeiten eines fortgeschrittenen LLM – der OpenAI o1-Serie –, indem sie seine Leistung mit der von Hunderten von Ärzten und früheren KI-Systemen über eine Reihe klinischer Argumentationsaufgaben hinweg verglichen. Dazu gehörten sowohl standardisierte klinische Fälle als auch eine reale Studie mit zufällig ausgewählten Notaufnahmepatienten in einem großen medizinischen Notfallzentrum in Massachusetts. Brodeur et al.Es wurde festgestellt, dass das LLM-Modell in allen sechs Experimenten durchweg mit der menschlichen Leistung im Diagnose- und Managementdenken übereinstimmte oder diese übertraf. Bemerkenswert ist, dass sein Vorteil am deutlichsten in der Triage in der Notaufnahme im Frühstadium zum Ausdruck kam, bei der Ärzte schnelle Entscheidungen mit minimalen Informationen treffen müssen. Während sich sowohl der Mensch als auch die KI verbesserten, je mehr klinische Daten verfügbar wurden, zeigte das Modell unter unsicheren Bedingungen eine deutliche Stärke und nutzte selbst fragmentierte, unstrukturierte Gesundheitsdaten effektiv. Den Autoren zufolge nähern sich LLMs schnell dem klinischen Denken auf menschlicher Ebene an und übertreffen es in einigen Bereichen, und obwohl KI-gestützte Entscheidungsfindung oft als riskant angesehen wird, deuten die Ergebnisse darauf hin, dass solche Tools – in Zusammenarbeit mit Ärzte’-Bewertungen – verwendet werden könnte diagnostische Fehler, Verzögerungen und Unterschiede beim Zugang zur Gesundheitsversorgung reduzieren. Allerdings weisen die Autoren auch auf mehrere wichtige Einschränkungen der Studie hin. Beispielsweise beschränkte sich der Fokus auf Text-Basiertes Denken, während die klinische Praxis stark von visuellen und auditiven Hinweisen abhängt, Bereichen, in denen die aktuelle KI nach wie vor weniger leistungsfähig ist. “Die Genauigkeit einer definierten Aufgabe ist nur eine Dimension der Bereitstellungsbereitschaft. Klinische KI muss außerdem gerechte, kostengünstige und sichere Ergebnisse liefern, unterstützt durch Rechenschaftspflicht, Transparenz und kontinuierliche Überwachung, schreiben H” Ashley Hopkins und Erik Cornelisse in einer verwandten Perspektive. “Ohne robuste nachgewiesene Wirksamkeit, Gerechtigkeit und Sicherheit werden viele KI-Systeme für den klinischen Einsatz unzureichend bleiben.”

Autoren-Avatar
LabNews.AI
The Editors in Chief of labnews.ai are Marita Vollborn and Vlad Georgescu. They are bestselling authors, science writers and science journalists.More details on X-Press Journalistenbüro GbRFind out more abot their books on Bestsellerwerkstatt.More Info on Wikipedia:https://de.wikipedia.org/wiki/Marita_Vollbornhttps://de.wikipedia.org/wiki/Vlad_Georgescu