Große Sprachmodelle (LLMs) können in bestimmten Bereichen der klinischen Entscheidungsfindung bereits mit erfahrenen Ärzten mithalten oder diese sogar übertreffen. Das zeigt eine aktuelle Studie, über die die JMIR Publications in ihrem News and Perspectives-Bereich berichtet.
Die Untersuchung verglich die diagnostische Leistung des OpenAI-Modells o1 mit der von Ärzten in drei Phasen der Patientenversorgung: bei der Ersteinschätzung in der Notaufnahme, beim ersten Arztkontakt und nach der Aufnahme. Besonders groß war der Leistungsvorsprung der KI bei der initialen Triage, wenn nur wenige Informationen vorlagen.
Adam Rodman, einer der beteiligten Forscher, betonte jedoch, dass die Ergebnisse die diagnostische Leistungsfähigkeit der Modelle bestätigen, diese aber noch nicht für den eigenständigen Einsatz geeignet seien. Sprachmodelle seien zwar gut darin, textbasierte Informationen zu verarbeiten, könnten aber nicht die nicht-textuellen Informationen ersetzen, die Ärzte während der körperlichen Untersuchung oder durch nonverbale Signale gewinnen.
Die Autoren sehen daher den größten Nutzen der Technologie derzeit als Unterstützungssystem, das Ärzte vor möglichen Fehlentscheidungen warnen und als Zweitmeinung dienen kann. Für einen sicheren Einsatz in der Praxis seien jedoch weitere prospektive Studien in realen klinischen Umgebungen notwendig.
Der Beitrag „Can Human-Like Reasoning Be Replicated in LLMs for Clinical Decision-Making?“ von Shalini Kathuria Narang erschien in der Journal of Medical Internet Research (2026;28:e103526; DOI: 10.2196/103526).
