In einer der größten Studien zum Vergleich von künstlicher Intelligenz und Ärzten bei einem breiten Spektrum klinischer Argumentationsaufgaben, einschließlich realer Daten aus der Notaufnahme, bewertete ein Team von Ärzten und Informatikern an der Harvard Medical School und dem Beth Israel Deaconess Medical Center, ob ein KI-System könnte das tun, was Ärzte jeden Tag tun: Überprüfen Sie ein chaotisches Patientendiagramm und verwenden Sie diese Informationen, um die Diagnose und die nächsten Schritte zu bestimmen.
In einer neuen Studie, veröffentlicht am 30. April 2026 in Wissenschaft, Die Co-Senior-Autoren Arjun (Raj) Manrai, Assistenzprofessor für biomedizinische Informatik am HMS, und Adam Rodman, MD, MPH, ein Krankenhausarzt und klinischer Forscher am BIDMC, und ein Team berichten, dass ein großes Sprachmodell (LLM) Ärzte bei vielen gängigen klinischen Überlegungen übertraf Aufgaben, einschließlich Entscheidungen in der Notaufnahme, Identifizierung wahrscheinlicher Diagnosen und Auswahl der nächsten Schritte im Management.
Die Leistung des LLM deutete darauf hin, dass langjährige Methoden zum Testen medizinischer KI möglicherweise nicht mehr die aktuelle Leistung der Systeme erfassen, was auf einen möglichen Wendepunkt für das Fachgebiet hindeutet.
”Wir haben das KI-Modell anhand praktisch aller Benchmarks getestet und es hat sowohl frühere Modelle als auch unsere Basislinien für Ärzte in den Schatten gestellt, sagte Mitautor Manrai. ”Dies bedeutet jedoch nicht unbedingt, dass KI die Pflege verbessern wird. Wie und wo sie eingesetzt werden sollte, ist noch wenig erforscht, und wir benötigen dringend strenge prospektive Studien, um die Auswirkungen von KI auf die klinische Praxis zu bewerten.—
“Modelle seien zunehmend leistungsfähig, sagte Peter Brodeur, MD, MA, Co”-Erstautor der Studie. “Früher haben wir Modelle mit Multiple-Choice-Tests bewertet; Jetzt erreichen sie durchweg fast 100 Prozent und wir können den Fortschritt nicht mehr verfolgen, weil wir bereits an der Decke sind.”
Unter Einbeziehung von Standards, die erstmals in den 1950 er Jahren geschaffen wurden, um Ärzte auszubilden und zu bewerten, verglichen die Forscher, wie ein KI-System gegen Hunderte von Klinikern funktionierte. Die Vergleiche umfassten diagnostische Herausforderungen in Fallstudien, Argumentationsübungen und reale Fälle in der Notaufnahme.
In einem ihrer Experimente beauftragten die Forscher das LLM mit der Beurteilung von Patienten an verschiedenen Stellen in einer Standard-Notaufnahme, die von der frühen Triage bis hin zu späteren Aufnahmeentscheidungen reichte. In jeder Phase erhielt das Modell nur die zu diesem Zeitpunkt verfügbaren Informationen —, die direkt aus den elektronischen Gesundheitsakten ‑ von real—world stammen, und wurde gebeten, wahrscheinliche Diagnosen zu erstellen und Vorschläge zu machen, was als nächstes passieren sollte.
„Um die Leistung in der realen Welt besser zu verstehen, mussten wir die Leistung zu Beginn des Patientenkurses testen, wenn nur wenige klinische Daten vorliegen, sagte”, Co-Erstautor Thomas Buckley, Doktorand der Harvard Kenneth C. Griffin School of Arts and Science und Dunleavy Fellow in.“ HMS’ AI in Medicine PhD-Programm und Mitglied von Manrais Labor.
