跳转到内容

KI-Modelle zeigen Fortschritte bei medizinischen Prüfungsfragen

Ein Benchmark-Bericht von Vals AI vom 9. Mai 2025 zeigt die Leistungsfähigkeit von über 15 führenden Sprachmodellen (LLMs) bei der Beantwortung von 2000 medizinischen Fragen auf USMLE-Niveau aus dem MedQA-Datensatz. Das Modell „o1“ erreichte mit 96,9 % die höchste Genauigkeit bei unvoreingenommenen Fragen, gefolgt von Grok 2 und Deepseek R1, die bei geringeren Kosten ebenfalls stark abschnitten. Grok 2 zeichnete sich durch ein hervorragendes Preis-Leistungs-Verhältnis aus.

Die Studie untersuchte auch die Robustheit der Modelle gegenüber rassistischen Vorurteilen, indem Fragen mit gezielt eingefügten Bias-Vorlagen (z. B. Stereotype über Schwarze, Hispanoamerikaner oder Asiaten) getestet wurden. Die meisten Modelle zeigten stabile Leistungen, wobei Grok 2 jedoch bei voreingenommenen Fragen leicht nachließ. Einige Modelle, wie Llama 3.1, wiesen bei Bias-Fragen signifikante Leistungseinbußen auf. In einem Beispiel führten rassistische Voreingenommenheiten in den Erklärungen einiger Modelle zu falschen Diagnosen, etwa durch die Berufung auf stereotype Ernährungsgewohnheiten.

Die Ergebnisse deuten auf erhebliche Fortschritte in der medizinischen Wissensverarbeitung hin, jedoch bleibt die Anfälligkeit für Voreingenommenheiten eine Herausforderung. Die Autoren schlagen vor, zukünftig schwierigere Datensätze zu entwickeln, da die Leistungsgrenze bei MedQA fast erreicht ist.

Quelle: Vals AI, „Benchmarking Model Performance on MedQA“, 9. Mai 2025

作者头像
LabNews Media LLC
labnews.ai 的主编是 Marita Vollborn 和 Vlad Georgescu。自 1994 年以来,他们一直是畅销书作家、科学作家和科学记者。更多关于他们的写作信息,请访问 X-Press Journalistenbüro (https://xpress-journalisten.com)。更多维基百科信息:关于 Marita:https://de.wikipedia.org/wiki/Marita_Vollborn 关于 Vlad:https://de.wikipedia.org/wiki/Vlad_Georgescu
LabNews Media LLC

LabNews Media LLC

labnews.ai 的主编是 Marita Vollborn 和 Vlad Georgescu。自 1994 年以来,他们一直是畅销书作家、科学作家和科学记者。更多关于他们的写作信息,请访问 X-Press Journalistenbüro (https://xpress-journalisten.com)。更多维基百科信息:关于 Marita:https://de.wikipedia.org/wiki/Marita_Vollborn 关于 Vlad:https://de.wikipedia.org/wiki/Vlad_Georgescu