KI-Modelle zeigen Fortschritte bei medizinischen Prüfungsfragen
Ein Benchmark-Bericht von Vals AI vom 9. Mai 2025 zeigt die Leistungsfähigkeit von über 15 führenden Sprachmodellen (LLMs) bei der Beantwortung von 2000 medizinischen Fragen auf USMLE-Niveau aus dem MedQA-Datensatz. Das Modell „o1“ erreichte mit 96,9 % die höchste Genauigkeit bei unvoreingenommenen Fragen, gefolgt von Grok 2 und Deepseek R1, die bei geringeren Kosten ebenfalls stark abschnitten. Grok 2 zeichnete sich durch ein hervorragendes Preis-Leistungs-Verhältnis aus. Die Studie untersuchte auch die Robustheit der Modelle gegenüber rassistischen Vorurteilen, indem Fragen mit gezielt eingefügten Bias-Vorlagen (z. B. Stereotype über Schwarze, Hispanoamerikaner oder Asiaten) getestet wurden. Die meisten Modelle zeigten stabile Leistungen, wobei Grok 2 jedoch bei voreingenommenen Fragen leicht nachließ. Einige Modelle, wie Llama 3.1, wiesen bei Bias-Fragen signifikante Leistungseinbußen auf. In einem Beispiel führten rassistische Voreingenommenheiten in den Erklärungen einiger Modelle zu falschen Diagnosen, etwa durch die Berufung auf stereotype Ernährungsgewohnheiten.…
