Um relatório de benchmark da Vals AI de 9 de maio de 2025 demonstra a capacidade de mais de 15 modelos de linguagem líderes (LLMs) em responder a 2.000 questões médicas de nível USMLE do conjunto de dados MedQA. O modelo "o1" alcançou a maior precisão de 96,9% em questões imparciais, seguido por Grok 2 e Deepseek R1, que também tiveram bom desempenho com custos mais baixos. Grok 2 se destacou por seu excelente custo-benefício.
O estudo também investigou a robustez dos modelos contra vieses raciais, testando questões com modelos de viés inseridos intencionalmente (por exemplo, estereótipos sobre negros, hispânicos ou asiáticos). A maioria dos modelos mostrou desempenho estável, embora o Grok 2 tenha diminuído ligeiramente em questões tendenciosas. Alguns modelos, como o Llama 3.1, apresentaram quedas significativas de desempenho em questões com viés. Em um exemplo, vieses raciais nas explicações de alguns modelos levaram a diagnósticos incorretos, como ao invocar hábitos alimentares estereotipados.
Os resultados indicam avanços significativos no processamento do conhecimento médico, mas a suscetibilidade a vieses continua sendo um desafio. Os autores sugerem o desenvolvimento de conjuntos de dados mais difíceis no futuro, pois o limite de desempenho no MedQA está quase atingido.
Fonte: Vals AI, "Benchmarking Model Performance on MedQA", 9 de maio de 2025
