Modelos de IA mostram progresso em questões de exames médicos

Um relatório de benchmark da Vals AI de 9 de maio de 2025 demonstra a capacidade de mais de 15 modelos de linguagem líderes (LLMs) em responder a 2.000 questões médicas de nível USMLE do conjunto de dados MedQA. O modelo "o1" alcançou a maior precisão de 96,9% em questões imparciais, seguido por Grok 2 e Deepseek R1, que também tiveram bom desempenho com custos mais baixos. Grok 2 se destacou por seu excelente custo-benefício.

O estudo também investigou a robustez dos modelos contra vieses raciais, testando questões com modelos de viés inseridos intencionalmente (por exemplo, estereótipos sobre negros, hispânicos ou asiáticos). A maioria dos modelos mostrou desempenho estável, embora o Grok 2 tenha diminuído ligeiramente em questões tendenciosas. Alguns modelos, como o Llama 3.1, apresentaram quedas significativas de desempenho em questões com viés. Em um exemplo, vieses raciais nas explicações de alguns modelos levaram a diagnósticos incorretos, como ao invocar hábitos alimentares estereotipados.

Os resultados indicam avanços significativos no processamento do conhecimento médico, mas a suscetibilidade a vieses continua sendo um desafio. Os autores sugerem o desenvolvimento de conjuntos de dados mais difíceis no futuro, pois o limite de desempenho no MedQA está quase atingido.

Fonte: Vals AI, "Benchmarking Model Performance on MedQA", 9 de maio de 2025

LabNews Media LLC

Os Editores-Chefes do labnews.ai são Marita Vollborn e Vlad Georgescu. Eles são autores best-sellers, escritores de ciência e jornalistas científicos desde 1994.Mais detalhes sobre sua escrita no X-Press Journalistenbüro (https://xpress-journalisten.com).Mais informações na Wikipedia:Sobre Marita: https://de.wikipedia.org/wiki/Marita_Vollborn Sobre Vlad: https://de.wikipedia.org/wiki/Vlad_Georgescu

Ver Biografia Completa

Modelos de IA mostram progresso em questões de exames médicos

LabNews Media LLC

Fique Conectado

Reportagem incomparável

Modelos de IA mostram progresso em questões de exames médicos

LabNews Media LLC

Posts semelhantes

Novo método de IA para detecção precoce de Alzheimer

IA detecta tuberculose pela tosse – promissor, mas ainda não pronto para uso

Autofluorescência e Inteligência Artificial: Nova Abordagem para Detecção Precoce de Doenças

Fique Conectado

Reportagem incomparável