Grandes modelos de linguagem como Gemini e Grok obtêm bons resultados na resposta a perguntas focadas no paciente sobre insuficiência cardíaca e cardiomiopatias. Em um estudo sistemático e cego, eles tiveram bom desempenho em precisão e na prevenção de desinformação. No entanto, persistem desafios em legibilidade, concisão e compreensão de contexto. O estudo foi publicado na Frontiers in Digital Health.
Gemini e Grok convencem na avaliação
Pesquisadores da Universidade de Heidelberg testaram seis modelos de IA líderes (Gemini 2.5 Pro, Grok-3, GPT-4o, DeepSeek, Claude 3.7 Sonnet, Perplexity Sonar Pro) usando 50 perguntas criadas por especialistas. As respostas foram avaliadas por cardiologistas, estudantes de medicina e sistemas automatizados de avaliação de IA em nove dimensões, como adequação, completude, prevenção de alucinações e clareza. O Gemini obteve a maior pontuação geral (4,41 de 5) e foi escolhido como a melhor fonte em 43,7% dos casos, seguido pelo Grok (4,23; 30,3%).
Contexto
Insuficiência cardíaca e cardiomiopatias exigem educação abrangente do paciente. Muitos afetados buscam informações online, onde a desinformação é comum. Grandes modelos de linguagem (LLMs) oferecem respostas interativas, mas sua adequação para tópicos médicos sensíveis tem sido insuficientemente examinada até agora. O estudo simulou consultas reais de pacientes e avaliou os modelos de forma cega.
Resultados em detalhes
Todos os modelos evitaram em grande parte informações errôneas graves (média de 4,49 de 5). No entanto, surgiram problemas de concisão (média de 3,81) e legibilidade: os textos frequentemente correspondiam ao nível da 11ª a 14ª série escolar, em vez da 6ª a 8ª série recomendada. Ocasionalmente, ocorreram alucinações, por exemplo, com abreviações pouco claras ou falta de contexto. Sistemas de avaliação automatizados atribuíram pontuações mais altas do que especialistas humanos.
Significado para a prática
Os resultados mostram o potencial da IA para informações ao paciente, mas destacam a necessidade de supervisão humana. Melhorias na legibilidade, atualidade (por exemplo, por meio de geração aumentada por recuperação) e compreensão de contexto são necessárias. O uso direto por pacientes sem supervisão apresenta riscos.
Vozes do projeto
“A preferência por Gemini e Grok foi impulsionada por pontuações mais altas em completude e valor educacional”, afirma o estudo. Os modelos forneceram respostas estruturadas e adequadas, mas mostraram fraquezas na adaptação às necessidades do paciente.
Perspectiva
Sistemas futuros devem ser adaptáveis à legibilidade, conscientes do contexto e vinculados a diretrizes atuais. Uma abordagem de “humano no circuito” é recomendada. Mais estudos com envolvimento direto do paciente são necessários para medir os impactos reais na compreensão e no comportamento.
FAQ
Sobre o que é o estudo?
Comparação sistemática de seis grandes modelos de linguagem na resposta a perguntas focadas no paciente sobre insuficiência cardíaca e cardiomiopatias.
Qual modelo teve o melhor desempenho?
Gemini (maior pontuação de 4,41 em 5, mais frequentemente preferido), seguido por Grok.
Quais pontos fortes os modelos demonstraram?
Boa evasão de desinformação e alta adequação clínica.
Quais fraquezas foram identificadas?
Linguagem muito complexa, falta de concisão e erros contextuais ocasionais ou alucinações.
O que os autores recomendam?
Supervisão humana, melhor legibilidade e sistemas conscientes do contexto para informações seguras ao paciente.
