Große Sprachmodelle wie Gemini und Grok erzielen gute Ergebnisse bei der Beantwortung patientenorientierter Fragen zu Herzinsuffizienz und Kardiomyopathien. In einer systematischen, verblindeten Studie schnitten sie bei Genauigkeit und Vermeidung von Fehlinformationen gut ab. Dennoch bestehen Herausforderungen bei Lesbarkeit, Kürze und Kontextverständnis. Die Studie wurde in Frontiers in Digital Health veröffentlicht.
Gemini und Grok überzeugen in Bewertung
Forscher der Universität Heidelberg testeten sechs führende KI-Modelle (Gemini 2.5 Pro, Grok-3, GPT-4o, DeepSeek, Claude 3.7 Sonnet, Perplexity Sonar Pro) anhand von 50 von Experten erstellten Fragen. Die Antworten wurden von Kardiologen, Medizinstudenten und automatisierten KI-Bewertungssystemen auf neun Dimensionen wie Angemessenheit, Vollständigkeit, Vermeidung von Halluzinationen und Verständlichkeit bewertet. Gemini erzielte die höchste Gesamtbewertung (4,41 von 5) und wurde in 43,7 Prozent der Fälle als beste Quelle gewählt, gefolgt von Grok (4,23; 30,3 Prozent).
Background
Herzinsuffizienz und Kardiomyopathien erfordern umfassende Patientenaufklärung. Viele Betroffene suchen Informationen online, wo Fehlinformationen häufig sind. Große Sprachmodelle (LLMs) bieten interaktive Antworten, ihre Eignung für sensible medizinische Themen wurde jedoch bislang unzureichend geprüft. Die Studie simulierte reale Patientenanfragen und bewertete die Modelle verblindet.
Ergebnisse im Detail
Alle Modelle vermieden weitgehend schwere Fehlinformationen (durchschnittlich 4,49 von 5). Probleme traten jedoch bei Kürze (durchschnittlich 3,81) und Lesbarkeit auf: Die Texte entsprachen oft dem Niveau der 11. bis 14. Schulklasse statt der empfohlenen 6. bis 8. Klasse. Gelegentlich traten Halluzinationen auf, etwa bei unklaren Abkürzungen oder fehlendem Kontext. Automatisierte Bewertungssysteme vergaben höhere Werte als menschliche Experten.
Implications for practice
Die Ergebnisse zeigen das Potenzial von KI für Patienteninformationen, unterstreichen aber die Notwendigkeit menschlicher Überwachung. Verbesserungen bei Lesbarkeit, Aktualität (z. B. durch Retrieval-Augmented Generation) und Kontextverständnis sind erforderlich. Direkte Patientennutzung ohne Aufsicht birgt Risiken.
Voices from the project
„Die Präferenz für Gemini und Grok wurde durch höhere Werte bei Vollständigkeit und Bildungswert getrieben“, heißt es in der Studie. Die Modelle lieferten strukturierte und angemessene Antworten, zeigten aber Schwächen bei der Anpassung an Patientenbedürfnisse.
Outlook
Zukünftige Systeme sollten lesbarkeitsanpassbar, kontextbewusst und mit aktuellen Leitlinien verknüpft sein. Ein „Human-in-the-Loop“-Ansatz wird empfohlen. Weitere Studien mit direkter Patientenbeteiligung sind notwendig, um reale Auswirkungen auf Verständnis und Verhalten zu messen.
FAQ
Worum geht es in der Studie?
Systematischer Vergleich von sechs großen Sprachmodellen bei der Beantwortung patientenorientierter Fragen zu Herzinsuffizienz und Kardiomyopathien.
Welches Modell schnitt am besten ab?
Gemini (höchste Bewertung 4,41 von 5, am häufigsten bevorzugt), gefolgt von Grok.
Welche Stärken zeigten die Modelle?
Gute Vermeidung von Fehlinformationen und hohe klinische Angemessenheit.
Welche Schwächen wurden festgestellt?
Zu komplexe Sprache, mangelnde Kürze und gelegentliche kontextuelle Fehler oder Halluzinationen.
Was empfehlen die Autoren?
Menschliche Überwachung, verbesserte Lesbarkeit und kontextbewusste Systeme für sichere Patienteninformation.
