Skip to content

KI-Modelle liefern zuverlässige Patienteninformationen zu Herzinsuffizienz

Große Sprachmodelle wie Gemini und Grok erzielen gute Ergebnisse bei der Beantwortung patientenorientierter Fragen zu Herzinsuffizienz und Kardiomyopathien. In einer systematischen, verblindeten Studie schnitten sie bei Genauigkeit und Vermeidung von Fehlinformationen gut ab. Dennoch bestehen Herausforderungen bei Lesbarkeit, Kürze und Kontextverständnis. Die Studie wurde in Frontiers in Digital Health veröffentlicht.

Gemini und Grok überzeugen in Bewertung

Forscher der Universität Heidelberg testeten sechs führende KI-Modelle (Gemini 2.5 Pro, Grok-3, GPT-4o, DeepSeek, Claude 3.7 Sonnet, Perplexity Sonar Pro) anhand von 50 von Experten erstellten Fragen. Die Antworten wurden von Kardiologen, Medizinstudenten und automatisierten KI-Bewertungssystemen auf neun Dimensionen wie Angemessenheit, Vollständigkeit, Vermeidung von Halluzinationen und Verständlichkeit bewertet. Gemini erzielte die höchste Gesamtbewertung (4,41 von 5) und wurde in 43,7 Prozent der Fälle als beste Quelle gewählt, gefolgt von Grok (4,23; 30,3 Prozent).

Background

Herzinsuffizienz und Kardiomyopathien erfordern umfassende Patientenaufklärung. Viele Betroffene suchen Informationen online, wo Fehlinformationen häufig sind. Große Sprachmodelle (LLMs) bieten interaktive Antworten, ihre Eignung für sensible medizinische Themen wurde jedoch bislang unzureichend geprüft. Die Studie simulierte reale Patientenanfragen und bewertete die Modelle verblindet.

Ergebnisse im Detail

Alle Modelle vermieden weitgehend schwere Fehlinformationen (durchschnittlich 4,49 von 5). Probleme traten jedoch bei Kürze (durchschnittlich 3,81) und Lesbarkeit auf: Die Texte entsprachen oft dem Niveau der 11. bis 14. Schulklasse statt der empfohlenen 6. bis 8. Klasse. Gelegentlich traten Halluzinationen auf, etwa bei unklaren Abkürzungen oder fehlendem Kontext. Automatisierte Bewertungssysteme vergaben höhere Werte als menschliche Experten.

Implications for practice

Die Ergebnisse zeigen das Potenzial von KI für Patienteninformationen, unterstreichen aber die Notwendigkeit menschlicher Überwachung. Verbesserungen bei Lesbarkeit, Aktualität (z. B. durch Retrieval-Augmented Generation) und Kontextverständnis sind erforderlich. Direkte Patientennutzung ohne Aufsicht birgt Risiken.

Voices from the project

„Die Präferenz für Gemini und Grok wurde durch höhere Werte bei Vollständigkeit und Bildungswert getrieben“, heißt es in der Studie. Die Modelle lieferten strukturierte und angemessene Antworten, zeigten aber Schwächen bei der Anpassung an Patientenbedürfnisse.

Outlook

Zukünftige Systeme sollten lesbarkeitsanpassbar, kontextbewusst und mit aktuellen Leitlinien verknüpft sein. Ein „Human-in-the-Loop“-Ansatz wird empfohlen. Weitere Studien mit direkter Patientenbeteiligung sind notwendig, um reale Auswirkungen auf Verständnis und Verhalten zu messen.

FAQ

Worum geht es in der Studie?
Systematischer Vergleich von sechs großen Sprachmodellen bei der Beantwortung patientenorientierter Fragen zu Herzinsuffizienz und Kardiomyopathien.

Welches Modell schnitt am besten ab?
Gemini (höchste Bewertung 4,41 von 5, am häufigsten bevorzugt), gefolgt von Grok.

Welche Stärken zeigten die Modelle?
Gute Vermeidung von Fehlinformationen und hohe klinische Angemessenheit.

Welche Schwächen wurden festgestellt?
Zu komplexe Sprache, mangelnde Kürze und gelegentliche kontextuelle Fehler oder Halluzinationen.

Was empfehlen die Autoren?
Menschliche Überwachung, verbesserte Lesbarkeit und kontextbewusste Systeme für sichere Patienteninformation.

author avatar
LabNews Media LLC
The Editors in Chief of labnews.ai are Marita Vollborn and Vlad Georgescu. They are bestselling authors, science writers and science journalists since 1994.More details about their writing on X-Press Journalistenbüro (https://xpress-journalisten.com).More Info on Wikipedia:About Marita: https://de.wikipedia.org/wiki/Marita_Vollborn About Vlad: https://de.wikipedia.org/wiki/Vlad_Georgescu
LabNews Media LLC

LabNews Media LLC

The Editors in Chief of labnews.ai are Marita Vollborn and Vlad Georgescu. They have been bestselling authors, science writers, and science journalists since 1994.More details about their writing at X-Press Journalistenbüro (https://xpress-journalisten.com).More Info on Wikipedia:About Marita: https://de.wikipedia.org/wiki/Marita_Vollborn About Vlad: https://de.wikipedia.org/wiki/Vlad_Georgescu