跳转到内容

Studie zeigt, dass Humanmediziner zuverlässiger sind als Werkzeuge der künstlichen Intelligenz

Neue Forschungsergebnisse im American Journal of Preventive Medicine stellen die Genauigkeit der Ratschläge großer Sprachmodelle auf die Probe.

Bei der Suche nach medizinischen Informationen können Menschen Websuchmaschinen oder große Sprachmodelle (LLMs) wie verwenden ChatGPT-4 oder Google Bard. Allerdings haben diese Tools der künstlichen Intelligenz (KI) ihre Grenzen und können manchmal falsche Ratschläge oder Anweisungen generieren. Eine neue Studie im American Journal of Preventive Medicine , veröffentlicht von Elsevier, bewertet die Genauigkeit und Zuverlässigkeit von KI-generierten Ratschlägen anhand etablierter medizinischer Standards und kommt zu dem Schluss, dass LLMs noch nicht vertrauenswürdig genug sind, um menschliche medizinische Fachkräfte zu ersetzen.

Andrei Brateanu, MD, Abteilung für Innere Medizin, Cleveland Clinic Foundation, sagt: „Websuchmaschinen können Zugang zu seriösen Informationsquellen bieten und genaue Details zu einer Vielzahl von Themen wie Präventivmaßnahmen und allgemeinen medizinischen Fragen bieten. Das Gleiche gilt für LLMs.“ bieten medizinische Informationen an, die möglicherweise sehr genau und überzeugend aussehen, obwohl sie gelegentlich ungenau sein können. Daher hielten wir es für wichtig, die Antworten von LLMs mit Daten von anerkannten medizinischen Organisationen zu vergleichen. Dieser Vergleich hilft, die Zuverlässigkeit der Informationen zu überprüfen medizinische Informationen durch Querverweise mit vertrauenswürdigen Gesundheitsdaten.

In der Studie wurden 56 Fragen an ChatGPT-4 und Bard gestellt und ihre Antworten wurden von zwei Ärzten auf Richtigkeit überprüft, wobei ein dritter etwaige Meinungsverschiedenheiten klärte. Die abschließenden Bewertungen ergaben, dass 28,6 % der Antworten von ChatGPT-4 richtig, 28,6 % ungenau und 42,8 % teilweise richtig, aber unvollständig waren. Bard schnitt besser ab: 53,6 % der Antworten waren richtig, 17,8 % waren ungenau und 28,6 % waren teilweise richtig.

Dr. Brateanu erklärt: „ Alle LLMs, einschließlich ChatGPT-4 und Bard, arbeiten mit komplexen mathematischen Algorithmen. Die Tatsache, dass beide Modelle ungenaue Antworten lieferten oder wichtige Informationen ausließen, verdeutlicht die anhaltende Herausforderung bei der Entwicklung von KI-Tools, die zuverlässige medizinische Beratung bieten können.“ Dies könnte angesichts der fortschrittlichen Technologie hinter diesen Modellen und ihrer voraussichtlichen Rolle im Gesundheitswesen überraschend sein.

Dr. Brateanu kommt zu dem Schluss:„KI-Tools sollten nicht als Ersatz für medizinisches Fachpersonal betrachtet werden. Stattdessen können sie als zusätzliche Ressourcen betrachtet werden, die in Kombination mit menschlichem Fachwissen die Gesamtqualität der bereitgestellten Informationen verbessern können. Da wir KI-Technologie in das Gesundheitswesen integrieren, ist es von entscheidender Bedeutung Stellen Sie sicher, dass das Wesen der Gesundheitsversorgung weiterhin grundsätzlich menschlich ist.“


https://www.ajpmonline.org/article/S0749-3797(24)00060-6/fulltext

作者头像
LabNews Media LLC
labnews.ai 的主编是 Marita Vollborn 和 Vlad Georgescu。自 1994 年以来,他们一直是畅销书作家、科学作家和科学记者。更多关于他们的写作信息,请访问 X-Press Journalistenbüro (https://xpress-journalisten.com)。更多维基百科信息:关于 Marita:https://de.wikipedia.org/wiki/Marita_Vollborn 关于 Vlad:https://de.wikipedia.org/wiki/Vlad_Georgescu
LabNews Media LLC

LabNews Media LLC

labnews.ai 的主编是 Marita Vollborn 和 Vlad Georgescu。自 1994 年以来,他们一直是畅销书作家、科学作家和科学记者。更多关于他们的写作信息,请访问 X-Press Journalistenbüro (https://xpress-journalisten.com)。更多维基百科信息:关于 Marita:https://de.wikipedia.org/wiki/Marita_Vollborn 关于 Vlad:https://de.wikipedia.org/wiki/Vlad_Georgescu