تحقق نماذج اللغة الكبيرة مثل Gemini و Grok نتائج جيدة في الإجابة على أسئلة المريض حول قصور القلب واعتلال عضلة القلب. في دراسة منهجية معتمدة، كان أداؤها جيدًا من حيث الدقة وتجنب المعلومات المضللة. ومع ذلك، لا تزال هناك تحديات تتعلق بالوضوح والإيجاز وفهم السياق. تم نشر الدراسة في Frontiers in Digital Health.
Gemini و Grok مقنعان في التقييم
اختبر باحثون من جامعة هايدلبرغ ستة نماذج رائدة للذكاء الاصطناعي (Gemini 2.5 Pro، Grok-3، GPT-4o، DeepSeek، Claude 3.7 Sonnet، Perplexity Sonar Pro) باستخدام 50 سؤالًا تم إنشاؤها بواسطة خبراء. تم تقييم الإجابات من قبل أطباء القلب وطلاب الطب وأنظمة تقييم الذكاء الاصطناعي الآلية بناءً على تسعة أبعاد مثل الملاءمة والاكتمال وتجنب الهلوسة والوضوح. حصل Gemini على أعلى تقييم إجمالي (4.41 من 5) وتم اختياره كأفضل مصدر في 43.7 بالمائة من الحالات، يليه Grok (4.23؛ 30.3 بالمائة).
خلفية
يتطلب قصور القلب واعتلال عضلة القلب تثقيفًا شاملاً للمرضى. يبحث العديد من المصابين عن معلومات عبر الإنترنت، حيث تنتشر المعلومات المضللة. توفر نماذج اللغة الكبيرة (LLMs) إجابات تفاعلية، ولكن مدى ملاءمتها للموضوعات الطبية الحساسة لم يتم فحصها بشكل كافٍ حتى الآن. قامت الدراسة بمحاكاة استفسارات المرضى الواقعية وقيمت النماذج بشكل معتمد.
النتائج بالتفصيل
تجنبت جميع النماذج إلى حد كبير المعلومات المضللة الخطيرة (بمتوسط 4.49 من 5). ومع ذلك، ظهرت مشاكل في الإيجاز (بمتوسط 3.81) والوضوح: غالبًا ما كانت النصوص على مستوى الصفوف من 11 إلى 14 بدلاً من الصفوف الموصى بها من 6 إلى 8. في بعض الأحيان، حدثت هلوسات، على سبيل المثال مع الاختصارات غير الواضحة أو نقص السياق. أعطت أنظمة التقييم الآلية درجات أعلى من الخبراء البشريين.
الأهمية العملية
تظهر النتائج إمكانات الذكاء الاصطناعي لمعلومات المرضى، ولكنها تؤكد الحاجة إلى الإشراف البشري. هناك حاجة إلى تحسينات في الوضوح والتحديث (على سبيل المثال، من خلال التوليد المعزز بالاسترجاع) وفهم السياق. الاستخدام المباشر من قبل المرضى دون إشراف ينطوي على مخاطر.
أصوات من المشروع
«كان التفضيل لـ Gemini و Grok مدفوعًا بدرجات أعلى في الاكتمال والقيمة التعليمية»، كما جاء في الدراسة. قدمت النماذج إجابات منظمة ومناسبة، لكنها أظهرت نقاط ضعف في التكيف مع احتياجات المرضى.
نظرة مستقبلية
يجب أن تكون الأنظمة المستقبلية قابلة للتكيف مع مستوى القراءة، واعية بالسياق، ومتصلة بـ الإرشادات الحالية. يوصى بنهج "الإنسان في الحلقة". هناك حاجة إلى مزيد من الدراسات بمشاركة المرضى المباشرة لقياس التأثيرات الحقيقية على الفهم والسلوك.
أسئلة متكررة
ما هو موضوع الدراسة؟
مقارنة منهجية لستة نماذج لغوية كبيرة في الإجابة على أسئلة الموجهة للمرضى حول قصور القلب واعتلال عضلة القلب.
أي نموذج كان الأفضل أداءً؟
Gemini (أعلى تقييم 4.41 من 5، الأكثر تفضيلاً)، يليه Grok.
ما هي نقاط القوة التي أظهرتها النماذج؟
تجنب جيد للمعلومات المضللة وملاءمة سريرية عالية.
ما هي نقاط الضعف التي تم تحديدها؟
لغة معقدة للغاية، نقص الإيجاز، وأخطاء سياقية عرضية أو هلوسات.
ماذا يوصي المؤلفون؟
الإشراف البشري، تحسين قابلية القراءة والأنظمة الواعية بالسياق لمعلومات آمنة للمرضى.
