نماذج اللغة الكبيرة مثل GPT-4o تنتج بشكل منهجي مراجع خاطئة ومختلقة في النصوص العلمية حول الصحة النفسية. هذا ما يظهره دراسة تجريبية حديثة، نُشرت اليوم في مجلة JMIR Mental Health المفتوحة الوصول.
فريق بحثي أسترالي-كندي بقيادة الدكتور جيك ليناردون من جامعة ديكن طلب من GPT-4o كتابة ستة مراجعات أدبية واقعية حول اضطرابات نفسية مختلفة - كل منها مع قائمة مراجع كاملة وبيانات DOI. تراوحت الموضوعات من الاكتئاب الشديد الذي تم بحثه جيدًا، إلى اضطراب نهم الطعام، وصولًا إلى اضطراب تشوه الجسم الذي تم فحصه بشكل أقل تكرارًا. بالإضافة إلى ذلك، قام العلماء بتغيير ما إذا كان النموذج يجب أن يعالج نظرة عامة عامة أو سؤالًا متخصصًا للغاية (مثل، مناهج العلاج الرقمي).
النتيجة مخيبة للآمال: من بين 437 مرجعًا تم إنشاؤها، كانت 19.9 بالمائة مختلقة بالكامل - العناوين والمؤلفون و DOI لم تكن موجودة في أي مكان. 45.4 بالمائة أخرى احتوت على أخطاء جسيمة، خاصةً DOIs غير صالحة أو تم تعيينها بشكل خاطئ. بشكل عام، كان ما يقرب من ثلثي جميع اقتباسات الذكاء الاصطناعي غير صالحة.
ملحوظ بشكل خاص: كلما كان الموضوع أقل شهرة أو أكثر تخصصًا، زادت نسبة الخطأ. في حالة الاكتئاب الشديد، كانت نسبة الاختلاق البحتة 6 بالمائة فقط، وفي اضطراب نهم الطعام بلغت 28 بالمائة، وفي اضطراب تشوه الجسم بلغت 29 بالمائة. كما أدت المهام الضيقة بشكل ملحوظ إلى هلوسات أكثر من أسئلة النظرة العامة الواسعة.
يحذر الباحثون من أن مثل هذه المراجع الوهمية تعرض بشكل كبير قابلية التتبع والموثوقية للأعمال العلمية للخطر. في العامين الماضيين، اضطرت العديد من المجلات العلمية إلى سحب مقالات بعد أن أصبح من الواضح لاحقًا أن أجزاء كبيرة من المراجع كانت من الذكاء الاصطناعي ولم تكن موجودة ببساطة.
لذلك، تقدم الدراسة مطالبات واضحة:
- يجب التحقق يدويًا من كل مرجع تم إنشاؤه بواسطة الذكاء الاصطناعي.
- يجب على الناشرين تقديم فحوصات DOI تلقائية تحدد على الفور الاقتباسات التي لا يمكن العثور عليها.
- تحتاج الجامعات ومؤسسات البحث إلى مبادئ توجيهية ملزمة وتدريب على الاستخدام المسؤول للذكاء الاصطناعي التوليدي.
- في الأعمال النهائية والمنشورات، يجب الإشارة بوضوح إلى ما إذا كان الذكاء الاصطناعي قد تم استخدامه في البحث عن المراجع.
يؤكد المؤلفون صراحة أنهم لا يريدون شيطنة الذكاء الاصطناعي. نماذج اللغة الكبيرة هي أدوات قيمة للبحث الأولي، وصياغة النصوص، أو توليد الأفكار. ومع ذلك، فيما يتعلق بقوائم المراجع، لا يوجد حاليًا بديل للتحكم البشري بنسبة 100 بالمائة.
نُشرت الدراسة الكاملة بصيغة الوصول المفتوح (JMIR Ment Health 2025;12:e80371, doi: 10.2196/80371). يبقى السؤال مفتوحًا ما إذا كانت النماذج الأحدث مثل OpenAI o3 أو Claude 3.7 قد تعاملت مع المشكلة بشكل أفضل - ومع ذلك، تشير الاختبارات الأولية من مجموعات عمل أخرى إلى أن هلوسات الاقتباسات لا تزال تحدث هناك أيضًا.
