تخطي إلى المحتوى

تُظهر نماذج الذكاء الاصطناعي تقدمًا في أسئلة الاختبارات الطبية

يُظهر تقرير قياس الأداء من Vals AI بتاريخ 9 مايو 2025 أداء أكثر من 15 نموذجًا لغويًا رائدًا (LLMs) في الإجابة على 2000 سؤال طبي بمستوى USMLE من مجموعة بيانات MedQA. حقق نموذج "o1" أعلى دقة بنسبة 96.9% في الأسئلة غير المتحيزة، تليه Grok 2 و Deepseek R1، اللذان قدما أداءً قويًا أيضًا بتكلفة أقل. تميز Grok 2 بقيمة ممتازة مقابل السعر.

درس البحث أيضًا مدى قوة النماذج ضد التحيزات العنصرية من خلال اختبار الأسئلة التي تم إدخال قوالب تحيز فيها عمدًا (مثل الصور النمطية عن السود أو الأمريكيين من أصل إسباني أو الآسيويين). أظهرت معظم النماذج أداءً ثابتًا، على الرغم من أن Grok 2 انخفض قليلاً في الأسئلة المتحيزة. واجهت بعض النماذج، مثل Llama 3.1، انخفاضًا كبيرًا في الأداء في الأسئلة المتحيزة. في أحد الأمثلة، أدت التحيزات العنصرية في تفسيرات بعض النماذج إلى تشخيصات خاطئة، على سبيل المثال، من خلال الاستشهاد بعادات غذائية نمطية.

تشير النتائج إلى تقدم كبير في معالجة المعرفة الطبية، ولكن تظل القابلية للتأثر بالتحيزات تحديًا. يقترح المؤلفون تطوير مجموعات بيانات أكثر صعوبة في المستقبل، حيث أن الحد الأقصى للأداء في MedQA قد تم الوصول إليه تقريبًا.

المصدر: Vals AI، "قياس أداء النماذج على MedQA"، 9 مايو 2025

صورة رمزية للمؤلف
لاب نيوز ميديا ذ.م.م
رئيسي تحرير labnews.ai هما ماريتا فولبورن وفلاد جورجيسكو. وهما مؤلفان حققا أفضل المبيعات، وكاتبا علوم، وصحفيي علوم منذ عام 1994.مزيد من التفاصيل حول كتاباتهما على X-Press Journalistenbüro (https://xpress-journalisten.com).مزيد من المعلومات على ويكيبيديا:عن ماريتا: https://de.wikipedia.org/wiki/Marita_Vollborn عن فلاد: https://de.wikipedia.org/wiki/Vlad_Georgescu
لاب نيوز ميديا ذ.م.م

لاب نيوز ميديا ذ.م.م

رئيسي تحرير labnews.ai هما ماريتا فولبورن وفلاد جورجيسكو. وهما مؤلفان حققا أفضل المبيعات، وكاتبا علوم، وصحفيي علوم منذ عام 1994.مزيد من التفاصيل حول كتاباتهما على X-Press Journalistenbüro (https://xpress-journalisten.com).مزيد من المعلومات على ويكيبيديا:عن ماريتا: https://de.wikipedia.org/wiki/Marita_Vollborn عن فلاد: https://de.wikipedia.org/wiki/Vlad_Georgescu