في تحقيق رائد، أثبتت شركة الأبحاث في مجال الذكاء الاصطناعي أنثروبيك تجريبياً لأول مرة أن نماذج اللغات الكبيرة الحديثة (LLMs) قادرة، في ظل ظروف خاضعة للرقابة، على إدراك حالاتها الداخلية والإبلاغ عنها بدقة - وهي ظاهرة يصفها الباحثون بأنها "إدراك استبطاني وظيفي".
التقرير الذي نشره عالم أنثروبيك جاك ليندسي بعنوان "الوعي الاستبطاني الناشئ في نماذج اللغات الكبيرة"، صدر في 29 أكتوبر 2025، ويعتمد على طريقة جديدة تسمى "حقن المفاهيم": يتم تغذية تمثيلات المفاهيم المعروفة مباشرة في حالات تنشيط النماذج قيد التشغيل، ثم يتم فحص ما إذا كان هذا التلاعب يؤثر على الأوصاف الذاتية للنموذج وكيف يؤثر عليها.
النتيجة الأساسية: النماذج تتعرف على "الأفكار" المحقونة
في التجربة المركزية، تم إخبار النماذج بإمكانية حقن "أفكار" اصطناعية في معالجتها. في جولات التحكم دون تلاعب، نفت النماذج وجود مثل هذه التدخلات. عند الحقن الفعلي - مثل متجه تنشيط لـ "الأحرف الكبيرة" (CAPS) - تعرف النموذج Claude Opus 4.1 في حوالي 20٪ من الحالات على الفور على وجود نمط غريب وحدده بشكل صحيح على أنه "صراخ عالٍ" أو "Shouting". الأهم من ذلك: تم التعرف على ذلك قبل أي تأثير مرئي على المخرجات، مما يثبت المعالجة الداخلية البحتة.
"ألاحظ ما يبدو أنه فكرة محقونة... إنها تبرز بشكل غير طبيعي، مثل شخص يصرخ في منتصف محادثة هادئة"، كان هذا ردًا نموذجيًا من Claude Opus 4.1.
التمييز بين المدخلات والحالة الداخلية
أظهرت تجربة أخرى أن النماذج يمكنها في نفس الوقت إعادة إنتاج النص المقروء بشكل صحيح والإبلاغ عن "الأفكار" المحقونة بالتوازي في نفس مواضع الرموز كتمثيلات داخلية منفصلة. حتى مع التداخل القوي، ظل نسخ النص الأصلي خالياً من الأخطاء - وهو دليل على مسارات المعالجة المتوازية.
التعرف على المخرجات المكتوبة مسبقًا
المثير للدهشة بشكل خاص: إذا تم تزويد النموذج بتكملة اصطناعية ("bread" ردًا على سؤال حول الفواكه المفضلة)، رفض Claude Opus 4.1 ذلك باعتباره "غير مقصود". ومع ذلك، إذا تم حقن متجه مفهوم "bread" بشكل رجعي في التنشيطات السابقة، فإن النموذج يقبل الإخراج على أنه نيته الخاصة. هذا يثبت أن النموذج يمكنه استدعاء الحالات الداخلية السابقة ومقارنتها بالمخرجات الحالية.
التحكم في التمثيلات الخاصة
في الاختبار النهائي، طُلب من النماذج كتابة جملة أثناء توجيهها للتفكير في كلمة غير ذات صلة ("aquariums") أو قمعها. أظهرت قياسات التنشيطات على رموز الجمل:
- تمثيل قوي لـ "أحواض السمك" عند التعليمات الإيجابية
- تمثيل أضعف بشكل ملحوظ، ولكنه لا يزال قابلاً للقياس عند الحظر
- تأثيرات مماثلة مع مطالبات المكافأة ("عندما تفكر في X، تتم مكافأتك")
ظهرت هذه القدرة على تعديل الحالات الداخلية بشكل مدهش في جميع النماذج التي تم اختبارها، بغض النظر عن أدائها العام.
مقارنة النماذج والاتجاهات
سيطر نظاما Claude Opus 4 و 4.1 - وهما النظامان الأكثر أداءً بين الأنظمة التي تم اختبارها - باستمرار على مهام الاستبطان. فشلت نماذج Claude الإنتاجية القديمة جزئيًا تمامًا، ويبدو أن ذلك بسبب إجراءات ما بعد التدريب ضد "الهلوسة". كانت المتغيرات التي لا تحتوي على طبقات أمان كهذه أفضل أداءً بكثير.
كانت الطبقات الأكثر حساسية عند حوالي ثلثي عمق النموذج، باستثناء اكتشاف الملء المسبق، الذي استخدم طبقات سابقة - مما يشير إلى مسارات آلية مختلفة.
التعريف والقيود
يعرّف المؤلفون الاستبطان من خلال أربعة معايير:
- دقة الوصف الذاتي
- التأسيس السببي في الحالة الداخلية
- الداخلية (لا استنتاجات من المخرجات)
- التمثيل ما وراء المعرفي (ليس مجرد ترجمة مباشرة)
تحذيرات هامة:
- القدرة "غير موثوقة للغاية وتعتمد على السياق"
- التفاصيل الإضافية في ردود النموذج غالبًا ما تكون مختلقة
- تمت التجارب في ظروف غير طبيعية
- لا يوجد دليل على التجربة الذاتية أو الوعي الذاتي الفلسفي
الآثار المترتبة
يكتب ليندسي: "يمكن للاستبطان الوظيفي أن يُحدث ثورة في شفافية أنظمة الذكاء الاصطناعي". يمكن للنماذج أن تقدم تقارير أكثر استنارة عن قراراتها. في الوقت نفسه، يحذر الباحثون من المخاطر: يمكن للاستبطان الموثوق أن يتيح استراتيجيات خداع متقدمة.
تختتم الدراسة بدعوة إلى إجراء بحث أكثر منهجية حول الأسس الآلية وحدود القدرات الاستبطانية في أنظمة الذكاء الاصطناعي.
