تحذيرات من فقدان القدرة على تتبع سلوك الذكاء الاصطناعي
اجتمع أكثر من 40 عالماً من أبرز المؤسسات في مجال الذكاء الاصطناعي، بما في ذلك OpenAI وGoogle DeepMind وAnthropic وMeta، للدعوة إلى مزيد من البحث في نوع معين من مراقبة السلامة التي تسمح للبشر بتحليل كيفية "تفكير" نماذج الذكاء الاصطناعي.
نشر العلماء ورقة بحثية يوم الثلاثاء تسلط الضوء على ما يُعرف بمراقبة سلسلة التفكير (CoT) كفرصة جديدة وهشة لتعزيز سلامة الذكاء الاصطناعي. وقد تم تأييد الورقة من قبل شخصيات بارزة في مجال الذكاء الاصطناعي مثل مؤسسي OpenAI جون شولمان وإيليا سوتسكيبر، بالإضافة إلى الحائز على جائزة نوبل المعروف باسم "أب الذكاء الاصطناعي"، جيفري هينتون.
أهمية مراقبة سلسلة التفكير في الذكاء الاصطناعي
في الورقة، أوضح العلماء كيف يتم تدريب نماذج التفكير الحديثة مثل ChatGPT على "أداء تفكير ممتد في CoT قبل اتخاذ الإجراءات أو إنتاج المخرجات النهائية." بمعنى آخر، هم "يفكرون بصوت عالٍ" من خلال المشكلات خطوة بخطوة، مما يوفر لهم نوعاً من الذاكرة العاملة لحل المهام المعقدة.
كتب مؤلفو الورقة: "أنظمة الذكاء الاصطناعي التي 'تفكر' بلغة الإنسان تقدم فرصة فريدة لسلامة الذكاء الاصطناعي: يمكننا مراقبة سلاسل تفكيرهم (CoT) للكشف عن نية السلوك السيئ."
يجادل الباحثون بأن مراقبة CoT يمكن أن تساعد الباحثين في اكتشاف متى تبدأ النماذج في استغلال الثغرات في تدريبها، أو التلاعب بالبيانات، أو الوقوع ضحية للتلاعب من قبل المستخدمين الخبيثين. يمكن بعد ذلك "حظر" أي مشكلات يتم العثور عليها، أو استبدالها بإجراءات أكثر أماناً، أو مراجعتها بمزيد من العمق.
تحذيرات بشأن مستقبل نماذج الذكاء الاصطناعي
لقد استخدم باحثو OpenAI هذه التقنية بالفعل في الاختبارات للعثور على حالات عندما كانت نماذج الذكاء الاصطناعي تحتوي على عبارة "دعنا نختراق" في CoT. تحذر الأبحاث الحالية من أن نماذج الذكاء الاصطناعي قد لا تؤدي هذا التفكير بلغة الإنسان دائماً.
مع اعتماد المطورين بشكل أكبر على التعلم المعزز، الذي يعطي الأولوية للمخرجات الصحيحة بدلاً من كيفية الوصول إليها، قد تتطور النماذج المستقبلية بعيداً عن استخدام التفكير الذي لا يمكن للبشر فهمه بسهولة. بالإضافة إلى ذلك، قد تتعلم النماذج المتقدمة في النهاية كيفية قمع أو إخفاء تفكيرها إذا اكتشفت أنه يتم مراقبته.
استجابةً لذلك، يحث الباحثون مطوري الذكاء الاصطناعي على تتبع وتقييم قابلية مراقبة CoT لنماذجهم، ومعاملتها كعنصر حاسم في سلامة النموذج بشكل عام. حتى أنهم يوصون بأن تصبح هذه النقطة اعتباراً رئيسياً عند تدريب ونشر نماذج جديدة.
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!