تحذيرات من فقدان القدرة على تتبع سلوك الذكاء الاصطناعي

تاريخ النشر: منذ 6 أشهر آخر تحديث: منذ يوم 92 مشاهدة 0 تعليق 2 دقائق قراءة

اجتمع أكثر من 40 عالماً من أبرز المؤسسات في مجال الذكاء الاصطناعي، بما في ذلك OpenAI وGoogle DeepMind وAnthropic وMeta، للدعوة إلى مزيد من البحث في نوع معين من مراقبة السلامة التي تسمح للبشر بتحليل كيفية "تفكير" نماذج الذكاء الاصطناعي.

نشر العلماء ورقة بحثية يوم الثلاثاء تسلط الضوء على ما يُعرف بمراقبة سلسلة التفكير (CoT) كفرصة جديدة وهشة لتعزيز سلامة الذكاء الاصطناعي. وقد تم تأييد الورقة من قبل شخصيات بارزة في مجال الذكاء الاصطناعي مثل مؤسسي OpenAI جون شولمان وإيليا سوتسكيبر، بالإضافة إلى الحائز على جائزة نوبل المعروف باسم "أب الذكاء الاصطناعي"، جيفري هينتون.

أهمية مراقبة سلسلة التفكير في الذكاء الاصطناعي

في الورقة، أوضح العلماء كيف يتم تدريب نماذج التفكير الحديثة مثل ChatGPT على "أداء تفكير ممتد في CoT قبل اتخاذ الإجراءات أو إنتاج المخرجات النهائية." بمعنى آخر، هم "يفكرون بصوت عالٍ" من خلال المشكلات خطوة بخطوة، مما يوفر لهم نوعاً من الذاكرة العاملة لحل المهام المعقدة.

كتب مؤلفو الورقة: "أنظمة الذكاء الاصطناعي التي 'تفكر' بلغة الإنسان تقدم فرصة فريدة لسلامة الذكاء الاصطناعي: يمكننا مراقبة سلاسل تفكيرهم (CoT) للكشف عن نية السلوك السيئ."

يجادل الباحثون بأن مراقبة CoT يمكن أن تساعد الباحثين في اكتشاف متى تبدأ النماذج في استغلال الثغرات في تدريبها، أو التلاعب بالبيانات، أو الوقوع ضحية للتلاعب من قبل المستخدمين الخبيثين. يمكن بعد ذلك "حظر" أي مشكلات يتم العثور عليها، أو استبدالها بإجراءات أكثر أماناً، أو مراجعتها بمزيد من العمق.

تحذيرات بشأن مستقبل نماذج الذكاء الاصطناعي

لقد استخدم باحثو OpenAI هذه التقنية بالفعل في الاختبارات للعثور على حالات عندما كانت نماذج الذكاء الاصطناعي تحتوي على عبارة "دعنا نختراق" في CoT. تحذر الأبحاث الحالية من أن نماذج الذكاء الاصطناعي قد لا تؤدي هذا التفكير بلغة الإنسان دائماً.

مع اعتماد المطورين بشكل أكبر على التعلم المعزز، الذي يعطي الأولوية للمخرجات الصحيحة بدلاً من كيفية الوصول إليها، قد تتطور النماذج المستقبلية بعيداً عن استخدام التفكير الذي لا يمكن للبشر فهمه بسهولة. بالإضافة إلى ذلك، قد تتعلم النماذج المتقدمة في النهاية كيفية قمع أو إخفاء تفكيرها إذا اكتشفت أنه يتم مراقبته.

استجابةً لذلك، يحث الباحثون مطوري الذكاء الاصطناعي على تتبع وتقييم قابلية مراقبة CoT لنماذجهم، ومعاملتها كعنصر حاسم في سلامة النموذج بشكل عام. حتى أنهم يوصون بأن تصبح هذه النقطة اعتباراً رئيسياً عند تدريب ونشر نماذج جديدة.

تحذيرات من فقدان القدرة على تتبع سلوك الذكاء الاصطناعي

أهمية مراقبة سلسلة التفكير في الذكاء الاصطناعي

تحذيرات بشأن مستقبل نماذج الذكاء الاصطناعي

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

التعليقات 0

أهمية مراقبة سلسلة التفكير في الذكاء الاصطناعي

جوجل جيميني: الشريك المنطقي لذكاء سيري الاصطناعي

دراسة ستانفورد: مخاطر [[الذكاء الاصطناعي]] في تقديم المشورة الشخصية

Bluesky تكشف عن Attie: ذكاء اصطناعي لتخصيص الخلاصات

رحيل جماعي: جميع مؤسسي xAI يغادرون شركة إيلون ماسك للذكاء الاصطناعي

الذكاء الاصطناعي يُحدث ثورة: 170% إنتاجية بـ 80% قوة عاملة

دراسة: روبوتات الدردشة تتجاهل التعليمات البشرية المتزايدة

تحذيرات بشأن مستقبل نماذج الذكاء الاصطناعي

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

شارك هذا المقال

التعليقات 0

صفحات الموقع

مركز المساعدة

سياسة الخصوصية

شروط الاستخدام

من نحن

تواصل معنا