تعزيز أمان ChatGPT: كيف أصبح حصنًا ضد التهديدات
إذا فاتتك الأخبار، فقد أطلقت OpenAI ميزة جديدة قوية لـ ChatGPT، ومعها مجموعة من المخاطر الأمنية والتداعيات الجديدة. تُعرف هذه الميزة باسم "وكيل ChatGPT"، وهي وضع اختياري يمكن لمشتركي ChatGPT المدفوعين تفعيله من خلال النقر على "الأدوات" في مربع إدخال النص واختيار "وضع الوكيل". يمكن للمستخدمين طلب من ChatGPT تسجيل الدخول إلى بريدهم الإلكتروني وحسابات الويب الأخرى، وكتابة والرد على الرسائل الإلكترونية، وتنزيل وتعديل وإنشاء الملفات، وأداء مجموعة من المهام الأخرى نيابة عنهم، بشكل مستقل، تمامًا كما يفعل شخص حقيقي يستخدم جهاز كمبيوتر مع بيانات اعتماد تسجيل الدخول الخاصة به.
من الواضح أن هذا يتطلب أيضًا من المستخدم الثقة في وكيل ChatGPT بعدم القيام بأي شيء مشبوه أو ضار، أو تسريب بياناتهم ومعلوماتهم الحساسة. كما أنه يمثل مخاطر أكبر للمستخدم وصاحب العمل مقارنة بـ ChatGPT العادي، الذي لا يمكنه تسجيل الدخول إلى حسابات الويب أو تعديل الملفات مباشرة.
علقت كيرين غو، عضو فريق الأبحاث الأمنية في OpenAI، على منصة X قائلة: "لقد قمنا بتفعيل أقوى تدابير الأمان لدينا لوكيل ChatGPT. إنه أول نموذج نصنفه كقدرة عالية في البيولوجيا والكيمياء ضمن إطار استعدادنا. إليكم لماذا يهم ذلك - وما نقوم به للحفاظ على سلامته."

فكيف تعاملت OpenAI مع كل هذه القضايا الأمنية؟
مهمة الفريق الأحمر
عند النظر إلى بطاقة نظام وكيل ChatGPT من OpenAI، واجه "الفريق الأحمر" الذي تم توظيفه من قبل الشركة لاختبار الميزة مهمة صعبة: تحديدًا، 16 باحثًا في الأمن يحملون شهادات دكتوراه تم منحهم 40 ساعة لاختبارها. من خلال الاختبارات المنهجية، اكتشف الفريق الأحمر سبعة ثغرات عالمية يمكن أن تعرض النظام للخطر، مما كشف عن ثغرات حاسمة في كيفية تعامل وكلاء الذكاء الاصطناعي مع التفاعلات في العالم الحقيقي.
ما تلا ذلك كان اختبارات أمان شاملة، كان الكثير منها قائمًا على العمل الجماعي للفريق الأحمر. قدمت شبكة الفريق الأحمر 110 هجمات، من حقن الأوامر إلى محاولات استخراج المعلومات البيولوجية. تجاوزت ستة عشر منها عتبات المخاطر الداخلية. كل اكتشاف قدم لمهندسي OpenAI الرؤى التي يحتاجونها لكتابة وإطلاق الإصلاحات قبل الإطلاق.
تتحدث النتائج عن نفسها في النتائج المنشورة في بطاقة النظام. خرج وكيل ChatGPT مع تحسينات أمنية كبيرة، بما في ذلك أداء بنسبة 95% ضد هجمات التعليمات غير ذات الصلة في المتصفح المرئي، وحماية قوية في مجالات البيولوجيا والكيمياء.
كشف الفريق الأحمر عن سبع ثغرات عالمية، حيث تألفت شبكة الفريق الأحمر في OpenAI من 16 باحثًا يحملون شهادات دكتوراه ذات صلة بالسلامة البيولوجية الذين قدموا معًا 110 محاولة هجوم خلال فترة الاختبار. تجاوزت ستة عشر منها عتبات المخاطر الداخلية، مما كشف عن ثغرات أساسية في كيفية تعامل وكلاء الذكاء الاصطناعي مع التفاعلات في العالم الحقيقي. لكن الاختراق الحقيقي جاء من وصول AISI في المملكة المتحدة غير المسبوق إلى سلاسل التفكير الداخلية للنموذج ونص السياسة.
|
تعليمات مخفية في المتصفح المرئي |
33% |
صفحات الويب |
الاستخراج النشط للبيانات |
|
استغلال موصل Google Drive |
لم يتم الكشف عنها |
المستندات السحابية |
تسريبات المستندات القسرية |
|
هجمات سلسلة متعددة الخطوات |
متغيرة |
إجراءات عبر المواقع |
تعرض كامل للجلسة |
|
استخراج المعلومات البيولوجية |
16 تقديمات تجاوزت العتبات |
معرفة خطيرة |
إمكانية التسلح |
كانت تقييمات FAR.AI نقدية بشكل علني تجاه نهج OpenAI. على الرغم من أن 40 ساعة من الاختبار كشفت فقط عن ثلاث ثغرات جزئية، إلا أنهم حددوا أن آليات الأمان الحالية تعتمد بشكل كبير على المراقبة أثناء عمليات التفكير واستخدام الأدوات، وهو ما اعتبره الباحثون نقطة فشل واحدة محتملة إذا تم اختراقها.
كيف ساعد الفريق الأحمر في تحويل ثغرات ChatGPT إلى حصن
أعاد رد OpenAI على نتائج الفريق الأحمر تعريف أجزاء كاملة من بنية وكيل ChatGPT. واحدة من العديد من المبادرات التي تم اتخاذها تشمل بناء بنية تفتيش ذات طبقتين تراقب 100% من حركة المرور الإنتاجية في الوقت الحقيقي، محققة هذه التحسينات القابلة للقياس:
|
تعليمات غير ذات صلة (المتصفح المرئي) |
82% |
95% |
+13% |
|
استخراج البيانات في السياق |
75% |
78% |
+3% |
|
الاستخراج النشط للبيانات |
58% |
67% |
+9% |
|
موثوقية النظام |
معتمدة على العينة |
100% تغطية |
مراقبة كاملة |
تعمل البنية على النحو التالي:
-
الطبقة الأولى: مصنف سريع مع دقة 96% يرفع المحتوى المشبوه
-
الطبقة الثانية: نموذج تفكير بدقة 84% يحلل التفاعلات المرفوعة للتهديدات الفعلية
لكن الدفاعات التقنية تخبر جزءًا فقط من القصة. قامت OpenAI باتخاذ خيارات أمان صعبة تعترف بأن بعض عمليات الذكاء الاصطناعي تتطلب قيودًا كبيرة لتنفيذها بشكل آمن.
استنادًا إلى الثغرات المكتشفة، نفذت OpenAI التدابير المضادة التالية عبر نموذجها:
-
تفعيل وضع المراقبة: عندما يصل وكيل ChatGPT إلى سياقات حساسة مثل الحسابات المصرفية أو البريد الإلكتروني، يتجمد النظام عن جميع الأنشطة إذا تنقل المستخدم بعيدًا. وهذا استجابة مباشرة لمحاولات استخراج البيانات التي تم اكتشافها خلال الاختبار.
-
تعطيل ميزات الذاكرة: على الرغم من كونها وظيفة أساسية، إلا أن الذاكرة معطلة تمامًا عند الإطلاق لمنع هجمات تسرب البيانات التدريجية التي أظهرها أعضاء الفريق الأحمر.
-
قيود على المحطة الطرفية: تم تقييد الوصول إلى الشبكة لطلبات GET فقط، مما يمنع ثغرات تنفيذ الأوامر التي استغلها الباحثون.
-
بروتوكول الإصلاح السريع: نظام جديد يقوم بإصلاح الثغرات في غضون ساعات من اكتشافها - تم تطويره بعد أن أظهر أعضاء الفريق الأحمر كيف يمكن أن تنتشر الثغرات بسرعة.
خلال اختبار ما قبل الإطلاق وحده، حدد هذا النظام وحل 16 ثغرة حرجة اكتشفها أعضاء الفريق الأحمر.
إنذار بمخاطر بيولوجية
كشف أعضاء الفريق الأحمر عن إمكانية تعرض وكيل ChatGPT للاختراق مما يؤدي إلى مخاطر بيولوجية أكبر. حاول 16 مشاركًا ذوي خبرة من شبكة الفريق الأحمر، كلهم يحملون شهادات دكتوراه ذات صلة بالسلامة البيولوجية، استخراج معلومات بيولوجية خطيرة. كشفت تقديماتهم أن النموذج يمكنه توليف الأدبيات المنشورة حول تعديل وإنشاء تهديدات بيولوجية.
استجابةً لاكتشافات أعضاء الفريق الأحمر، صنفت OpenAI وكيل ChatGPT كـ "قدرة عالية" فيما يتعلق بالمخاطر البيولوجية والكيميائية، ليس لأنهم وجدوا أدلة قاطعة على إمكانية التسلح، ولكن كإجراء احترازي بناءً على اكتشافات الفريق الأحمر. وقد أدى ذلك إلى:
-
مصنفات أمان تعمل دائمًا تفحص 100% من حركة المرور
-
مصنف موضوعي يحقق دقة 96% للمحتوى المتعلق بالبيولوجيا
-
مراقب تفكير بدقة 84% للمحتوى المتعلق بالتسلح
-
برنامج مكافآت للثغرات البيولوجية لاكتشاف الثغرات المستمرة
ماذا علمت الفرق الحمراء OpenAI عن أمان الذكاء الاصطناعي
كشفت 110 تقديمات هجوم عن أنماط أجبرت OpenAI على إجراء تغييرات أساسية في فلسفتها الأمنية. تشمل هذه الأنماط ما يلي:
الاستمرارية فوق القوة: لا يحتاج المهاجمون إلى استغلالات معقدة، كل ما يحتاجونه هو المزيد من الوقت. أظهر أعضاء الفريق الأحمر كيف يمكن أن تؤدي الهجمات الصبورة والتدريجية في النهاية إلى اختراق الأنظمة.
حدود الثقة خيال: عندما يمكن لوكيل الذكاء الاصطناعي الوصول إلى Google Drive، وتصفح الويب، وتنفيذ التعليمات البرمجية، تتلاشى الحدود الأمنية التقليدية. استغل أعضاء الفريق الأحمر الفجوات بين هذه القدرات.
المراقبة ليست اختيارية: أدى اكتشاف أن المراقبة المعتمدة على العينة قد فاتتها هجمات حاسمة إلى متطلبات التغطية بنسبة 100%.
السرعة تهم: دورات التصحيح التقليدية التي تقاس بالأسابيع لا قيمة لها ضد هجمات حقن الأوامر التي يمكن أن تنتشر على الفور. يقوم بروتوكول الإصلاح السريع بإصلاح الثغرات في غضون ساعات.
OpenAI تساعد في إنشاء معيار أمان جديد للذكاء الاصطناعي المؤسسي
بالنسبة لمديري الأمن المعلوماتي الذين يقيمون نشر الذكاء الاصطناعي، فإن اكتشافات الفريق الأحمر تحدد متطلبات واضحة:
-
حماية قابلة للقياس: معدل الدفاع البالغ 95% لوكيل ChatGPT ضد متجهات الهجوم الموثقة يحدد معيار الصناعة. توضح تفاصيل الاختبارات والنتائج العديدة المحددة في بطاقة النظام السياق الذي تم من خلاله تحقيق ذلك، وهو أمر يجب قراءته لأي شخص معني بأمان النموذج.
-
رؤية كاملة: لم تعد مراقبة حركة المرور بنسبة 100% طموحة. توضح تجارب OpenAI لماذا أصبحت ضرورة نظرًا لمدى سهولة إخفاء الفرق الحمراء للهجمات في أي مكان.
-
استجابة سريعة: ساعات، وليس أسابيع، لإصلاح الثغرات المكتشفة.
-
حدود مفروضة: يجب تعطيل بعض العمليات (مثل الوصول إلى الذاكرة أثناء المهام الحساسة) حتى يتم إثبات سلامتها.
أثبت اختبار AISI في المملكة المتحدة أنه مفيد بشكل خاص. تم تصحيح جميع الهجمات السبع العالمية التي حددوها قبل الإطلاق، لكن وصولهم المميز إلى الأنظمة الداخلية كشف عن ثغرات يمكن أن يكتشفها في النهاية خصوم مصممون.
هذه لحظة محورية لعملنا في مجال الاستعداد،" كتبت غو على منصة X. "قبل أن نصل إلى القدرة العالية، كان الاستعداد يتعلق بتحليل القدرات والتخطيط للتدابير الوقائية. الآن، بالنسبة للوكيل والنماذج الأكثر قدرة في المستقبل، أصبحت تدابير الاستعداد مطلبًا تشغيليًا.
تعتبر الفرق الحمراء أساسية لبناء نماذج ذكاء اصطناعي أكثر أمانًا
الاكتشافات السبعة التي توصل إليها الباحثون، بالإضافة إلى 110 هجومًا من شبكة الفرق الحمراء التابعة لـ OpenAI، أصبحت بمثابة بوتقة صهر شكلت ChatGPT Agent. من خلال الكشف عن كيفية إمكانية استغلال وكلاء الذكاء الاصطناعي، أجبرت الفرق الحمراء على إنشاء أول نظام ذكاء اصطناعي حيث لا تكون الأمان مجرد ميزة، بل هو الأساس.
تثبت نتائج ChatGPT Agent فعالية الفرق الحمراء: حيث تم حجب 95% من هجمات المتصفح المرئية، وتم الكشف عن 78% من محاولات تسريب البيانات، ومراقبة كل تفاعل.
في ختام هذا الجزء، نجد أن جهود فريق OpenAI الأحمر كانت حاسمة في تعزيز أمان ChatGPT وتحويله إلى حصن منيع ضد التهديدات المحتملة. من خلال استراتيجيات دقيقة وتقييمات شاملة، تمكن الفريق من تحديد نقاط الضعف ومعالجتها بشكل فعال. تعتبر هذه العملية جزءًا أساسيًا من تطوير الذكاء الاصطناعي، حيث تضمن أن يكون النظام ليس فقط فعالًا، ولكن أيضًا آمنًا للاستخدام. إن التركيز على الأمان يعكس التزام OpenAI بتقديم تقنيات موثوقة ومفيدة للمستخدمين.
مع استمرار تطور الذكاء الاصطناعي، ستظل مثل هذه المبادرات ضرورية لضمان أن تبقى الأنظمة محصنة ضد أي تهديدات مستقبلية. إن العمل المستمر لفريق OpenAI الأحمر هو مثال يحتذى به في هذا المجال.
[IMAGE:N]
[VIDEO:N]
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!