دراسة صادمة: انهيار دفاعات الذكاء الاصطناعي أمام الهجمات المتكيفة
في مفاجأة من العيار الثقيل لفرق الأمن السيبراني حول العالم، كشف باحثون من عمالقة التقنية OpenAI وAnthropic وGoogle DeepMind عن نتائج دراسة نشرت في أكتوبر 2025، قد تدفع مديري أمن المعلومات (CISOs) لإيقاف عمليات الشراء الحالية فوراً. الدراسة التي حملت عنوان "المهاجم يتحرك ثانياً"، اختبرت 12 نظاماً للدفاع عن الذكاء الاصطناعي تدعي معدلات نجاح تقارب الصفر في صد الهجمات، لتكون النتيجة الصادمة: تمكن فريق البحث من تجاوز معظم هذه الدفاعات بنسبة تخطت 90%.
لماذا تفشل جدران الحماية التقليدية؟
تكمن المشكلة الجوهرية في أن معظم منتجات أمن الذكاء الاصطناعي يتم اختبارها ضد مهاجمين لا يتصرفون كالمهاجمين الحقيقيين. اختبر الفريق دفاعات قائمة على التلقين (Prompting)، والتدريب، والتصفية (Filtering) تحت ظروف "هجوم متكيف". النتيجة كانت انهيار جميع الدفاعات، حيث حققت الهجمات المتكيفة معدلات نجاح تراوحت بين 95% إلى 99%.
السبب التقني وراء هذا الفشل هو أن جدران حماية تطبيقات الويب (WAFs) تقليدية ولا تحتفظ بالحالة (Stateless)، بينما هجمات الذكاء الاصطناعي تعتمد على السياق. استخدم الباحثون تقنيات معروفة لكسر الحماية (Jailbreak) مثل:
- هجوم Crescendo: يستغل سياق المحادثة عبر تقسيم الطلب الخبيث إلى أجزاء تبدو بريئة عبر ما يصل إلى 10 جولات محادثة لبناء الثقة مع النموذج.
- هجوم GCG: هجوم آلي يولد لواحق نصية لكسر الحماية عبر التحسين القائم على التدرج.
وفي هذا السياق، صرح كارتر ريس، نائب رئيس الذكاء الاصطناعي في شركة Reputation: "عبارة بريئة مثل 'تجاهل التعليمات السابقة' أو حمولة مشفرة بـ Base64 يمكن أن تكون مدمرة لتطبيق الذكاء الاصطناعي تماماً كما كان تجاوز سعة المخزن المؤقت (Buffer Overflow) للبرمجيات التقليدية".
سرعة النشر مقابل ركود الأمن
تتوقع مؤسسة Gartner أن 40% من تطبيقات المؤسسات ستدمج وكلاء الذكاء الاصطناعي بحلول نهاية عام 2026، ارتفاعاً من أقل من 5% في عام 2025. هذا المنحنى العمودي في النشر يقابله منحنى مسطح في الأمن.
ووفقاً لآدم مايرز من CrowdStrike، فإن أسرع وقت اختراق تم رصده كان 51 ثانية فقط. وأشار تقرير CrowdStrike لعام 2025 إلى أن 79% من الاكتشافات كانت خالية من البرمجيات الخبيثة (Malware-free)، حيث يستخدم المهاجمون تقنيات يدوية تتجاوز الدفاعات التقليدية.
أربعة ملفات للمهاجمين تستغل الثغرات
حدد البحث أربع فئات من المهاجمين الذين يستغلون طبقة الاستدلال حالياً:
- الخصوم الخارجيون: يستخدمون أبحاث الهجمات المنشورة مثل Crescendo وArtPrompt.
- عملاء B2B الخبثاء: يستغلون الوصول الشرعي لواجهة برمجة التطبيقات (API) لعكس هندسة بيانات التدريب.
- مستهلكو API المخترقون: يستخدمون بيانات اعتماد موثوقة لاستخراج مخرجات حساسة.
- الموظفون المهملون (Shadow AI): وهم التهديد الأكثر شيوعاً وتكلفة، حيث يقوم الموظفون بلصق أكواد برمجية حساسة في نماذج عامة لزيادة الكفاءة، مما يعرض بيانات الشركة للخطر كما حدث مع مهندسي سامسونج.
7 أسئلة يجب طرحها على مزودي أمن الذكاء الاصطناعي
بناءً على نتائج البحث، يجب على قادة الأمن طرح هذه الأسئلة السبعة قبل شراء أي منتج دفاعي:
- ما هو معدل التجاوز ضد المهاجمين المتكيفين؟ (لا تقبل نتائج الاختبارات الثابتة).
- كيف يكتشف الحل الهجمات متعددة الجولات؟ (الفلاتر التي لا تحتفظ بالحالة ستفشل هنا).
- كيف تتعاملون مع الحمولات المشفرة؟ (مثل تشفير Base64 أو فن ASCII).
- هل يقوم الحل بتصفية المخرجات وكذلك المدخلات؟ (لمنع تسريب البيانات).
- كيف تتبعون السياق عبر جولات المحادثة؟
- كيف تختبرون النظام ضد مهاجمين يفهمون آلية دفاعكم؟
- ما هو متوسط الوقت لتحديث الدفاعات ضد أنماط الهجوم الجديدة؟
الخلاصة
الرسالة واضحة من عمالقة التكنولوجيا: دفاعات الذكاء الاصطناعي الحالية صممت لمهاجمين لا يتطورون، لكن الواقع يثبت العكس. يجب على المؤسسات تدقيق ضوابطها الحالية فوراً، لأن الفجوة بين سرعة تبني التقنية وتطور حمايتها هي المكان الذي ستحدث فيه الاختراقات القادمة.
الأسئلة الشائعة
لأن الجدران التقليدية (WAFs) لا تحتفظ بالحالة (Stateless)، بينما تعتمد هجمات الذكاء الاصطناعي الحديثة على سياق المحادثة الممتد عبر عدة جولات.
تمكن الباحثون من تجاوز معظم أنظمة الدفاع الـ 12 التي تم اختبارها بنسبة تجاوزت 90% باستخدام هجمات متكيفة.
هو ظاهرة قيام الموظفين باستخدام أدوات ذكاء اصطناعي عامة غير مصرح بها ولصق بيانات حساسة أو أكواد برمجية فيها، مما يعرض بيانات المؤسسة للخطر.
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!