برمجيات خبيثة جديدة تتجاوز Microsoft Defender باستخدام الذكاء الاصطناعي
ستساعد أداة جديدة للإفلات من الحماية، سيتم إصدارها قريبًا، فرق الاختراق والمهاجمين على تجاوز برنامج Microsoft Defender for Endpoint بشكل موثوق. منذ نوفمبر 2023، تنبأ المتشائمون بمستقبل ستساعد فيه النماذج اللغوية الكبيرة (LLMs) المهاجمين على تطوير البرمجيات الخبيثة بسرعة أكبر، وبشكل واسع، مع قدرات قد تفوق ما يمكن للبشر تصميمه بمفردهم. ومع ذلك، لم يتحقق هذا المستقبل بعد؛ حيث استخدم المهاجمون حتى الآن الذكاء الاصطناعي (AI) لتوليد برمجيات خبيثة بسيطة ومحتوى تصيد، بالإضافة إلى المساعدة في مهام إضافية مثل البحث عن الأهداف.
لكن في مؤتمر بلاك هات هذا العام في لاس فيغاس، سيقوم كايل أفيري، المتخصص الرئيسي في الهجمات في شركة Outflank، بعرض برنامج يبدو أكثر بكثير مما كان يخشاه الجميع: نموذج خفيف مصمم لتقويض برنامج الكشف والاستجابة الرائد من مايكروسوفت.
الحيلة: التعلم المعزز
يستشهد أفيري بـ "تحول" مهم في تطوير الذكاء الاصطناعي، حول بداية العام، كمصدر إلهام لمشروعه. تم تدريب أكثر النماذج اللغوية الكبيرة شيوعًا اليوم في بيئة غير خاضعة للإشراف إلى حد كبير. حيث يقوم المطورون بتغذية نماذجهم بكميات هائلة من البيانات العامة، وبطريقة مبسطة، تقوم النماذج بعمل استنتاجاتها الخاصة من هناك.
ومع ذلك، في ديسمبر الماضي، أصدرت OpenAI نموذج o1، الذي كان مختلفًا عن نماذج GPT السابقة. كما يوضح أفيري، "عندما انتقلوا من GPT 3.5 إلى 4، كان 4 أفضل في كل شيء من 3.5. لكن o1 كان فريدًا من نوعه حيث كان لديه بعض النقاط القوية - مثل الرياضيات والترميز، على وجه الخصوص - لكنه كان أسوأ في الكتابة، على سبيل المثال. ولم يقدموا الكثير من المعلومات حول [لماذا]." اتضح أن ذلك لم يكن عيبًا، بل كان خيار تصميم. وقد تم توضيح ما جعل o1 مختلفًا بعد شهر (ليس بإرادة OpenAI) مع إصدار DeepSeek لنموذجها R1. كان R1 مشابهًا لـ o1، وكان مفتوح المصدر (OSS)، مع ورقة تقنية تفصيلية حول كيفية صنعه.
كانت الحيلة هي التعلم المعزز (RL) مع مكافآت قابلة للتحقق. حيث بدأ المطورون في تدريب النماذج لتتفوق في أنواع معينة من المهام، من خلال جعلها تقوم بالكثير من التنبؤات التي يمكن التحقق منها أو رفضها تلقائيًا. وهذا يفسر لماذا كانت أفضل بكثير في المهام مثل الرياضيات - حيث توجد إجابات صحيحة وخاطئة - مقارنة بالمهام الذاتية مثل الكتابة. هذا ألهم إمكانية جديدة: أن النماذج الذكية يمكن تدريبها للتخصص في مجال معين أو حتى مهمة معينة، مثل التهرب من برامج الأمان.
كيفية بناء برمجيات خبيثة باستخدام LLM
من الناحية النظرية، كان الحصول على بيانات التدريب دائمًا عقبة رئيسية في تطوير الذكاء الاصطناعي الخبيث. حيث تم بناء النماذج اللغوية الكبيرة الشائعة اليوم على عشرات التيرابايت من الأدبيات وبيانات الإنترنت، وما إلى ذلك. لكن هناك كمية محدودة من البرمجيات الخبيثة المتاحة، وهي جزء صغير مما يمكن أن يحصل عليه أي هاكر - وهذا ليس كافيًا لتدريب نموذج على تطوير برمجيات خبيثة بشكل مستقل وفعال. ومع ذلك، فإن التعلم المعزز يقضي تمامًا على هذا الشرط، وفقًا لأفيري.
أخذ أفيري نموذجًا مفتوح المصدر عام — Qwen 2.5 — وضعه في بيئة معزولة مع Microsoft Defender for Endpoint، وكتب برنامجًا يقوم بتقييم مدى قرب النموذج من إنتاج أداة إفلات. "لا يمكنه القيام بذلك من الصندوق،" كما يوضح. "مرة واحدة من كل ألف مرة، ربما، يحقق حظًا ويكتب برمجيات خبيثة تعمل لكنها لا تتجنب أي شيء. وعندما يحدث ذلك، يمكنك مكافأته على البرمجيات الخبيثة التي تعمل. مع تكرار هذا، يصبح أكثر اتساقًا في إنتاج شيء يعمل، ليس لأنك أظهرت له أمثلة، ولكن لأنه تم تحديثه ليكون أكثر احتمالًا للقيام بنوع التفكير الذي أدى إلى البرمجيات الخبيثة التي تعمل."
في هذه المرحلة، كان النموذج قادرًا على إنشاء برمجيات خبيثة. لجعله يتخصص في الغرض المحدد من التهرب من Microsoft Defender، قام أفيري بتوصيل واجهة برمجة التطبيقات (API) التي تسمح بالاستعلام واسترجاع التنبيهات التي يولدها Defender. تم توجيه النموذج نحو كتابة برمجيات خبيثة ستثير تنبيهات ذات شدة أقل وأقل.
النتيجة: التهرب الموثوق من EDR
في النهاية، كان نموذج أفيري قادرًا على إنتاج برمجيات خبيثة قادرة على تجاوز Microsoft Defender for Endpoint حوالي 8% من الوقت. بعبارة أخرى، يمكن للمهاجم الذي يستفسر عن النموذج في أي وقت أن يتوقع بشكل معقول إنتاج برمجيات خبيثة متجنبة تمامًا في حوالي عشرة محاولات. بالمقارنة، وجد أن الذكاء الاصطناعي لشركة Anthropic يمكنه القيام بذلك أقل من 1% من الوقت، وDeepSeek أقل من 0.5% من الوقت. من الجدير بالذكر أن برنامجه أصغر بكثير من تلك البرامج، مما يسمح له بالعمل بشكل مريح على أي بطاقة رسومية عالية الجودة للمستهلك. وكان القرار بوقف تدريب البرنامج بمجرد أن وصل إلى 8% نجاح عشوائيًا. في تلك المرحلة، يتذكر، "كان الاتجاه هو أنه سيستمر في الارتفاع. لا أعرف. أنا متأكد أنه في النهاية سيصل إلى مستوى ثابت." على مدار ثلاثة أشهر تقريبًا، أفاد أنه "أنفقت حوالي 1500 أو 1600 دولار في صنع هذا، وهو ليس مبلغًا كبيرًا. لذا، أعتقد أنه من المحتمل جدًا على المدى المتوسط، وخاصة على المدى الطويل، أن يبدأ المجرمون في القيام بأشياء مثل هذه."
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!