التعلم المعزز الداخلي: مستقبل الذكاء الاصطناعي المعقد

طور الباحثون في جوجل تقنية تسهل على نماذج الذكاء الاصطناعي تعلم مهام التفكير المعقدة التي عادة ما تؤدي إلى هلاوس أو انهيار نماذج اللغة الكبيرة (LLMs). بدلاً من تدريب هذه النماذج من خلال توقع الرمز التالي، تعتمد تقنيتهم، المعروفة باسم التعلم المعزز الداخلي (internal RL)، على توجيه تفعيلات النموذج الداخلية نحو تطوير حل خطوة بخطوة عالي المستوى للمشكلة المدخلة.

في النهاية، يمكن أن توفر هذه التقنية مسارًا قابلًا للتوسع لإنشاء وكلاء مستقلين يمكنهم التعامل مع التفكير المعقد والروبوتات في العالم الحقيقي دون الحاجة إلى توجيه يدوي مستمر.

حدود توقع الرمز التالي

يلعب التعلم المعزز دورًا رئيسيًا في تدريب نماذج اللغة الكبيرة، خاصةً للمهام المعقدة التي تتطلب تخطيطًا طويل الأمد. ومع ذلك، تكمن المشكلة في بنية هذه النماذج. تعتبر نماذج اللغة الكبيرة ذاتية التكرار، مما يعني أنها تولد تسلسلات رمز واحد في كل مرة. عندما تستكشف هذه النماذج استراتيجيات جديدة أثناء التدريب، فإنها تقوم بذلك من خلال إجراء تغييرات صغيرة وعشوائية على الرمز أو الإجراء التالي. وهذا يكشف عن قيود أعمق: إن توقع الرمز التالي يجبر النماذج على البحث عن حلول على مستوى تجريدي خاطئ، مما يجعل التفكير طويل الأمد غير فعال حتى عندما "تعرف" النموذج ما يجب القيام به.

تعمل هذه الطريقة خطوة بخطوة بشكل جيد لنمذجة اللغة الأساسية، لكنها تنهار في المهام طويلة الأمد حيث تكون المكافآت نادرة. إذا اعتمد النموذج فقط على أخذ عينات عشوائية على مستوى الرموز، فإن احتمالية الوصول إلى الحل الصحيح متعدد الخطوات تكون ضئيلة للغاية، "على مستوى واحد من بين مليون"، وفقًا للباحثين.

المشكلة ليست فقط أن النماذج تتعرض للارتباك؛ بل إنها تتعرض للارتباك على المستوى الخاطئ. في تعليقات قدمها يانيك شيمبف، أحد مؤلفي الورقة، لوكالة VentureBeat، أشار إلى أنه في مهمة تتكون من 20 خطوة، يمكن لوكيل أن يضيع في التفاصيل الدقيقة لخطوة واحدة، أو يمكن أن يفقد التركيز على الهدف العام.

"نحن نؤكد أنه عند مواجهة مشكلة ذات هيكل تجريدي... [استكشاف موجه نحو الهدف] هو ما تحتاجه"، قال شيمبف. من خلال حل المشكلة على المستوى التجريدي أولاً، يلتزم الوكيل بمسار، مما يضمن أنه لا "يضيع في أحد خطوات التفكير" ويفشل في إكمال سير العمل الأوسع.

AI problem solving — حقوق الصورة: VentureBeat مع NotebookLM

لمعالجة هذه المشكلة، كان المجال ينظر منذ فترة طويلة نحو التعلم المعزز الهرمي. يحاول التعلم المعزز الهرمي حل المشكلات المعقدة من خلال تقسيمها إلى هرم من الإجراءات التجريدية الزمنية (الروتينات الفرعية عالية المستوى التي تمثل مراحل مختلفة من الحل) بدلاً من إدارة المهمة كسلسلة من الرموز.

ومع ذلك، لا يزال اكتشاف هذه الروتينات الفرعية المناسبة تحديًا طويل الأمد. غالبًا ما تفشل طرق التعلم المعزز الهرمي الحالية في اكتشاف السياسات المناسبة، وغالبًا ما "تتجمع إلى خيارات متدهورة" لا تمثل سلوكيات ذات معنى. حتى الطرق الحديثة المتطورة مثل GRPO (خوارزمية التعلم المعزز الشهيرة المستخدمة لمهام المكافآت النادرة) تفشل في البيئات المعقدة لأنها لا تستطيع ربط الفجوة بين التنفيذ على المستوى المنخفض والتخطيط على المستوى العالي.

توجيه أفكار LLM الداخلية

لتجاوز هذه القيود، اقترح فريق جوجل التعلم المعزز الداخلي. النماذج الذاتية التكرار المتقدمة "تعرف" بالفعل كيفية أداء المهام المعقدة متعددة الخطوات داخليًا، حتى لو لم يتم تدريبها بشكل صريح للقيام بذلك.

نظرًا لأن هذه السلوكيات المعقدة مخفية داخل تيار النموذج المتبقي (أي القيم العددية التي تحمل المعلومات عبر طبقات الشبكة)، قدم الباحثون "وحدة تحكم عصبية داخلية"، أو متحكمًا ميتا. بدلاً من مراقبة وتغيير الرمز الناتج، يتحكم المتحكم الميتا في سلوك النموذج من خلال تطبيق تغييرات على تفعيلات النموذج الداخلية في الطبقات الوسطى.

metacontroller — المتحكم الميتا المستخدم في التعلم المعزز الداخلي يتم إدخاله بين الكتل الرئيسية للنموذج ويضبط سلوك النموذج من خلال تيار المتبقي (المصدر: arXiv)

هذا الدفع يوجه النموذج إلى حالة مفيدة محددة. ثم يقوم النموذج الأساسي تلقائيًا بتوليد تسلسل الخطوات الفردية اللازمة لتحقيق هذا الهدف لأنه قد رأى تلك الأنماط بالفعل خلال تدريبه الأولي.

يعمل المتحكم الميتا من خلال التعلم غير المراقب ولا يتطلب أمثلة تدريب مصنفة من قبل الإنسان. بدلاً من ذلك، يستخدم الباحثون إطارًا ذاتيًا حيث يقوم النموذج بتحليل تسلسل كامل من السلوك ويعمل في الاتجاه المعاكس لاستنتاج النية العالية المستوى المخفية التي تفسر بشكل أفضل الأفعال.

خلال مرحلة التعلم المعزز الداخلي، يتم تطبيق التحديثات على المتحكم الميتا، مما يحول التدريب من توقع الرمز التالي إلى تعلم إجراءات عالية المستوى يمكن أن تؤدي إلى الحل.

لفهم القيمة العملية لذلك، اعتبر وكيلًا مؤسسيًا مكلفًا بتوليد الشيفرة. اليوم، هناك تبادل صعب: تحتاج إلى "درجة حرارة منخفضة" (قابلية التنبؤ) للحصول على التركيب الصحيح، ولكن "درجة حرارة عالية" (إبداع) لحل لغز المنطق.

"قد يسهل التعلم المعزز الداخلي ذلك من خلال السماح للنموذج باستكشاف مساحة الإجراءات التجريدية، أي تنظيم المنطق واستدعاءات الطرق، بينما يتم تفويض تحقيق تلك الإجراءات على مستوى الرموز إلى توزيع النموذج الأساسي القوي ومنخفض الحرارة"، قال شيمبف. يستكشف الوكيل الحل دون كسر التركيب.

حقق الباحثون في طريقتين لتطبيق هذا المتحكم. في الأولى، يتم تدريب النموذج الأساسي الذاتي التكرار على مجموعة بيانات سلوكية ثم يتم تجميده، بينما يتم تدريب المتحكم الميتا لتوجيه تيار المتبقي للنموذج المجمد. في الثانية، يتم تحسين المتحكم الميتا والنموذج الأساسي بشكل مشترك، مع تحديث معلمات كلا الشبكتين في نفس الوقت.

التعلم المعزز الداخلي في العمل

لتقييم فعالية التعلم المعزز الداخلي، أجرى الباحثون تجارب عبر بيئات هرمية مصممة لإرباك المتعلمين التقليديين. وشملت هذه بيئة شبكة متقطعة ومهمة تحكم مستمرة حيث يجب على روبوت "نملة" رباعية الأرجل تنسيق حركات المفاصل. استخدمت كلتا البيئتين مكافآت نادرة مع تسلسلات إجراءات طويلة جدًا.

بينما فشلت الأسس مثل GRPO وCompILE في تعلم المهام خلال مليون حلقة بسبب صعوبة تخصيص الائتمان على المدى الطويل، حقق التعلم المعزز الداخلي معدلات نجاح عالية مع عدد قليل من حلقات التدريب. من خلال اختيار أهداف عالية المستوى بدلاً من خطوات صغيرة، قلل المتحكم الميتا بشكل كبير من مساحة البحث. سمح ذلك للنموذج بتحديد أي القرارات عالية المستوى أدت إلى النجاح، مما جعل تخصيص الائتمان فعالًا بما يكفي لحل مشكلة المكافآت النادرة.

Internal RL performance — النماذج المدربة باستخدام Internal RL تظهر تحسنًا سريعًا في مهام التفكير على المدى الطويل بينما تفشل النماذج الأخرى في التعلم (المصدر: arXiv)

من الملاحظ أن الباحثين وجدوا أن النهج "المجمد" كان متفوقًا. عندما تم تدريب النموذج الأساسي والمتتحكم الميتا معًا من الصفر، فشل النظام في تطوير تجريدات ذات معنى. ومع ذلك، عند تطبيقه على نموذج مجمد، تمكن المتحكم الميتا من اكتشاف نقاط تفتيش رئيسية دون أي تسميات بشرية، مما جعل آلية التبديل الداخلية تتماشى تمامًا مع اللحظات الحقيقية عندما أنهى الوكيل هدفًا فرعيًا وبدأ في الهدف التالي.

بينما تركز الصناعة حاليًا على نماذج التفكير التي تنتج "سلاسل من الأفكار" لحل المشكلات، تشير أبحاث جوجل إلى مستقبل مختلف، ربما أكثر كفاءة.

قال شيمبف: "دراستنا تنضم إلى مجموعة متزايدة من الأعمال التي تقترح أن 'التفكير الداخلي' ليس فقط ممكنًا، بل قد يكون أكثر كفاءة من النهج القائم على الرموز. علاوة على ذلك، يمكن فصل هذه 'الأفكار الصامتة' عن مدخلات معينة — وهي خاصية قد تكون ذات صلة خاصة بمستقبل الذكاء الاصطناعي متعدد الوسائط."

إذا كان يمكن توجيه التفكير الداخلي دون أن يتم التعبير عنه خارجيًا، فقد يعتمد مستقبل الوكلاء الذكيين أقل على استراتيجيات التحفيز وأكثر على مدى قدرتنا على الوصول إلى ما تمثله النماذج بالفعل داخليًا وتوجيهه. بالنسبة للمؤسسات التي تراهن على أنظمة مستقلة يجب أن تخطط وتتكيف وتتصرف على مدى طويل، قد تكون هذه النقلة أكثر أهمية من أي معيار تفكير جديد.

تعتبر تقنيات التعلم المعزز الداخلي من جوجل خطوة هامة نحو تطوير وكلاء ذكاء اصطناعي قادرين على التعامل مع مهام طويلة الأمد. هذه التقنيات لا تقتصر فقط على تحسين الأداء، بل تسهم أيضًا في تعزيز قدرة الوكلاء على اتخاذ قرارات استراتيجية على المدى البعيد.

من خلال استخدام التعلم المعزز الداخلي، يمكن للوكلاء تحليل البيانات بشكل أعمق وفهم العلاقات المعقدة بين الأحداث. هذا يمكنهم من التكيف مع التغيرات في البيئة المحيطة بهم، مما يزيد من فعالية استراتيجياتهم.

تفتح هذه الابتكارات آفاقًا جديدة في مجالات متعددة، بدءًا من الروبوتات الذكية وصولًا إلى أنظمة إدارة الموارد. مع استمرار تطور هذه التقنيات، من المتوقع أن نشهد تحسنًا ملحوظًا في كيفية تفاعل الوكلاء مع العالم من حولهم.

في الختام، تمثل تقنيات التعلم المعزز الداخلي من جوجل خطوة رائدة نحو مستقبل أكثر ذكاءً، حيث يمكن للوكلاء الذكاء الاصطناعي أن يصبحوا أكثر قدرة على التعامل مع التحديات المعقدة واتخاذ قرارات فعالة على المدى الطويل.

التعلم المعزز الداخلي: مستقبل الذكاء الاصطناعي المعقد

حدود توقع الرمز التالي

توجيه أفكار LLM الداخلية

التعلم المعزز الداخلي في العمل

الأمن السيبراني

ثغرة مفاتيح Google API تهدد بيانات Gemini AI بالتعرض (2026)

تحذير: ثغرتان خطيرتان بـ Trend Micro Apex One تتيحان RCE (2025)

ManoMano: تسريب بيانات 38 مليون عميل عبر طرف ثالث (2026)

تحذير: ثغرة Juniper PTX تتيح اختراقاً كاملاً للموجهات 2026

أول مشروع لـ Raspberry Pi Zero: حظر الإعلانات بشبكتك بفعالية

أولمبيك مارسيليا يؤكد اختراق بيانات 400 ألف مشجع

التعليقات 0

حدود توقع الرمز التالي

توجيه أفكار LLM الداخلية

التعلم المعزز الداخلي في العمل

سبيس إكس: هبوط فالكون 9 بنجاح ومشهد جوي مذهل

Block تسرح 40% من موظفيها: كفاءة الذكاء الاصطناعي السبب؟

Anthropic ترفض البنتاغون: قيود Claude خط أحمر أخلاقي

جاك دورسي يقلص نصف موظفي بلوك: هل شركتك التالية؟

Anthropic تتحدى البنتاغون: لا لـ AI في الأسلحة الفتاكة والمراقبة

مايكروسوفت تطلق Copilot Tasks: AI ينجز مهامك تلقائياً

الأمن السيبراني

ثغرة مفاتيح Google API تهدد بيانات Gemini AI بالتعرض (2026)

تحذير: ثغرتان خطيرتان بـ Trend Micro Apex One تتيحان RCE (2025)

ManoMano: تسريب بيانات 38 مليون عميل عبر طرف ثالث (2026)

تحذير: ثغرة Juniper PTX تتيح اختراقاً كاملاً للموجهات 2026

أول مشروع لـ Raspberry Pi Zero: حظر الإعلانات بشبكتك بفعالية

أولمبيك مارسيليا يؤكد اختراق بيانات 400 ألف مشجع

شارك هذا المقال

التعليقات 0

صفحات الموقع

مركز المساعدة

سياسة الخصوصية

شروط الاستخدام

من نحن

تواصل معنا