بحث
MemRL: تقنية ذكاء اصطناعي تتفوق على RAG دون إعادة تدريب
الذكاء الاصطناعي #MemRL #الذكاء_الاصطناعي

MemRL: تقنية ذكاء اصطناعي تتفوق على RAG دون إعادة تدريب

تاريخ النشر: آخر تحديث: 38 مشاهدة 0 تعليق 3 دقائق قراءة
38 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

كشف باحثون من جامعة شانغهاي جياو تونغ ومؤسسات أخرى عن تقنية جديدة تُمكّن وكلاء النماذج اللغوية الكبيرة (LLM Agents) من اكتساب مهارات جديدة دون الحاجة إلى عمليات "إعادة التدريب الدقيق" (Fine-tuning) المكلفة والمستهلكة للموارد.

الإطار الجديد، الذي أطلق عليه اسم MemRL، يمنح الذكاء الاصطناعي قدرة مشابهة لـ "الذاكرة العرضية" لدى البشر، مما يسمح له باسترجاع التجارب السابقة لحل مهام لم يواجهها من قبل. وكما تظهر الصورة الأولى المرفقة للمقال، يعتمد هذا النظام على مفهوم الوكيل المتطور ذاتياً الذي يستخدم التغذية الراجعة من البيئة لتحسين استراتيجيات حل المشكلات باستمرار.

معضلة الاستقرار والمرونة

تكمن التحديات الرئيسية في تطبيقات الذكاء الاصطناعي الحالية في كيفية تكييف النموذج مع المعارف الجديدة. الطرق التقليدية مثل إعادة التدريب قد تؤدي إلى ما يعرف بـ "النسيان الكارثي"، حيث تمحو المعلومات الجديدة البيانات القديمة. من ناحية أخرى، تعتبر تقنيات التوليد المعزز بالاسترجاع (RAG) سلبية؛ فهي تسترجع المعلومات بناءً على التشابه الدلالي فقط دون تقييم فائدتها الحقيقية.

يرى الباحثون أن الحل يكمن في محاكاة العقل البشري الذي يفصل بين الاستنتاج المستقر (القشرة الدماغية) والذاكرة العرضية الديناميكية. هذا الفصل يسمح بالتكيف دون الحاجة لـ "إعادة توصيل" الدوائر العصبية للنموذج.

كيف يعمل إطار MemRL؟

في هندسة MemRL، تظل معلمات النموذج اللغوي الكبير (LLM) مجمدة تماماً، حيث يعمل النموذج كـ "قشرة دماغية" مسؤولة عن المنطق والاستنتاج فقط. وللتعامل مع المعلومات الجديدة، يحافظ النظام على مكون ذاكرة ديناميكي.

ويتضح من الصورة الثانية المرفقة التي تشرح هيكلية MemRL، أن النظام لا يخزن نصوصاً مجردة كما في RAG، بل ينظم الذاكرة في ثلاثيات تتكون من: النية (استفسار المستخدم)، التجربة (الحل المتخذ)، والمنفعة (Q-value). تمثل قيمة "Q-value" درجة نجاح هذه التجربة في الماضي.

التفوق عبر التعلم المعزز

النقطة الجوهرية التي تميز MemRL هي دمج التعلم المعزز في عملية الاسترجاع. عندما يقوم الوكيل بمحاولة حل ويحصل على تغذية راجعة (نجاح أو فشل)، يتم تحديث قيمة المنفعة للذاكرة المسترجعة. هذا يخلق حلقة مغلقة تسمح للوكيل بمرور الوقت بتجاهل الذكريات غير المفيدة وإعطاء الأولوية للاستراتيجيات الناجحة.

وفي حديثه لموقع VentureBeat، أوضح "مونينغ ون"، المؤلف المشارك في الورقة البحثية وطالب الدكتوراه في جامعة شانغهاي جياو تونغ، أن MemRL صُمم ليكون بديلاً مباشراً لطبقة الاسترجاع في الأنظمة الحالية، مشيراً إلى أن حسابات قيمة المنفعة تتم بالكامل على وحدة المعالجة المركزية (CPU) مما يعني تكلفة حسابية منخفضة.

أداء يتفوق على المعايير الصناعية

خضع النظام لاختبارات صارمة عبر مقاييس صناعية متنوعة مثل BigCodeBench وALFWorld. وكما تظهر الرسوم البيانية في الصورة الثالثة المرفقة، تفوق MemRL باستمرار على تقنيات RAG التقليدية وأطر الذاكرة الأخرى.

كان التفوق واضحاً بشكل خاص في البيئات التي تتطلب الاستكشاف مثل ALFWorld، حيث حقق MemRL تحسناً نسبياً بنحو 56% مقارنة بإطار MemP. هذا يشير إلى أن النظام لا يحفظ البيانات فحسب، بل يصفي الذكريات منخفضة القيمة بذكاء.

مستقبل الوكلاء الأذكياء

يمثل هذا التطور نقلة نوعية للشركات، حيث يمكن نشر وكلاء بذكاء عام ثم تكييفهم بسرعة مع سير العمل الخاص بالشركة من خلال التفاعل فقط. واختتم "ون" حديثه برؤية مستقبلية قائلاً: "في مستقبل توشك فيه البيانات الثابتة على النفاد، ستصبح تجربة التفاعل التي يولدها كل وكيل ذكي خلال حياته هي الوقود الجديد".

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!