بحث
اختبار جديد يكشف: هل الذكاء الاصطناعي جاهز للوظائف؟
الذكاء الاصطناعي #الذكاء_الاصطناعي #تقنية

اختبار جديد يكشف: هل الذكاء الاصطناعي جاهز للوظائف؟

تاريخ النشر: آخر تحديث: 32 مشاهدة 0 تعليق 3 دقائق قراءة
32 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

مر عامان تقريباً منذ أن توقع ساتيا ناديلا، الرئيس التنفيذي لشركة مايكروسوفت، أن الذكاء الاصطناعي سيحل محل العمل المعرفي والوظائف المكتبية في مجالات مثل المحاماة، والاستثمار المصرفي، والمحاسبة.

ولكن، على الرغم من التقدم الهائل الذي أحرزته النماذج الأساسية، كان التغيير في طبيعة العمل المعرفي بطيئاً. فقد أتقنت النماذج البحث المتعمق والتخطيط، ولكن لسبب ما، بقيت معظم الوظائف المكتبية غير متأثرة نسبياً بهذا التحول.

اختبار الواقع الصعب: Apex-Agents

بفضل بحث جديد من شركة بيانات التدريب العملاقة Mercor، بدأنا نحصل على إجابات لهذا اللغز. يبحث هذا البحث الجديد في كيفية صمود نماذج الذكاء الاصطناعي الرائدة عند القيام بمهام مكتبية حقيقية مستمدة من الاستشارات، والخدمات المصرفية الاستثمارية، والقانون.

النتيجة هي معيار جديد يسمى "Apex-Agents"، وحتى الآن، حصلت جميع مختبرات الذكاء الاصطناعي على درجات رسوب. عند مواجهة استفسارات من محترفين حقيقيين، كافحت حتى أفضل النماذج للحصول على إجابة صحيحة لأكثر من ربع الأسئلة فقط. وفي الغالبية العظمى من الوقت، عاد النموذج بإجابة خاطئة أو لم يُجب على الإطلاق.

عقبة تعدد المجالات

وفقاً للباحث بريندان فودي، الذي عمل على الورقة البحثية، كانت نقطة التعثر الكبرى للنماذج هي تتبع المعلومات عبر مجالات متعددة، وهو أمر أساسي لمعظم العمل المعرفي الذي يقوم به البشر.

وصرح فودي قائلاً: "أحد التغييرات الكبيرة في هذا المعيار هو أننا قمنا ببناء البيئة بأكملها، على غرار الخدمات المهنية الحقيقية. الطريقة التي نؤدي بها وظائفنا ليست من خلال فرد واحد يعطينا كل السياق في مكان واحد. في الحياة الواقعية، أنت تعمل عبر Slack وGoogle Drive وجميع هذه الأدوات الأخرى". بالنسبة للعديد من نماذج الذكاء الاصطناعي، لا يزال هذا النوع من التفكير متعدد المجالات غير مستقر.

سيناريوهات واقعية معقدة

تم استخلاص جميع السيناريوهات من محترفين فعليين في سوق خبراء Mercor، والذين وضعوا الاستفسارات وحددوا معيار الاستجابة الناجحة. وبالنظر إلى الأسئلة المنشورة علناً على Hugging Face، يتضح مدى تعقيد المهام.

على سبيل المثال، يتطلب أحد الأسئلة في قسم "القانون" تقييماً متعمقاً لسياسات الشركة بالإضافة إلى قوانين الخصوصية ذات الصلة في الاتحاد الأوروبي لتحديد ما إذا كان تصدير سجلات البيانات مسموحاً به. إذا تمكن نموذج لغوي كبير (LLM) من الإجابة بدقة على هذه الأسئلة، فقد يحل محل العديد من المحامين العاملين اليوم.

أداء النماذج بالأرقام

يختلف اختبار Apex Agents عن معيار GDPVal الخاص بـ OpenAI الذي يختبر المعرفة العامة، حيث يقيس قدرة النظام على أداء مهام مستمرة في مجموعة ضيقة من المهن عالية القيمة.

بينما لم يثبت أي من النماذج استعداده لتولي مهام المصرفيين الاستثماريين، كان بعضها أقرب بوضوح:

  • حقق Gemini 3 Flash الأداء الأفضل في المجموعة بدقة 24%.
  • جاء GPT-5.2 في المركز الثاني بنسبة 23%.
  • سجل كل من Opus 4.5 وGemini 3 Pro وGPT-5 ما يقرب من 18%.

ورغم أن النتائج الأولية تبدو منخفضة، إلا أن مجال الذكاء الاصطناعي لديه تاريخ في تجاوز المعايير الصعبة بسرعة. ويشبه فودي الوضع الحالي بـ "متدرب يصيب ربع الوقت"، مشيراً إلى أن التحسن السريع عاماً تلو الآخر قد يغير المعادلة قريباً جداً.

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!