اختبار جديد يكشف: هل الذكاء الاصطناعي جاهز للوظائف؟

تاريخ النشر: منذ شهر آخر تحديث: منذ 23 ساعة 32 مشاهدة 0 تعليق 3 دقائق قراءة

مر عامان تقريباً منذ أن توقع ساتيا ناديلا، الرئيس التنفيذي لشركة مايكروسوفت، أن الذكاء الاصطناعي سيحل محل العمل المعرفي والوظائف المكتبية في مجالات مثل المحاماة، والاستثمار المصرفي، والمحاسبة.

ولكن، على الرغم من التقدم الهائل الذي أحرزته النماذج الأساسية، كان التغيير في طبيعة العمل المعرفي بطيئاً. فقد أتقنت النماذج البحث المتعمق والتخطيط، ولكن لسبب ما، بقيت معظم الوظائف المكتبية غير متأثرة نسبياً بهذا التحول.

اختبار الواقع الصعب: Apex-Agents

بفضل بحث جديد من شركة بيانات التدريب العملاقة Mercor، بدأنا نحصل على إجابات لهذا اللغز. يبحث هذا البحث الجديد في كيفية صمود نماذج الذكاء الاصطناعي الرائدة عند القيام بمهام مكتبية حقيقية مستمدة من الاستشارات، والخدمات المصرفية الاستثمارية، والقانون.

النتيجة هي معيار جديد يسمى "Apex-Agents"، وحتى الآن، حصلت جميع مختبرات الذكاء الاصطناعي على درجات رسوب. عند مواجهة استفسارات من محترفين حقيقيين، كافحت حتى أفضل النماذج للحصول على إجابة صحيحة لأكثر من ربع الأسئلة فقط. وفي الغالبية العظمى من الوقت، عاد النموذج بإجابة خاطئة أو لم يُجب على الإطلاق.

عقبة تعدد المجالات

وفقاً للباحث بريندان فودي، الذي عمل على الورقة البحثية، كانت نقطة التعثر الكبرى للنماذج هي تتبع المعلومات عبر مجالات متعددة، وهو أمر أساسي لمعظم العمل المعرفي الذي يقوم به البشر.

وصرح فودي قائلاً: "أحد التغييرات الكبيرة في هذا المعيار هو أننا قمنا ببناء البيئة بأكملها، على غرار الخدمات المهنية الحقيقية. الطريقة التي نؤدي بها وظائفنا ليست من خلال فرد واحد يعطينا كل السياق في مكان واحد. في الحياة الواقعية، أنت تعمل عبر Slack وGoogle Drive وجميع هذه الأدوات الأخرى". بالنسبة للعديد من نماذج الذكاء الاصطناعي، لا يزال هذا النوع من التفكير متعدد المجالات غير مستقر.

سيناريوهات واقعية معقدة

تم استخلاص جميع السيناريوهات من محترفين فعليين في سوق خبراء Mercor، والذين وضعوا الاستفسارات وحددوا معيار الاستجابة الناجحة. وبالنظر إلى الأسئلة المنشورة علناً على Hugging Face، يتضح مدى تعقيد المهام.

على سبيل المثال، يتطلب أحد الأسئلة في قسم "القانون" تقييماً متعمقاً لسياسات الشركة بالإضافة إلى قوانين الخصوصية ذات الصلة في الاتحاد الأوروبي لتحديد ما إذا كان تصدير سجلات البيانات مسموحاً به. إذا تمكن نموذج لغوي كبير (LLM) من الإجابة بدقة على هذه الأسئلة، فقد يحل محل العديد من المحامين العاملين اليوم.

أداء النماذج بالأرقام

يختلف اختبار Apex Agents عن معيار GDPVal الخاص بـ OpenAI الذي يختبر المعرفة العامة، حيث يقيس قدرة النظام على أداء مهام مستمرة في مجموعة ضيقة من المهن عالية القيمة.

بينما لم يثبت أي من النماذج استعداده لتولي مهام المصرفيين الاستثماريين، كان بعضها أقرب بوضوح:

حقق Gemini 3 Flash الأداء الأفضل في المجموعة بدقة 24%.
جاء GPT-5.2 في المركز الثاني بنسبة 23%.
سجل كل من Opus 4.5 وGemini 3 Pro وGPT-5 ما يقرب من 18%.

ورغم أن النتائج الأولية تبدو منخفضة، إلا أن مجال الذكاء الاصطناعي لديه تاريخ في تجاوز المعايير الصعبة بسرعة. ويشبه فودي الوضع الحالي بـ "متدرب يصيب ربع الوقت"، مشيراً إلى أن التحسن السريع عاماً تلو الآخر قد يغير المعادلة قريباً جداً.

اختبار جديد يكشف: هل الذكاء الاصطناعي جاهز للوظائف؟

اختبار الواقع الصعب: Apex-Agents

عقبة تعدد المجالات

سيناريوهات واقعية معقدة

أداء النماذج بالأرقام

الأمن السيبراني

تحذير: APT37 تخترق الشبكات المعزولة بحملة Ruby Jumper

يوروبول: 30 اعتقالاً في حملة مكافحة شبكة 'The Com' الإجرامية 2025

تحذير CISA: برمجية RESURGE الخبيثة كامنة بأجهزة Ivanti

حادثة خطيرة: الجيش الأمريكي يسقط طائرة CBP بليزر قرب الحدود

ثغرة مفاتيح Google API تهدد بيانات Gemini AI بالتعرض (2026)

تحذير: ثغرتان خطيرتان بـ Trend Micro Apex One تتيحان RCE (2025)

التعليقات 0

اختبار الواقع الصعب: Apex-Agents

عقبة تعدد المجالات

واتساب بيتا 2.26.9.4: تنظيم Meta AI بخيوط منفصلة وميزات جديدة

جوجل Opal ترسم ملامح وكلاء الذكاء الاصطناعي للشركات 2026

OpenAI و AWS: حقبة جديدة لوكلاء AI بذاكرة دائمة للشركات

تحذير: البنتاغون يحظر Anthropic كمخاطرة لسلسلة التوريد

خلايا عصبية بشرية تلعب Doom: ثورة Cortical Labs في الحوسبة الحيوية

فصل موظف بـOpenAI: التداول الداخلي يهز أسواق التنبؤ

سيناريوهات واقعية معقدة

أداء النماذج بالأرقام

الأمن السيبراني

تحذير: APT37 تخترق الشبكات المعزولة بحملة Ruby Jumper

يوروبول: 30 اعتقالاً في حملة مكافحة شبكة 'The Com' الإجرامية 2025

تحذير CISA: برمجية RESURGE الخبيثة كامنة بأجهزة Ivanti

حادثة خطيرة: الجيش الأمريكي يسقط طائرة CBP بليزر قرب الحدود

ثغرة مفاتيح Google API تهدد بيانات Gemini AI بالتعرض (2026)

تحذير: ثغرتان خطيرتان بـ Trend Micro Apex One تتيحان RCE (2025)

شارك هذا المقال

التعليقات 0

صفحات الموقع

مركز المساعدة

سياسة الخصوصية

شروط الاستخدام

من نحن

تواصل معنا