بحث
دراسة: GPT-5.2 وGemini يفشلان في اختبار العمل المكتبي
الذكاء الاصطناعي #الذكاء_الاصطناعي #تقنية

دراسة: GPT-5.2 وGemini يفشلان في اختبار العمل المكتبي

تاريخ النشر: آخر تحديث: 47 مشاهدة 0 تعليق 2 دقائق قراءة
47 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

بعد مرور ما يقرب من عامين على توقع ساتيا ناديلا، الرئيس التنفيذي لشركة مايكروسوفت، بأن الذكاء الاصطناعي التوليدي سيسيطر على العمل المعرفي، يبدو أن الواقع لا يزال مختلفاً تماماً داخل مكاتب المحاماة والبنوك الاستثمارية. فقد كشفت دراسة جديدة أجرتها شركة Mercor لبيانات التدريب عن الأسباب الحقيقية لتعثر ثورة الروبوتات في بيئة العمل الحقيقية.

اختبار APEX-Agents: صدمة الواقع

أطلقت Mercor معياراً جديداً للأداء يُدعى APEX-Agents، وجاءت نتائجه قاسية للغاية على النماذج الحالية. وعلى عكس الاختبارات التقليدية التي تطلب من الذكاء الاصطناعي كتابة قصيدة أو حل مسألة رياضية، يستخدم هذا المعيار استفسارات فعلية من محامين ومستشارين ومصرفيين.

يطلب الاختبار من النماذج إنجاز مهام كاملة ومتعددة الخطوات تتطلب التنقل بين أنواع مختلفة من المعلومات. وكانت النتائج مفاجئة؛ فحتى أفضل النماذج في السوق، وتحديداً Gemini 3 Flash وGPT-5.2، لم تتمكن من كسر حاجز دقة 25%.

  • تصدر Gemini 3 Flash القائمة بنسبة دقة 24%.
  • جاء GPT-5.2 خلفه مباشرة بنسبة 23%.
  • بقيت معظم النماذج الأخرى عالقة في مستويات أقل بكثير.

لماذا يفشل الذكاء الاصطناعي في "اختبار المكتب"؟

يشير بريندان فودي، الرئيس التنفيذي لشركة Mercor، إلى أن المشكلة ليست في الذكاء الخام، بل في "السياق". في العالم الحقيقي، لا تُقدم الإجابات جاهزة على طبق من فضة. فعلى سبيل المثال، قد يحتاج المحامي إلى مراجعة محادثة على Slack، وقراءة سياسة ملف PDF، والنظر في جدول بيانات، ثم دمج كل ذلك للإجابة عن سؤال حول الامتثال للائحة GDPR.

يقوم البشر بعملية "تبديل السياق" هذه بشكل طبيعي، لكن تبين أن الذكاء الاصطناعي سيء جداً في ذلك. عندما تُجبر هذه النماذج على البحث عن معلومات عبر مصادر "متناثرة"، فإنها إما ترتبك، أو تقدم إجابة خاطئة، أو تستسلم تماماً.

متدرب غير موثوق ولكنه يتعلم بسرعة

بالنسبة لأي شخص قلق بشأن أمانه الوظيفي، قد تكون هذه النتائج مصدر ارتياح مؤقت. تشير الدراسة إلى أن الذكاء الاصطناعي يعمل حالياً ليس كمحترف متمرس، بل كـ "متدرب غير موثوق" ينجز الأمور بشكل صحيح في حوالي ربع الوقت فقط.

ومع ذلك، فإن وتيرة التقدم مخيفة وسريعة. أشار فودي إلى أن هذه النماذج كانت تسجل ما بين 5% و10% فقط قبل عام واحد، والآن وصلت إلى 24%. لذا، ورغم أنها ليست جاهزة لتولي القيادة بعد، إلا أنها تتعلم القيادة أسرع بكثير مما كنا نتوقع. في الوقت الحالي، تظل ثورة "العمل المعرفي" معلقة حتى تتعلم الروبوتات كيفية تعدد المهام بكفاءة.

الأسئلة الشائعة

هو معيار جديد أطلقته شركة Mercor يستخدم استفسارات حقيقية من محامين ومصرفيين لاختبار قدرة الذكاء الاصطناعي على إنجاز مهام مكتبية معقدة ومتعددة الخطوات.

وفقاً للدراسة، لم تتجاوز أفضل النماذج مثل Gemini 3 Flash وGPT-5.2 نسبة دقة 25% في إنجاز المهام المكتبية المعقدة.

السبب الرئيسي هو عدم القدرة على "تبديل السياق" بكفاءة، حيث تفشل النماذج في تجميع المعلومات المتناثرة من مصادر مختلفة مثل ملفات PDF وجداول البيانات والمحادثات.

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!