دراسة: GPT-5.2 وGemini يفشلان في اختبار العمل المكتبي

تاريخ النشر: منذ 5 أشهر آخر تحديث: منذ 3 ساعات 139 مشاهدة 0 تعليق 2 دقائق قراءة

بعد مرور ما يقرب من عامين على توقع ساتيا ناديلا، الرئيس التنفيذي لشركة مايكروسوفت، بأن الذكاء الاصطناعي التوليدي سيسيطر على العمل المعرفي، يبدو أن الواقع لا يزال مختلفاً تماماً داخل مكاتب المحاماة والبنوك الاستثمارية. فقد كشفت دراسة جديدة أجرتها شركة Mercor لبيانات التدريب عن الأسباب الحقيقية لتعثر ثورة الروبوتات في بيئة العمل الحقيقية.

اختبار APEX-Agents: صدمة الواقع

أطلقت Mercor معياراً جديداً للأداء يُدعى APEX-Agents، وجاءت نتائجه قاسية للغاية على النماذج الحالية. وعلى عكس الاختبارات التقليدية التي تطلب من الذكاء الاصطناعي كتابة قصيدة أو حل مسألة رياضية، يستخدم هذا المعيار استفسارات فعلية من محامين ومستشارين ومصرفيين.

يطلب الاختبار من النماذج إنجاز مهام كاملة ومتعددة الخطوات تتطلب التنقل بين أنواع مختلفة من المعلومات. وكانت النتائج مفاجئة؛ فحتى أفضل النماذج في السوق، وتحديداً Gemini 3 Flash وGPT-5.2، لم تتمكن من كسر حاجز دقة 25%.

تصدر Gemini 3 Flash القائمة بنسبة دقة 24%.
جاء GPT-5.2 خلفه مباشرة بنسبة 23%.
بقيت معظم النماذج الأخرى عالقة في مستويات أقل بكثير.

لماذا يفشل الذكاء الاصطناعي في "اختبار المكتب"؟

يشير بريندان فودي، الرئيس التنفيذي لشركة Mercor، إلى أن المشكلة ليست في الذكاء الخام، بل في "السياق". في العالم الحقيقي، لا تُقدم الإجابات جاهزة على طبق من فضة. فعلى سبيل المثال، قد يحتاج المحامي إلى مراجعة محادثة على Slack، وقراءة سياسة ملف PDF، والنظر في جدول بيانات، ثم دمج كل ذلك للإجابة عن سؤال حول الامتثال للائحة GDPR.

يقوم البشر بعملية "تبديل السياق" هذه بشكل طبيعي، لكن تبين أن الذكاء الاصطناعي سيء جداً في ذلك. عندما تُجبر هذه النماذج على البحث عن معلومات عبر مصادر "متناثرة"، فإنها إما ترتبك، أو تقدم إجابة خاطئة، أو تستسلم تماماً.

متدرب غير موثوق ولكنه يتعلم بسرعة

بالنسبة لأي شخص قلق بشأن أمانه الوظيفي، قد تكون هذه النتائج مصدر ارتياح مؤقت. تشير الدراسة إلى أن الذكاء الاصطناعي يعمل حالياً ليس كمحترف متمرس، بل كـ "متدرب غير موثوق" ينجز الأمور بشكل صحيح في حوالي ربع الوقت فقط.

ومع ذلك، فإن وتيرة التقدم مخيفة وسريعة. أشار فودي إلى أن هذه النماذج كانت تسجل ما بين 5% و10% فقط قبل عام واحد، والآن وصلت إلى 24%. لذا، ورغم أنها ليست جاهزة لتولي القيادة بعد، إلا أنها تتعلم القيادة أسرع بكثير مما كنا نتوقع. في الوقت الحالي، تظل ثورة "العمل المعرفي" معلقة حتى تتعلم الروبوتات كيفية تعدد المهام بكفاءة.

الأسئلة الشائعة

ما هو اختبار APEX-Agents؟

هو معيار جديد أطلقته شركة Mercor يستخدم استفسارات حقيقية من محامين ومصرفيين لاختبار قدرة الذكاء الاصطناعي على إنجاز مهام مكتبية معقدة ومتعددة الخطوات.

ما هي نسبة دقة أفضل نماذج الذكاء الاصطناعي في المهام المكتبية؟

وفقاً للدراسة، لم تتجاوز أفضل النماذج مثل Gemini 3 Flash وGPT-5.2 نسبة دقة 25% في إنجاز المهام المكتبية المعقدة.

لماذا يفشل الذكاء الاصطناعي في مهام العمل الحقيقية؟

السبب الرئيسي هو عدم القدرة على "تبديل السياق" بكفاءة، حيث تفشل النماذج في تجميع المعلومات المتناثرة من مصادر مختلفة مثل ملفات PDF وجداول البيانات والمحادثات.

دراسة: GPT-5.2 وGemini يفشلان في اختبار العمل المكتبي

اختبار APEX-Agents: صدمة الواقع

لماذا يفشل الذكاء الاصطناعي في "اختبار المكتب"؟

متدرب غير موثوق ولكنه يتعلم بسرعة

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

الأسئلة الشائعة

التعليقات 0

اختبار APEX-Agents: صدمة الواقع

جوجل جيميني: الشريك المنطقي لذكاء سيري الاصطناعي

دراسة ستانفورد: مخاطر [[الذكاء الاصطناعي]] في تقديم المشورة الشخصية

Bluesky تكشف عن Attie: ذكاء اصطناعي لتخصيص الخلاصات

رحيل جماعي: جميع مؤسسي xAI يغادرون شركة إيلون ماسك للذكاء الاصطناعي

الذكاء الاصطناعي يُحدث ثورة: 170% إنتاجية بـ 80% قوة عاملة

دراسة: روبوتات الدردشة تتجاهل التعليمات البشرية المتزايدة

لماذا يفشل الذكاء الاصطناعي في "اختبار المكتب"؟

متدرب غير موثوق ولكنه يتعلم بسرعة

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

شارك هذا المقال

الأسئلة الشائعة

التعليقات 0

صفحات الموقع

مركز المساعدة

سياسة الخصوصية

شروط الاستخدام

من نحن

تواصل معنا