دراسة: نماذج Gemini وGPT تفشل في المهام المكتبية المعقدة

تاريخ النشر: منذ 5 أشهر آخر تحديث: منذ 6 أيام 147 مشاهدة 0 تعليق 2 دقائق قراءة

كشفت دراسة حديثة لشركة Mercur أن نماذج الذكاء الاصطناعي الرائدة مثل Gemini 3 Flash وGPT-5.2 فشلت في تجاوز نسبة دقة 25% في المهام المكتبية الواقعية والمعقدة، مما يضع علامات استفهام حول جاهزيتها الحالية لاستبدال البشر. تأتي هذه النتائج لتخالف التوقعات المتفائلة التي أطلقها ساتيا ناديلا، الرئيس التنفيذي لشركة مايكروسوفت، قبل عامين حول سيطرة الذكاء الاصطناعي التوليدي على "أعمال المعرفة".

اختبار الواقع: سقوط في فخ الفوضى

أوضحت الدراسة أن السبب الرئيسي لتعثر ثورة الاستبدال الموعودة يكمن في عدم قدرة الذكاء الاصطناعي على التعامل مع فوضى العمل الحقيقي. وقد استخدمت شركة "ميركور" معياراً جديداً يُدعى "APEX-Agents"، وهو اختبار مصمم لمحاكاة بيئة العمل الفعلية بعيداً عن المهام التقليدية البسيطة.

اعتمد الاختبار على سيناريوهات واقعية مستمدة من مهام المحامين والمستشارين والبنكيين، حيث طُلب من النماذج تنفيذ عمليات كاملة متعددة الخطوات تتطلب التنقل بين مصادر بيانات متنوعة وغير منظمة.

أرقام صادمة لأحدث النماذج

أظهرت النتائج أن حتى أقوى النماذج المتاحة في السوق لم تتمكن من تحقيق أداء موثوق. وجاءت نسب الدقة كالتالي:

نموذج Gemini 3 Flash: تصدر القائمة بنسبة دقة 24% فقط.
نموذج GPT-5.2: حل ثانياً بنسبة دقة 23%.
بقية النماذج: سجلت نسباً أقل بكثير.

عقبة السياق وتعدد المصادر

أشار بريندان فودي، الرئيس التنفيذي لشركة "ميركور"، إلى أن المشكلة الجوهرية لا تتعلق بالقدرات الحسابية للنماذج، بل بـ "فهم السياق". ففي بيئات العمل الحقيقية، تتطلب الإجابات جمع معلومات متناثرة والربط بينها، وهو ما يبرع فيه البشر ويتعثر فيه الذكاء الاصطناعي.

على سبيل المثال، قد تتطلب مهمة واحدة من الموظف مراجعة محادثة على منصة وتطبيق مثل "سلاك"، وقراءة ملف PDF لسياسة الشركة، وتحليل جدول بيانات، ثم الربط بين هذه المعلومات للتحقق من الامتثال لقوانين مثل اللائحة العامة لحماية البيانات (GDPR). في مثل هذه السيناريوهات، غالباً ما يخطئ الذكاء الاصطناعي أو يتوقف عن المحاولة.

متدرب غير موثوق.. ولكن يتدرب بسرعة

وصفت الدراسة الوضع الحالي للذكاء الاصطناعي بأنه يشبه "متدرباً غير موثوق" ينجح في إنجاز المهمة مرة واحدة فقط من كل أربع محاولات. ورغم أن هذه النتيجة قد تبدو مطمئنة للموظفين القلقين على وظائفهم حالياً، إلا أن "ميركور" تحذر من سرعة التطور.

قبل عام واحد فقط، كانت دقة هذه النماذج تتراوح بين 5% و10%، بينما وصلت اليوم إلى ما يقارب 24%، مما يشير إلى تسارع لافت في عملية التعلم. وتخلص الدراسة إلى أن الثورة الرقمية في المكاتب مؤجلة لحين إتقان النماذج لمهارات تعدد المهام وفهم السياق المعقد، لكن المسألة تظل مسألة وقت وليست احتمالاً.

الأسئلة الشائعة

ما هي نسبة دقة نماذج الذكاء الاصطناعي في المهام المكتبية؟

وفقاً لدراسة ميركور، لم تتجاوز دقة أفضل النماذج مثل Gemini 3 Flash وGPT-5.2 نسبة 25% في المهام المكتبية المعقدة.

لماذا يفشل الذكاء الاصطناعي في بيئة العمل الحقيقية؟

يعود السبب الرئيسي إلى صعوبة فهم السياق والربط بين مصادر المعلومات المتناثرة والمختلفة، مثل المحادثات والملفات وجداول البيانات في آن واحد.

كيف تطور أداء الذكاء الاصطناعي مقارنة بالعام الماضي؟

شهد الأداء تحسناً ملحوظاً، حيث ارتفعت الدقة من نطاق 5-10% قبل عام واحد لتصل إلى حوالي 24% حالياً.

دراسة: نماذج Gemini وGPT تفشل في المهام المكتبية المعقدة

اختبار الواقع: سقوط في فخ الفوضى

أرقام صادمة لأحدث النماذج

عقبة السياق وتعدد المصادر

متدرب غير موثوق.. ولكن يتدرب بسرعة

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

الأسئلة الشائعة

التعليقات 0

اختبار الواقع: سقوط في فخ الفوضى

أرقام صادمة لأحدث النماذج

جوجل جيميني: الشريك المنطقي لذكاء سيري الاصطناعي

دراسة ستانفورد: مخاطر [[الذكاء الاصطناعي]] في تقديم المشورة الشخصية

Bluesky تكشف عن Attie: ذكاء اصطناعي لتخصيص الخلاصات

رحيل جماعي: جميع مؤسسي xAI يغادرون شركة إيلون ماسك للذكاء الاصطناعي

الذكاء الاصطناعي يُحدث ثورة: 170% إنتاجية بـ 80% قوة عاملة

دراسة: روبوتات الدردشة تتجاهل التعليمات البشرية المتزايدة

عقبة السياق وتعدد المصادر

متدرب غير موثوق.. ولكن يتدرب بسرعة

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

شارك هذا المقال

الأسئلة الشائعة

التعليقات 0

صفحات الموقع

مركز المساعدة

سياسة الخصوصية

شروط الاستخدام

من نحن

تواصل معنا