بحث
دراسة: نماذج Gemini وGPT تفشل في المهام المكتبية المعقدة
الذكاء الاصطناعي #الذكاء_الاصطناعي #Gemini

دراسة: نماذج Gemini وGPT تفشل في المهام المكتبية المعقدة

تاريخ النشر: آخر تحديث: 38 مشاهدة 0 تعليق 2 دقائق قراءة
38 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

كشفت دراسة حديثة لشركة Mercur أن نماذج الذكاء الاصطناعي الرائدة مثل Gemini 3 Flash وGPT-5.2 فشلت في تجاوز نسبة دقة 25% في المهام المكتبية الواقعية والمعقدة، مما يضع علامات استفهام حول جاهزيتها الحالية لاستبدال البشر. تأتي هذه النتائج لتخالف التوقعات المتفائلة التي أطلقها ساتيا ناديلا، الرئيس التنفيذي لشركة مايكروسوفت، قبل عامين حول سيطرة الذكاء الاصطناعي التوليدي على "أعمال المعرفة".

اختبار الواقع: سقوط في فخ الفوضى

أوضحت الدراسة أن السبب الرئيسي لتعثر ثورة الاستبدال الموعودة يكمن في عدم قدرة الذكاء الاصطناعي على التعامل مع فوضى العمل الحقيقي. وقد استخدمت شركة "ميركور" معياراً جديداً يُدعى "APEX-Agents"، وهو اختبار مصمم لمحاكاة بيئة العمل الفعلية بعيداً عن المهام التقليدية البسيطة.

اعتمد الاختبار على سيناريوهات واقعية مستمدة من مهام المحامين والمستشارين والبنكيين، حيث طُلب من النماذج تنفيذ عمليات كاملة متعددة الخطوات تتطلب التنقل بين مصادر بيانات متنوعة وغير منظمة.

أرقام صادمة لأحدث النماذج

أظهرت النتائج أن حتى أقوى النماذج المتاحة في السوق لم تتمكن من تحقيق أداء موثوق. وجاءت نسب الدقة كالتالي:

  • نموذج Gemini 3 Flash: تصدر القائمة بنسبة دقة 24% فقط.
  • نموذج GPT-5.2: حل ثانياً بنسبة دقة 23%.
  • بقية النماذج: سجلت نسباً أقل بكثير.

عقبة السياق وتعدد المصادر

أشار بريندان فودي، الرئيس التنفيذي لشركة "ميركور"، إلى أن المشكلة الجوهرية لا تتعلق بالقدرات الحسابية للنماذج، بل بـ "فهم السياق". ففي بيئات العمل الحقيقية، تتطلب الإجابات جمع معلومات متناثرة والربط بينها، وهو ما يبرع فيه البشر ويتعثر فيه الذكاء الاصطناعي.

على سبيل المثال، قد تتطلب مهمة واحدة من الموظف مراجعة محادثة على منصة وتطبيق مثل "سلاك"، وقراءة ملف PDF لسياسة الشركة، وتحليل جدول بيانات، ثم الربط بين هذه المعلومات للتحقق من الامتثال لقوانين مثل اللائحة العامة لحماية البيانات (GDPR). في مثل هذه السيناريوهات، غالباً ما يخطئ الذكاء الاصطناعي أو يتوقف عن المحاولة.

متدرب غير موثوق.. ولكن يتدرب بسرعة

وصفت الدراسة الوضع الحالي للذكاء الاصطناعي بأنه يشبه "متدرباً غير موثوق" ينجح في إنجاز المهمة مرة واحدة فقط من كل أربع محاولات. ورغم أن هذه النتيجة قد تبدو مطمئنة للموظفين القلقين على وظائفهم حالياً، إلا أن "ميركور" تحذر من سرعة التطور.

قبل عام واحد فقط، كانت دقة هذه النماذج تتراوح بين 5% و10%، بينما وصلت اليوم إلى ما يقارب 24%، مما يشير إلى تسارع لافت في عملية التعلم. وتخلص الدراسة إلى أن الثورة الرقمية في المكاتب مؤجلة لحين إتقان النماذج لمهارات تعدد المهام وفهم السياق المعقد، لكن المسألة تظل مسألة وقت وليست احتمالاً.

الأسئلة الشائعة

وفقاً لدراسة ميركور، لم تتجاوز دقة أفضل النماذج مثل Gemini 3 Flash وGPT-5.2 نسبة 25% في المهام المكتبية المعقدة.

يعود السبب الرئيسي إلى صعوبة فهم السياق والربط بين مصادر المعلومات المتناثرة والمختلفة، مثل المحادثات والملفات وجداول البيانات في آن واحد.

شهد الأداء تحسناً ملحوظاً، حيث ارتفعت الدقة من نطاق 5-10% قبل عام واحد لتصل إلى حوالي 24% حالياً.

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!