كيف أجبر "كلود" شركة أنثروفيك على تغيير اختبارات التوظيف؟

تاريخ النشر: منذ شهر آخر تحديث: منذ 13 ساعة 31 مشاهدة 0 تعليق 2 دقائق قراءة

منذ عام 2024، يعتمد فريق تحسين الأداء في شركة "أنثروفيك" (Anthropic) على اختبارات منزلية للمتقدمين للوظائف للتأكد من كفاءتهم التقنية. ولكن مع التطور المتسارع لأدوات البرمجة المعتمدة على الذكاء الاصطناعي، وجدت الشركة نفسها مضطرة لتغيير هذه الاختبارات بشكل متكرر لتبقى خطوة واحدة قبل عمليات الغش المدعومة بالذكاء الاصطناعي.

تطور "كلود" يربك معايير التقييم

في تدوينة نشرها يوم الأربعاء، وصف تريستان هيوم، قائد الفريق في الشركة، تاريخ هذا التحدي المستمر. وأوضح هيوم قائلاً: "لقد أجبرنا كل نموذج جديد من نماذج كلود (Claude) على إعادة تصميم الاختبار".

وأشار هيوم إلى تفاصيل مذهلة حول أداء النماذج، حيث ذكر أنه "عند منح نفس الوقت المحدد، تفوق نموذج (Claude Opus 4) على معظم المتقدمين البشريين. ورغم أن ذلك سمح لنا بتمييز أقوى المرشحين فقط، إلا أن نموذج (Claude Opus 4.5) جاء ليعادل أداء حتى هؤلاء النخبة".

معضلة الغش والحلول المبتكرة

أدى هذا التطور إلى مشكلة جدية في تقييم المرشحين. ففي ظل غياب المراقبة الشخصية المباشرة، لا توجد طريقة مؤكدة لضمان عدم استخدام المتقدم للذكاء الاصطناعي للغش في الاختبارات المنزلية. وكما تظهر الصورة المرفقة لشعار "كلود"، فإن هذه النماذج أصبحت جزءاً أساسياً من المعادلة.

ويؤكد هيوم في تدوينته: "في ظل قيود الاختبار المنزلي، لم تعد لدينا طريقة للتمييز بين مخرجات أفضل مرشحينا ومخرجات نموذجنا الأكثر قدرة". ومن المفارقات أن مختبرات الذكاء الاصطناعي أصبحت تعاني الآن من نفس مشكلة "الغش بالذكاء الاصطناعي" التي تعصف بالمدارس والجامعات حول العالم.

اختبار جديد وتحدي مفتوح

لمواجهة هذا التحدي، قام هيوم بتصميم اختبار جديد كلياً يركز بشكل أقل على تحسين الأجهزة (Optimizing Hardware)، مما يجعله جديداً بما يكفي لتعجيز أدوات الذكاء الاصطناعي الحالية.

وكجزء من الشفافية والتحدي، شارك هيوم الاختبار الأصلي مع الجمهور، موجهاً دعوة مفتوحة للمواهب التقنية: "إذا كنت تستطيع التفوق على Opus 4.5، فنحن نود أن نسمع منك".

كيف أجبر "كلود" شركة أنثروفيك على تغيير اختبارات التوظيف؟

تطور "كلود" يربك معايير التقييم

معضلة الغش والحلول المبتكرة

اختبار جديد وتحدي مفتوح

الأمن السيبراني

تحذير: APT37 تخترق الشبكات المعزولة بحملة Ruby Jumper

يوروبول: 30 اعتقالاً في حملة مكافحة شبكة 'The Com' الإجرامية 2025

تحذير CISA: برمجية RESURGE الخبيثة كامنة بأجهزة Ivanti

حادثة خطيرة: الجيش الأمريكي يسقط طائرة CBP بليزر قرب الحدود

ثغرة مفاتيح Google API تهدد بيانات Gemini AI بالتعرض (2026)

تحذير: ثغرتان خطيرتان بـ Trend Micro Apex One تتيحان RCE (2025)

التعليقات 0

تطور "كلود" يربك معايير التقييم

واتساب بيتا 2.26.9.4: تنظيم Meta AI بخيوط منفصلة وميزات جديدة

جوجل Opal ترسم ملامح وكلاء الذكاء الاصطناعي للشركات 2026

OpenAI و AWS: حقبة جديدة لوكلاء AI بذاكرة دائمة للشركات

تحذير: البنتاغون يحظر Anthropic كمخاطرة لسلسلة التوريد

خلايا عصبية بشرية تلعب Doom: ثورة Cortical Labs في الحوسبة الحيوية

فصل موظف بـOpenAI: التداول الداخلي يهز أسواق التنبؤ

معضلة الغش والحلول المبتكرة

اختبار جديد وتحدي مفتوح

الأمن السيبراني

تحذير: APT37 تخترق الشبكات المعزولة بحملة Ruby Jumper

يوروبول: 30 اعتقالاً في حملة مكافحة شبكة 'The Com' الإجرامية 2025

تحذير CISA: برمجية RESURGE الخبيثة كامنة بأجهزة Ivanti

حادثة خطيرة: الجيش الأمريكي يسقط طائرة CBP بليزر قرب الحدود

ثغرة مفاتيح Google API تهدد بيانات Gemini AI بالتعرض (2026)

تحذير: ثغرتان خطيرتان بـ Trend Micro Apex One تتيحان RCE (2025)

شارك هذا المقال

التعليقات 0

صفحات الموقع

مركز المساعدة

سياسة الخصوصية

شروط الاستخدام

من نحن

تواصل معنا