كيف أجبر "كلود" شركة أنثروفيك على تغيير اختبارات التوظيف؟
منذ عام 2024، يعتمد فريق تحسين الأداء في شركة "أنثروفيك" (Anthropic) على اختبارات منزلية للمتقدمين للوظائف للتأكد من كفاءتهم التقنية. ولكن مع التطور المتسارع لأدوات البرمجة المعتمدة على الذكاء الاصطناعي، وجدت الشركة نفسها مضطرة لتغيير هذه الاختبارات بشكل متكرر لتبقى خطوة واحدة قبل عمليات الغش المدعومة بالذكاء الاصطناعي.
تطور "كلود" يربك معايير التقييم
في تدوينة نشرها يوم الأربعاء، وصف تريستان هيوم، قائد الفريق في الشركة، تاريخ هذا التحدي المستمر. وأوضح هيوم قائلاً: "لقد أجبرنا كل نموذج جديد من نماذج كلود (Claude) على إعادة تصميم الاختبار".
وأشار هيوم إلى تفاصيل مذهلة حول أداء النماذج، حيث ذكر أنه "عند منح نفس الوقت المحدد، تفوق نموذج (Claude Opus 4) على معظم المتقدمين البشريين. ورغم أن ذلك سمح لنا بتمييز أقوى المرشحين فقط، إلا أن نموذج (Claude Opus 4.5) جاء ليعادل أداء حتى هؤلاء النخبة".
معضلة الغش والحلول المبتكرة
أدى هذا التطور إلى مشكلة جدية في تقييم المرشحين. ففي ظل غياب المراقبة الشخصية المباشرة، لا توجد طريقة مؤكدة لضمان عدم استخدام المتقدم للذكاء الاصطناعي للغش في الاختبارات المنزلية. وكما تظهر الصورة المرفقة لشعار "كلود"، فإن هذه النماذج أصبحت جزءاً أساسياً من المعادلة.
ويؤكد هيوم في تدوينته: "في ظل قيود الاختبار المنزلي، لم تعد لدينا طريقة للتمييز بين مخرجات أفضل مرشحينا ومخرجات نموذجنا الأكثر قدرة". ومن المفارقات أن مختبرات الذكاء الاصطناعي أصبحت تعاني الآن من نفس مشكلة "الغش بالذكاء الاصطناعي" التي تعصف بالمدارس والجامعات حول العالم.
اختبار جديد وتحدي مفتوح
لمواجهة هذا التحدي، قام هيوم بتصميم اختبار جديد كلياً يركز بشكل أقل على تحسين الأجهزة (Optimizing Hardware)، مما يجعله جديداً بما يكفي لتعجيز أدوات الذكاء الاصطناعي الحالية.
وكجزء من الشفافية والتحدي، شارك هيوم الاختبار الأصلي مع الجمهور، موجهاً دعوة مفتوحة للمواهب التقنية: "إذا كنت تستطيع التفوق على Opus 4.5، فنحن نود أن نسمع منك".
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!