نتائج تقييم Grok 4: يتفوق في الرياضيات ويحتل المركز الثاني في البرمجة
في خطوة كبيرة نحو الأمام، يقدم Grok 4 نتائج مثيرة في تقييمات الأداء مقارنةً بالنماذج الأخرى في السوق، مثل Gemini 2.5 Pro. سنستعرض في هذا المقال ما تم الكشف عنه من خلال التقييمات المستقلة.
نتائج تقييم Grok 4
أصدرت منصة LMArena.ai، وهي منصة مفتوحة لتقييم الذكاء الاصطناعي، نتائج Grok 4.
تلقى Grok 4 API (grok-4-0709) حوالي 4 آلاف صوت من المجتمع، مما جعله يحتل المركز الثالث بشكل عام في Text Arena. هذه قفزة كبيرة مقارنةً بـ Grok 3، الذي احتل المركز الثامن.
وفقًا لاختبارات LMArena، سجل Grok 4 المراكز الثلاثة الأولى عبر جميع الفئات (#1 في الرياضيات، #2 في البرمجة، #3 في المطالبات الصعبة).
تم اختبار Grok 4 مع مطالبات من العالم الحقيقي عبر مجالات مثل البرمجة، الرياضيات، بالإضافة إلى الكتابة الإبداعية، وأظهر أداءً ممتازًا:
- الرياضيات: #1
- البرمجة: #2
- الكتابة الإبداعية: #2
- اتباع التعليمات: #2
- المطالبات الصعبة: #3
ومع ذلك، من المهم ملاحظة أن النموذج الذي تم اختباره هو Grok 4، وليس Grok 4 Heavy.
بينما كلاهما نماذج تفكير، فإن Grok 4 Heavy أفضل بكثير. قد تكون الأرقام مختلفة مع Grok 4 Heavy، الذي يستخدم عدة وكلاء للتفكير ومقارنة النتائج، ولكن نموذج Grok 4 Heavy غير متاح بعد على منصة API.
لا يزال Gemini 2.5 Pro وClaude هما أفضل النماذج للبرمجة، ولكن قد يتغير ذلك عندما تطلق xAI Grok 4 Code في أغسطس.
تم تحسين Grok 4 Code للبرمجة، ونتوقع أيضًا CLI، مشابه لـ Gemini CLI وClaude Code.

تقرير ميزانية CISO لعام 2026
إنه موسم الميزانية! شارك أكثر من 300 من قادة الأمن كيف يخططون وينفقون ويعطون الأولوية للسنة المقبلة. يجمع هذا التقرير رؤاهم، مما يسمح للقراء بمقارنة الاستراتيجيات، وتحديد الاتجاهات الناشئة، ومقارنة أولوياتهم وهم يتجهون نحو عام 2026.
تعرف على كيفية تحويل القادة البارزين للاستثمار إلى تأثير قابل للقياس.
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!