تطورات DeepSeek R1-0528: سرعة وكفاءة غير مسبوقة
مرّ أكثر من شهر بقليل منذ أن أصدرت شركة DeepSeek الصينية الناشئة، وهي فرع من شركة High-Flyer Capital Management التي تتخذ من هونغ كونغ مقرًا لها، الإصدار الأخير من نموذجها الشهير مفتوح المصدر DeepSeek، R1-0528. مثل سلفه، DeepSeek-R1، الذي أحدث ضجة في مجتمع الذكاء الاصطناعي والأعمال العالمية بفضل تكلفته المنخفضة في التدريب وأدائه الجيد في مهام التفكير، والذي تم توفيره للمطورين والشركات مجانًا، فإن R1-0528 يتم تكييفه بالفعل من قبل مختبرات ومطورين آخرين، بفضل رخصته السخية Apache 2.0.
هذا الأسبوع، أصدرت شركة TNG Technology Consulting GmbH الألمانية، التي تأسست منذ 24 عامًا، نسخة معدلة جديدة: DeepSeek-TNG R1T2 Chimera، وهو أحدث نموذج في عائلة نماذج اللغة الكبيرة (LLM) الخاصة بها. يوفر R1T2 زيادة ملحوظة في الكفاءة والسرعة، حيث يسجل أكثر من 90% من درجات الذكاء المرجعية لـ R1-0528، بينما ينتج إجابات باستخدام أقل من 40% من عدد رموز الإخراج لـ R1-0528.
هذا يعني أنه ينتج ردودًا أقصر، مما يترجم بشكل مباشر إلى سرعة استدلال أكبر وتكاليف حساب أقل. في بطاقة النموذج التي أصدرتها TNG على مجتمع مشاركة الأكواد للذكاء الاصطناعي Hugging Face، ذكرت الشركة أنه "أسرع بنسبة 20% من R1 العادي" (الذي تم إصداره في يناير) "وأكثر من ضعف سرعة R1-0528" (التحديث الرسمي من DeepSeek في مايو).
لقد كانت الاستجابة من مجتمع مطوري الذكاء الاصطناعي إيجابية للغاية. كتب Vaibhav (VB) Srivastav، أحد القادة الكبار في Hugging Face، على X: "يا إلهي! DeepSeek R1T2 – أسرع بنسبة 200% من R1-0528 وأسرع بنسبة 20% من R1". "أفضل بكثير من R1 في GPQA و AIME 24، تم صنعه عبر Assembly of Experts مع DS V3 و R1 و R1-0528 — وهو مرخص بموجب MIT، متاح على Hugging Face."
كيف يختلف Assembly-of-Experts (AoE) عن Mixture-of-Experts (MoE)
Mixture-of-Experts (MoE) هو تصميم هيكلي يتم فيه تفعيل مكونات مختلفة، أو "خبراء"، بشكل شرطي لكل إدخال. في نماذج MoE مثل DeepSeek-V3 أو Mixtral، تكون فقط مجموعة فرعية من طبقات الخبراء في النموذج نشطة خلال تمرير أي رمز. وهذا يسمح للنماذج الكبيرة جدًا بتحقيق عدد أكبر من المعلمات والتخصص مع الحفاظ على تكاليف الاستدلال ضمن حدود المعقول — لأن جزءًا فقط من الشبكة يتم تقييمه لكل رمز.
Assembly-of-Experts (AoE) هي تقنية دمج النماذج، وليست بنية. تُستخدم لإنشاء نموذج جديد من نماذج MoE مسبقة التدريب متعددة عن طريق دمج أوزانها بشكل انتقائي. تشير "الخبراء" في AoE إلى مكونات النموذج التي يتم دمجها — عادةً الأوزان الموجهة للخبراء داخل طبقات MoE — وليس الخبراء الذين يتم تنشيطهم ديناميكيًا أثناء وقت التشغيل.
تركز تنفيذ TNG لـ AoE بشكل أساسي على دمج الأوزان الموجهة للخبراء — الجزء من النموذج المسؤول بشكل أكبر عن التفكير المتخصص — مع الاحتفاظ غالبًا بالطبقات المشتركة والاهتمام الأكثر كفاءة من نماذج أسرع مثل V3-0324. تتيح هذه الطريقة للنماذج Chimera الناتجة أن ترث قوة التفكير دون تكرار verbosity أو زمن الانتظار للنماذج الأم الأقوى.
الأداء والسرعة: ماذا تظهر المعايير فعليًا
وفقًا لمقارنات المعايير التي قدمتها TNG، يحقق R1T2 بين 90% و 92% من أداء التفكير لأذكى نموذج أم له، DeepSeek-R1-0528، كما تم قياسه بواسطة مجموعات الاختبار AIME-24 و AIME-25 و GPQA-Diamond.
ومع ذلك، على عكس DeepSeek-R1-0528 — الذي يميل إلى إنتاج إجابات طويلة ومفصلة بسبب سلسلة تفكيره الممتدة — تم تصميم R1T2 ليكون أكثر إيجازًا. إنه يقدم ردودًا ذكية مشابهة بينما يستخدم عددًا أقل بكثير من الكلمات. بدلاً من التركيز على الوقت الفعلي للمعالجة أو الرموز في الثانية، تقيس TNG "السرعة" من حيث عدد رموز الإخراج لكل إجابة — وهو بديل عملي لكل من التكلفة والكمون. وفقًا للمعايير التي شاركتها TNG، ينتج R1T2 ردودًا باستخدام حوالي 40% من الرموز المطلوبة من R1-0528.
هذا يترجم إلى 60% تقليل في طول الإخراج، مما يقلل مباشرة من وقت الاستدلال والحمل الحسابي، مما يسرع الردود بنسبة 2X، أو 200%. عند مقارنته بـ DeepSeek-R1 الأصلي، فإن R1T2 أيضًا أكثر إيجازًا بنسبة 20% في المتوسط، مما يوفر مكاسب ملحوظة في الكفاءة للنشر عالي الإنتاجية أو الحساس للتكلفة.
هذه الكفاءة لا تأتي على حساب الذكاء. كما هو موضح في الرسم البياني للمعايير المقدم في الورقة التقنية لـ TNG، يجلس R1T2 في منطقة مرغوبة على منحنى الذكاء مقابل تكلفة الإخراج. إنه يحافظ على جودة التفكير بينما يقلل من verbosity — وهو نتيجة حاسمة لتطبيقات الشركات حيث تهم سرعة الاستدلال والإنتاجية والتكلفة.
اعتبارات النشر والتوافر
تم إصدار R1T2 بموجب رخصة MIT السخية وهو متاح الآن على Hugging Face، مما يعني أنه مفتوح المصدر ومتاحة للاستخدام والبناء في التطبيقات التجارية. تشير TNG إلى أنه بينما النموذج مناسب تمامًا لمهام التفكير العامة، إلا أنه لا يُوصى حاليًا باستخدامه في الحالات التي تتطلب استدعاء وظائف أو استخدام أدوات، بسبب القيود الموروثة من سلالة DeepSeek-R1. قد يتم معالجة هذه الأمور في التحديثات المستقبلية.
كما تنصح الشركة المستخدمين الأوروبيين بتقييم الامتثال لقانون الذكاء الاصطناعي في الاتحاد الأوروبي، الذي سيدخل حيز التنفيذ في 2 أغسطس 2025. يجب على الشركات التي تعمل في الاتحاد الأوروبي مراجعة الأحكام ذات الصلة أو النظر في وقف استخدام النموذج بعد ذلك التاريخ إذا لم يمكن تلبية المتطلبات.
ومع ذلك، فإن الشركات الأمريكية التي تعمل محليًا وتخدم المستخدمين في الولايات المتحدة، أو أولئك من دول أخرى، لا تخضع لشروط قانون الذكاء الاصطناعي في الاتحاد الأوروبي، مما ينبغي أن يمنحهم مرونة كبيرة عند استخدام ونشر هذا النموذج السريع والمجاني. إذا كانوا يخدمون المستخدمين في الاتحاد الأوروبي، فستظل بعض أحكام قانون الاتحاد الأوروبي سارية.
قدمت TNG بالفعل إصدارات سابقة من Chimera عبر منصات مثل OpenRouter وChutes، حيث عالجت تقاريرًا مليارات الرموز يوميًا. يمثل إصدار R1T2 تطورًا إضافيًا في هذا الجهد المتعلق بالتوافر العام.
عن TNG Technology Consulting GmbH
تأسست TNG Technology Consulting GmbH في يناير 2001، ومقرها في بافاريا، ألمانيا، وتوظف أكثر من 900 شخص، مع تركيز عالٍ من حاملي الدكتوراه والمتخصصين الفنيين. تركز الشركة على تطوير البرمجيات والذكاء الاصطناعي وخدمات DevOps/cloud، وتخدم عملاء كبار من مختلف الصناعات مثل الاتصالات والتأمين والسيارات والتجارة الإلكترونية واللوجستيات. تعمل TNG كشراكة استشارية قائمة على القيم. تدعم هيكلها الفريد، القائم على البحث التشغيلي ومبادئ الإدارة الذاتية، ثقافة الابتكار الفني.
تشجع TNG الباحثين والمطورين ومستخدمي الشركات على استكشاف النموذج، واختبار سلوكه، وتقديم الملاحظات. R1T2 Chimera متاح على huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera، ويمكن توجيه الاستفسارات التقنية إلى research@tngtech.com.
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!