بحث
شاومي تقتحم عالم الروبوتات بنموذج "الذكاء الفيزيائي"
شاومي #شاومي #الذكاء_الاصطناعي

شاومي تقتحم عالم الروبوتات بنموذج "الذكاء الفيزيائي"

منذ يوم 6 مشاهدة 0 تعليق 2 دقائق قراءة
6 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

أعلنت شركة شاومي رسمياً عن إطلاق Xiaomi-Robotics-0، أول نموذج لها للروبوتات الكبيرة يضم 4.7 مليار معلمة، في خطوة تهدف إلى دمج الرؤية واللغة مع التنفيذ الحركي الدقيق.

وأكدت الشركة أن النموذج الجديد حقق أرقاماً قياسية في كل من الاختبارات الافتراضية والواقعية، مستهدفاً تحقيق مفهوم جديد تطلق عليه الشركة اسم "الذكاء الفيزيائي".

كيف يعمل عقل Xiaomi-Robotics-0؟

يعتمد النموذج الجديد على معمارية تقنية تُعرف بـ Mixture-of-Transformers (MoT)، وينقسم النظام إلى مكونين رئيسيين يعملان بتناغم:

1. النموذج البصري اللغوي (VLM)

يعمل هذا الجزء بمثابة "دماغ الروبوت"، حيث يتولى فهم التعليمات البشرية حتى لو كانت غامضة، مثل طلب "رجاءً طوي المنشفة". يقوم VLM بمعالجة الصور، كشف الأشياء، والإجابة على الأسئلة البصرية مع التفكير المنطقي.

2. خبير الحركة (Motion Expert)

يعتمد هذا المكون على تقنية Diffusion Transformer متعدد الطبقات (DiT). وظيفته الأساسية هي إنتاج ما يسمى "Action Chunks"، وهي تسلسلات حركية سلسة باستخدام تقنيات مطابقة التدفق (flow-matching)، مما يضمن دقة الأداء الحركي دون التأثير على القدرات الإدراكية.

تقنيات التدريب والأداء الواقعي

لضمان الكفاءة، تدرب النموذج على البيانات متعددة الوسائط والحركة بشكل مشترك. وتستخدم شاومي تقنية "Action Proposal" التي تسمح للنموذج بالتنبؤ بالحركات الممكنة أثناء معالجة الصور، مع تقليل زمن الاستجابة للحفاظ على استقرار الحركة.

وفي اختبارات الأداء، تفوق Xiaomi-Robotics-0 على نحو 30 نموذجاً آخر في محاكيات LIBERO وCALVIN. أما على أرض الواقع، فقد أظهر الروبوت (الذي استخدم ذراعين في الاختبار) تنسيقاً ممتازاً بين العين واليد في مهام معقدة مثل طي المناشف وتفكيك المكعبات، متعاملاً ببراعة مع الأشياء الصلبة والمرنة على حد سواء.

تعد هذه الخطوة نقلة نوعية لشاومي، حيث يمثل Robotics-0 أول محاولة جادة للشركة لدمج الذكاء الاصطناعي المتقدم مع الروبوتات الواقعية، واضعاً إياها في مصاف الشركات الرائدة في أبحاث الروبوتات الكبيرة.

الأسئلة الشائعة

هو أول نموذج للروبوتات الكبيرة من شاومي يضم 4.7 مليار معلمة، ويدمج بين الرؤية والفهم اللغوي والحركة الفعلية.

يعتمد على خبير حركة يستخدم تقنية Diffusion Transformer لإنتاج تسلسلات حركية سلسة ودقيقة بناءً على الأوامر.

أظهر النموذج قدرة على طي المناشف، تفكيك المكعبات، والتعامل مع الأشياء الصلبة والمرنة بتنسيق ممتاز بين العين واليد.

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!