جوجل تطلق Project Genie: ابنِ عوالم تفاعلية بالذكاء الاصطناعي
أتاحت Google DeepMind رسمياً الوصول إلى أداتها الجديدة Project Genie، التي تمكن المستخدمين من تحويل النصوص والصور إلى عوالم ألعاب تفاعلية قابلة للاستكشاف. وبدءاً من يوم الخميس، يمكن لمشتركي Google AI Ultra في الولايات المتحدة تجربة هذا النموذج الأولي، الذي يجمع بين أحدث نماذج العالم Genie 3، ونموذج توليد الصور Nano Banana Pro، وقدرات Gemini المتطورة.
سباق نحو "نماذج العالم" والذكاء العام
يأتي هذا الإطلاق بعد خمسة أشهر من العرض البحثي لنموذج Genie 3، كجزء من جهود DeepMind لجمع تعليقات المستخدمين وبيانات التدريب. وتعتبر "نماذج العالم" (World Models) أنظمة ذكاء اصطناعي قادرة على إنشاء تمثيل داخلي للبيئة والتنبؤ بالنتائج المستقبلية، ويرى قادة الذكاء الاصطناعي أنها خطوة حاسمة نحو تحقيق الذكاء الاصطناعي العام (AGI).
وتشتعل المنافسة في هذا المجال حالياً، حيث أطلقت World Labs بقيادة فاي-فاي لي منتجها التجاري "Marble"، كما كشفت شركة Runway عن نموذج عالم خاص بها، بينما تركز AMI Labs التابعة ليان ليكون على تطوير تقنيات مماثلة.
كيف تعمل أداة Project Genie؟
تبدأ التجربة بتقديم "مخطط للعالم" (World Sketch) عبر أوامر نصية تصف البيئة والشخصية الرئيسية. يقوم نموذج Nano Banana Pro بإنشاء صورة بناءً على هذه الأوامر، والتي يستخدمها Genie كنقطة انطلاق لإنشاء عالم تفاعلي. ورغم أن التعديلات تعمل غالباً، إلا أن النموذج قد يتعثر أحياناً؛ فقد يعطيك شعراً أرجوانياً عندما تطلب الأخضر.
تستغرق عملية إنشاء العالم بضع ثوانٍ بمجرد الموافقة على الصورة. ويمكن للمستخدمين أيضاً استخدام صور حقيقية كأساس، أو إعادة دمج عوالم موجودة، ومن ثم تحميل فيديوهات لجولاتهم الاستكشافية داخل هذه العوالم.
تحديات الواقعية والقيود التقنية
تفرض DeepMind حالياً حداً أقصى قدره 60 ثانية لتوليد العالم والتنقل فيه، ويرجع ذلك جزئياً إلى قيود الميزانية والحوسبة. وأوضح شلومي فروختر، مدير الأبحاث في DeepMind، أن السبب هو الرغبة في إتاحة الأداة لأكبر عدد من المستخدمين، حيث يتطلب النموذج موارد حوسبة مخصصة لكل جلسة.
وفيما يتعلق بالأداء، تتفوق النماذج في إنشاء عوالم فنية خيالية (مثل الألوان المائية أو الرسوم المتحركة)، لكنها تواجه صعوبة في العوالم الواقعية أو السينمائية، حيث تبدو النتائج أشبه بألعاب الفيديو القديمة بدلاً من الواقع.
تجربة عملية: بين الخيال والواقع
تُظهر الصورة المرفقة (صورة 1) عالماً خيالياً لقلعة في السماء مصنوعة من المارشميلو والحلوى، وهو ما نجحت الأداة في تنفيذه ببراعة بأسلوب "الصلصال المتحرك". وفي المقابل، عند محاولة محاكاة الواقع، كما يظهر في (صورة 3)، فشل النموذج في إنشاء عالم مستوحى من "Game of Thrones" بواقعية فوتوغرافية، حيث ظهرت النتيجة رقمية وتفتقر للحياة.
كما واجهت الأداة صعوبة في التعامل مع الصور الواقعية للمكاتب، حيث أعادت ترتيب الأثاث بشكل غريب وجعلته يبدو معقماً وغير حيوي. ومع ذلك، عند تزويدها بصورة مكتب مع دمية محشوة (كما في صورة 4)، نجحت الأداة في تحريك الدمية وجعل الأشياء الأخرى تتفاعل مع حركتها.
ضوابط الأمان وحقوق الملكية
تطبق جوجل حواجز أمان صارمة؛ حيث لا يمكن توليد أي محتوى غير لائق أو مواد محمية بحقوق الطبع والنشر. وكما توضح (صورة 2)، تلقت جوجل تحذيراً قانونياً من ديزني العام الماضي، مما منع النماذج من إنشاء أي عوالم مرتبطة بشخصيات ديزني أو موادها المحمية.
وعلى الرغم من الانبهار بالقدرات الحالية، لا تزال هناك مشاكل في التنقل والتحكم، حيث قد تسير الشخصيات عبر الجدران، وتكون استجابة مفاتيح التحكم (W-A-S-D) غير دقيقة أحياناً، مما يجعل التجربة تشبه قيادة عربة تسوق بعجلة مكسورة. وتؤكد DeepMind أن Project Genie لا يزال نموذجاً أولياً تجريبياً، مع خطط مستقبلية لتحسين الواقعية ومنح المستخدمين مزيداً من التحكم.
الأسئلة الشائعة
هو أداة تجريبية من Google DeepMind تتيح للمستخدمين إنشاء عوالم ألعاب تفاعلية ثلاثية الأبعاد باستخدام أوامر نصية أو صور.
الأداة متاحة حالياً لمشتركي خدمة Google AI Ultra في الولايات المتحدة كنموذج أولي تجريبي.
بسبب متطلبات الحوسبة العالية للنموذج، حيث تخصص جوجل شريحة معالجة خاصة لكل جلسة، مما يفرض قيوداً لضمان توفر الخدمة لأكبر عدد من المستخدمين.
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!