أبل تكشف عن LiTo: نموذج AI يعيد بناء الأجسام ثلاثية الأبعاد بواقعية
كشفت أبحاث شركة أبل عن تطوير نموذج جديد للذكاء الاصطناعي قادر على إعادة بناء الأجسام ثلاثية الأبعاد من صورة واحدة فقط، مع الحفاظ على واقعية الانعكاسات واللمعان وتأثيرات الإضاءة الأخرى عبر زوايا عرض مختلفة. يمثل هذا إنجازًا مهمًا في مجال الرؤية الحاسوبية.
مفهوم الفضاء الكامن في الذكاء الاصطناعي
على الرغم من أن مفهوم الفضاء الكامن (Latent Space) ليس جديدًا في التعلم الآلي، إلا أنه اكتسب شعبية متزايدة مؤخرًا مع تطور نماذج الذكاء الاصطناعي القائمة على معمارية المحولات ونماذج العالم. ببساطة، يشير الفضاء الكامن أو فضاء التضمين إلى عملية تحويل المعلومات إلى تمثيلات رقمية لمفاهيمها، وتنظيم هذه الأرقام في فضاء متعدد الأبعاد. يتيح هذا النهج قياس المسافات بين هذه التمثيلات وحساب احتمالات توليد البيانات بشكل أسرع وأقل تكلفة حسابيًا.
يتضح هذا المفهوم في أمثلة معالجة اللغة الطبيعية، حيث يمكن تمثيل كلمة 'ملك' رقميًا، وعند طرح تمثيل 'رجل' وإضافة تمثيل 'امرأة'، نحصل على منطقة رياضية قريبة من تمثيل كلمة 'ملكة'. على الرغم من أن الأمثلة المذكورة أعلاه تركز على تخزين النصوص في الفضاء الكامن، إلا أن الفكرة ذاتها يمكن تطبيقها على أنواع أخرى عديدة من البيانات، وهذا ما قادنا إلى دراسة أبل الأخيرة.
LiTo: ترميز حقل الضوء السطحي
في دراسة أبل الجديدة، التي تحمل عنوان "LiTo: Surface Light Field Tokenization"، يقترح الباحثون "تمثيلًا كامنًا ثلاثي الأبعاد يُنمذج بشكل مشترك هندسة الجسم ومظهره المعتمد على زاوية الرؤية". بعبارة أخرى، لقد ابتكروا طريقة لتمثيل، في الفضاء الكامن، ليس فقط كيفية إعادة بناء جسم ثلاثي الأبعاد، بل أيضًا كيفية ظهور تفاعل الضوء معه من زوايا مختلفة.
كما يشرح الباحثون:
تركز معظم الأعمال السابقة إما على إعادة بناء الهندسة ثلاثية الأبعاد أو التنبؤ بالمظهر المنتشر المستقل عن زاوية الرؤية، وبالتالي تواجه صعوبة في التقاط التأثيرات الواقعية المعتمدة على زاوية الرؤية. يستفيد نهجنا من أن صور RGB-depth توفر عينات من حقل ضوء سطحي. من خلال ترميز عينات فرعية عشوائية من حقل الضوء السطحي هذا في مجموعة مدمجة من المتجهات الكامنة، يتعلم نموذجنا تمثيل كل من الهندسة والمظهر ضمن فضاء كامن ثلاثي الأبعاد موحد. يعيد هذا التمثيل إنتاج تأثيرات تعتمد على زاوية الرؤية مثل اللمعان الانعكاسي وانعكاسات فرينل تحت إضاءة معقدة.
الأكثر من ذلك، نجح الباحثون في تدريب النموذج بحيث يمكنه القيام بكل ذلك من صورة واحدة، بدلاً من الأساليب الأكثر شيوعًا التي تتطلب صورًا من زوايا مختلفة لتمكين إعادة البناء ثلاثي الأبعاد.
على الرغم من أن الطريقة بأكملها تقنية للغاية ومشروحة بالتفصيل في الدراسة، إلا أن الفكرة الأساسية بسيطة نسبيًا بمجرد فهم كيفية عمل الفضاء الكامن:
- أولاً، يقوم مُشفّر بضغط المعلومات حول الجسم إلى تمثيل مدمج في الفضاء الكامن. لذا، بدلاً من تخزين كل التفاصيل المرئية، يتعلم وصفًا رياضيًا مكثفًا لشكل الجسم وكيف يتفاعل الضوء مع سطحه.
- ثانيًا، يقوم مُفكّك التشفير بالعكس. يعيد بناء الجسم ثلاثي الأبعاد بالكامل من هذا التمثيل المدمج، مولدًا كلاً من الهندسة وتمثيل كيفية ظهور تأثيرات الإضاءة، مثل الانعكاسات واللمعان، من زوايا عرض مختلفة.
تدريب نموذج LiTo
لغرض تدريب النموذج، اختار الباحثون آلاف الأجسام التي تم عرضها من 150 زاوية رؤية مختلفة و3 ظروف إضاءة، كما تظهر الصورة المرفقة. بدلاً من تغذية كل هذه المعلومات مباشرة إلى النموذج، قام النظام باختيار عشوائي لعينات فرعية صغيرة من هذه البيانات وضغطها في تمثيل كامن.
بعد ذلك، تم تدريب مُفكّك التشفير لإعادة بناء الجسم بالكامل ومظهره تحت زوايا وظروف إضاءة مختلفة، فقط من تلك المجموعة الفرعية من البيانات. خلال عملية التدريب، تعلم النظام تمثيلًا كامنًا يلتقط كلاً من هندسة الجسم وكيف يتغير مظهره اعتمادًا على اتجاه الرؤية.
بمجرد الانتهاء من ذلك، قاموا بتدريب نموذج آخر يأخذ صورة واحدة لجسم ويتنبأ بالتمثيل الكامن الذي يتوافق معه. ثم، يعيد مُفكّك التشفير بناء الجسم ثلاثي الأبعاد بالكامل، بما في ذلك كيفية تغير مظهره مع تغير زاوية الرؤية. توضح الصورة المرفقة مقارنات إعادة البناء بين LiTo ونموذج يُدعى TRELLIS، كما نشرته أبل على صفحة المشروع.
ندعوكم لزيارة صفحة المشروع للاطلاع على مقارنات تفاعلية جنبًا إلى جنب بين LiTo و TRELLIS، وللتعمق في الدراسة الكاملة عبر الرابط المخصص.
الأسئلة الشائعة
LiTo هو نموذج ذكاء اصطناعي طورته أبل قادر على إعادة بناء الأجسام ثلاثية الأبعاد من صورة واحدة، مع محاكاة واقعية لتأثيرات الإضاءة مثل الانعكاسات واللمعان.
يتفوق LiTo على النماذج السابقة بقدرته على العمل من صورة واحدة فقط، بينما تتطلب معظم الطرق الأخرى صورًا متعددة من زوايا مختلفة، كما أنه يتميز بقدرته على نمذجة التأثيرات المعتمدة على زاوية الرؤية بشكل أفضل.
الفضاء الكامن هو مفهوم في التعلم الآلي حيث يتم تحويل المعلومات إلى تمثيلات رقمية مدمجة، مما يتيح للنموذج فهم العلاقة بين البيانات وإعادة بناء الأجسام بكفاءة.
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!