ما هو نموذج LiTo من أبل؟

LiTo هو نموذج ذكاء اصطناعي طورته أبل قادر على إعادة بناء الأجسام ثلاثية الأبعاد من صورة واحدة، مع محاكاة واقعية لتأثيرات الإضاءة مثل الانعكاسات واللمعان.

كيف يختلف LiTo عن النماذج السابقة لإعادة البناء ثلاثي الأبعاد؟

يتفوق LiTo على النماذج السابقة بقدرته على العمل من صورة واحدة فقط، بينما تتطلب معظم الطرق الأخرى صورًا متعددة من زوايا مختلفة، كما أنه يتميز بقدرته على نمذجة التأثيرات المعتمدة على زاوية الرؤية بشكل أفضل.

ما هو الفضاء الكامن (Latent Space) الذي يعتمد عليه LiTo؟

الفضاء الكامن هو مفهوم في التعلم الآلي حيث يتم تحويل المعلومات إلى تمثيلات رقمية مدمجة، مما يتيح للنموذج فهم العلاقة بين البيانات وإعادة بناء الأجسام بكفاءة.

أبل تكشف عن LiTo: نموذج AI يعيد بناء الأجسام ثلاثية الأبعاد بواقعية

كشفت أبحاث شركة أبل عن تطوير نموذج جديد للذكاء الاصطناعي قادر على إعادة بناء الأجسام ثلاثية الأبعاد من صورة واحدة فقط، مع الحفاظ على واقعية الانعكاسات واللمعان وتأثيرات الإضاءة الأخرى عبر زوايا عرض مختلفة. يمثل هذا إنجازًا مهمًا في مجال الرؤية الحاسوبية.

مفهوم الفضاء الكامن في الذكاء الاصطناعي

على الرغم من أن مفهوم الفضاء الكامن (Latent Space) ليس جديدًا في التعلم الآلي، إلا أنه اكتسب شعبية متزايدة مؤخرًا مع تطور نماذج الذكاء الاصطناعي القائمة على معمارية المحولات ونماذج العالم. ببساطة، يشير الفضاء الكامن أو فضاء التضمين إلى عملية تحويل المعلومات إلى تمثيلات رقمية لمفاهيمها، وتنظيم هذه الأرقام في فضاء متعدد الأبعاد. يتيح هذا النهج قياس المسافات بين هذه التمثيلات وحساب احتمالات توليد البيانات بشكل أسرع وأقل تكلفة حسابيًا.

يتضح هذا المفهوم في أمثلة معالجة اللغة الطبيعية، حيث يمكن تمثيل كلمة 'ملك' رقميًا، وعند طرح تمثيل 'رجل' وإضافة تمثيل 'امرأة'، نحصل على منطقة رياضية قريبة من تمثيل كلمة 'ملكة'. على الرغم من أن الأمثلة المذكورة أعلاه تركز على تخزين النصوص في الفضاء الكامن، إلا أن الفكرة ذاتها يمكن تطبيقها على أنواع أخرى عديدة من البيانات، وهذا ما قادنا إلى دراسة أبل الأخيرة.

LiTo: ترميز حقل الضوء السطحي

في دراسة أبل الجديدة، التي تحمل عنوان "LiTo: Surface Light Field Tokenization"، يقترح الباحثون "تمثيلًا كامنًا ثلاثي الأبعاد يُنمذج بشكل مشترك هندسة الجسم ومظهره المعتمد على زاوية الرؤية". بعبارة أخرى، لقد ابتكروا طريقة لتمثيل، في الفضاء الكامن، ليس فقط كيفية إعادة بناء جسم ثلاثي الأبعاد، بل أيضًا كيفية ظهور تفاعل الضوء معه من زوايا مختلفة.

كما يشرح الباحثون:

تركز معظم الأعمال السابقة إما على إعادة بناء الهندسة ثلاثية الأبعاد أو التنبؤ بالمظهر المنتشر المستقل عن زاوية الرؤية، وبالتالي تواجه صعوبة في التقاط التأثيرات الواقعية المعتمدة على زاوية الرؤية. يستفيد نهجنا من أن صور RGB-depth توفر عينات من حقل ضوء سطحي. من خلال ترميز عينات فرعية عشوائية من حقل الضوء السطحي هذا في مجموعة مدمجة من المتجهات الكامنة، يتعلم نموذجنا تمثيل كل من الهندسة والمظهر ضمن فضاء كامن ثلاثي الأبعاد موحد. يعيد هذا التمثيل إنتاج تأثيرات تعتمد على زاوية الرؤية مثل اللمعان الانعكاسي وانعكاسات فرينل تحت إضاءة معقدة.

الأكثر من ذلك، نجح الباحثون في تدريب النموذج بحيث يمكنه القيام بكل ذلك من صورة واحدة، بدلاً من الأساليب الأكثر شيوعًا التي تتطلب صورًا من زوايا مختلفة لتمكين إعادة البناء ثلاثي الأبعاد.

على الرغم من أن الطريقة بأكملها تقنية للغاية ومشروحة بالتفصيل في الدراسة، إلا أن الفكرة الأساسية بسيطة نسبيًا بمجرد فهم كيفية عمل الفضاء الكامن:

أولاً، يقوم مُشفّر بضغط المعلومات حول الجسم إلى تمثيل مدمج في الفضاء الكامن. لذا، بدلاً من تخزين كل التفاصيل المرئية، يتعلم وصفًا رياضيًا مكثفًا لشكل الجسم وكيف يتفاعل الضوء مع سطحه.
ثانيًا، يقوم مُفكّك التشفير بالعكس. يعيد بناء الجسم ثلاثي الأبعاد بالكامل من هذا التمثيل المدمج، مولدًا كلاً من الهندسة وتمثيل كيفية ظهور تأثيرات الإضاءة، مثل الانعكاسات واللمعان، من زوايا عرض مختلفة.

تدريب نموذج LiTo

لغرض تدريب النموذج، اختار الباحثون آلاف الأجسام التي تم عرضها من 150 زاوية رؤية مختلفة و3 ظروف إضاءة، كما تظهر الصورة المرفقة. بدلاً من تغذية كل هذه المعلومات مباشرة إلى النموذج، قام النظام باختيار عشوائي لعينات فرعية صغيرة من هذه البيانات وضغطها في تمثيل كامن.

بعد ذلك، تم تدريب مُفكّك التشفير لإعادة بناء الجسم بالكامل ومظهره تحت زوايا وظروف إضاءة مختلفة، فقط من تلك المجموعة الفرعية من البيانات. خلال عملية التدريب، تعلم النظام تمثيلًا كامنًا يلتقط كلاً من هندسة الجسم وكيف يتغير مظهره اعتمادًا على اتجاه الرؤية.

بمجرد الانتهاء من ذلك، قاموا بتدريب نموذج آخر يأخذ صورة واحدة لجسم ويتنبأ بالتمثيل الكامن الذي يتوافق معه. ثم، يعيد مُفكّك التشفير بناء الجسم ثلاثي الأبعاد بالكامل، بما في ذلك كيفية تغير مظهره مع تغير زاوية الرؤية. توضح الصورة المرفقة مقارنات إعادة البناء بين LiTo ونموذج يُدعى TRELLIS، كما نشرته أبل على صفحة المشروع.

ندعوكم لزيارة صفحة المشروع للاطلاع على مقارنات تفاعلية جنبًا إلى جنب بين LiTo و TRELLIS، وللتعمق في الدراسة الكاملة عبر الرابط المخصص.

أبل تكشف عن LiTo: نموذج AI يعيد بناء الأجسام ثلاثية الأبعاد بواقعية

مفهوم الفضاء الكامن في الذكاء الاصطناعي

LiTo: ترميز حقل الضوء السطحي

تدريب نموذج LiTo

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

الأسئلة الشائعة

التعليقات 0

مفهوم الفضاء الكامن في الذكاء الاصطناعي

LiTo: ترميز حقل الضوء السطحي

تدريب نموذج LiTo

جوجل جيميني: الشريك المنطقي لذكاء سيري الاصطناعي

دراسة ستانفورد: مخاطر [[الذكاء الاصطناعي]] في تقديم المشورة الشخصية

Bluesky تكشف عن Attie: ذكاء اصطناعي لتخصيص الخلاصات

رحيل جماعي: جميع مؤسسي xAI يغادرون شركة إيلون ماسك للذكاء الاصطناعي

الذكاء الاصطناعي يُحدث ثورة: 170% إنتاجية بـ 80% قوة عاملة

دراسة: روبوتات الدردشة تتجاهل التعليمات البشرية المتزايدة

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

شارك هذا المقال

الأسئلة الشائعة

التعليقات 0

صفحات الموقع

مركز المساعدة

سياسة الخصوصية

شروط الاستخدام

من نحن

تواصل معنا