بحث
جوجل تدعم Gemini 3 Flash بميزة "الرؤية النشطة" لتحليل الصور
الذكاء الاصطناعي #الذكاء_الاصطناعي #Gemini

جوجل تدعم Gemini 3 Flash بميزة "الرؤية النشطة" لتحليل الصور

تاريخ النشر: آخر تحديث: 19 مشاهدة 0 تعليق 3 دقائق قراءة
19 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

أعلنت جوجل رسمياً عن ميزة جديدة تُدعى "الرؤية النشطة" (Agentic Vision) لنموذج Gemini 3 Flash، تهدف إلى جعل المهام المتعلقة بالصور أكثر دقة من خلال ربط الإجابات بأدلة بصرية ملموسة بدلاً من التخمين.

نهاية عصر "النظرة الواحدة" للذكاء الاصطناعي

عادةً ما تعالج نماذج الذكاء الاصطناعي الرائدة العالم بنظرة واحدة ثابتة (Static Glance). إذا فاتتها تفاصيل دقيقة - مثل رقم تسلسلي على شريحة إلكترونية أو لافتة شارع بعيدة - فإنها تضطر للتخمين، مما يؤدي غالباً إلى أخطاء أو ما يعرف بالهلوسة.

يغير النهج الجديد هذا المفهوم تماماً، حيث يتعامل مع الرؤية كـ "تحقيق نشط" يجمع بين الاستنتاج البصري وتنفيذ الأكواد البرمجية.

كيف تعمل تقنية "فكر، تصرف، لاحظ"؟

للإجابة على المطالبات التي تتضمن صوراً، يقوم Gemini 3 Flash بصياغة خطط للتكبير وفحص الصور ومعالجتها خطوة بخطوة. تعتمد تقنية Agentic Vision تحديداً على حلقة عمل مكونة من ثلاث مراحل:

  • فكر (Think): يحلل النموذج استفسار المستخدم والصورة الأولية، ويصيغ خطة متعددة الخطوات.
  • تصرف (Act): يولد النموذج وينفذ كود Python لمعالجة الصور بنشاط (مثل القص، التدوير، أو إضافة تعليقات توضيحية) أو تحليلها (مثل إجراء الحسابات أو عد العناصر).
  • لاحظ (Observe): يتم إرفاق الصورة المحولة بسياق النموذج، مما يسمح له بفحص البيانات الجديدة بسياق أفضل قبل توليد الرد النهائي.

تطبيقات عملية ودقة أعلى

بدلاً من مجرد وصف الصورة المقدمة له، يمكن لنموذج Gemini 3 Flash تنفيذ كود للرسم مباشرة على اللوحة لتعليل استنتاجه. أحد الأمثلة على ذلك في تطبيق Gemini هو الطلب من النموذج "عد الأصابع في اليد".

لتجنب أخطاء العد، يستخدم النموذج لغة Python لرسم مربعات تحديد وعلامات رقمية فوق كل إصبع يحدده. تضمن هذه "المسودة البصرية" أن إجابته النهائية مبنية على فهم دقيق لكل بكسل.

كما يقوم Gemini 3 Flash بالتكبير (Zoom in) تلقائياً عند اكتشاف تفاصيل دقيقة في الصورة. ويمكن لميزة Agentic Vision أيضاً تحليل الجداول عالية الكثافة وتنفيذ كود Python لتصور النتائج بيانياً.

تقليل الهلوسة وزيادة الموثوقية

غالباً ما تهلوس النماذج اللغوية الكبيرة القياسية أثناء العمليات الحسابية البصرية متعددة الخطوات. يتجاوز Gemini 3 Flash هذه المشكلة عن طريق تفريغ الحسابات إلى بيئة Python حتمية، مما يستبدل التخمين الاحتمالي بالتنفيذ القابل للتحقق.

وقد أدت ميزة Agentic Vision إلى "تحسن ثابت في الجودة بنسبة 5-10% عبر معظم معايير الرؤية" لنموذج Gemini 3 Flash.

التوفر والخطط المستقبلية

بدأت هذه الميزة في الوصول إلى تطبيق Gemini مع نموذج التفكير (Thinking model). أما بالنسبة للمطورين، فهي متاحة اليوم عبر Gemini API في Google AI Studio وVertex AI.

في المستقبل، سيصبح Gemini 3 Flash أفضل في تدوير الصور أو إجراء الرياضيات البصرية دون الحاجة إلى توجيه صريح. كما ستسمح الأدوات المستقبلية للنموذج باستخدام البحث العكسي عن الصور لتعزيز فهمه للعالم بشكل أكبر.

الأسئلة الشائعة

هي ميزة جديدة تسمح للنموذج بمعالجة الصور بنشاط عبر حلقة 'فكر، تصرف، لاحظ' باستخدام كود بايثون لتحسين الدقة وتقليل الهلوسة.

تقوم الميزة باستبدال التخمين الاحتمالي بالتنفيذ البرمجي الدقيق (مثل التكبير والعد عبر الكود)، مما يوفر أدلة بصرية ملموسة للإجابة.

الميزة متاحة تدريجياً في تطبيق Gemini مع نموذج Thinking، وللمطورين عبر Gemini API في Google AI Studio وVertex AI.

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!