جوجل تدعم Gemini 3 Flash بميزة "الرؤية النشطة" لتحليل الصور

تاريخ النشر: منذ 5 أشهر آخر تحديث: منذ 3 أيام 90 مشاهدة 0 تعليق 3 دقائق قراءة

أعلنت جوجل رسمياً عن ميزة جديدة تُدعى "الرؤية النشطة" (Agentic Vision) لنموذج Gemini 3 Flash، تهدف إلى جعل المهام المتعلقة بالصور أكثر دقة من خلال ربط الإجابات بأدلة بصرية ملموسة بدلاً من التخمين.

نهاية عصر "النظرة الواحدة" للذكاء الاصطناعي

عادةً ما تعالج نماذج الذكاء الاصطناعي الرائدة العالم بنظرة واحدة ثابتة (Static Glance). إذا فاتتها تفاصيل دقيقة - مثل رقم تسلسلي على شريحة إلكترونية أو لافتة شارع بعيدة - فإنها تضطر للتخمين، مما يؤدي غالباً إلى أخطاء أو ما يعرف بالهلوسة.

يغير النهج الجديد هذا المفهوم تماماً، حيث يتعامل مع الرؤية كـ "تحقيق نشط" يجمع بين الاستنتاج البصري وتنفيذ الأكواد البرمجية.

كيف تعمل تقنية "فكر، تصرف، لاحظ"؟

للإجابة على المطالبات التي تتضمن صوراً، يقوم Gemini 3 Flash بصياغة خطط للتكبير وفحص الصور ومعالجتها خطوة بخطوة. تعتمد تقنية Agentic Vision تحديداً على حلقة عمل مكونة من ثلاث مراحل:

فكر (Think): يحلل النموذج استفسار المستخدم والصورة الأولية، ويصيغ خطة متعددة الخطوات.
تصرف (Act): يولد النموذج وينفذ كود Python لمعالجة الصور بنشاط (مثل القص، التدوير، أو إضافة تعليقات توضيحية) أو تحليلها (مثل إجراء الحسابات أو عد العناصر).
لاحظ (Observe): يتم إرفاق الصورة المحولة بسياق النموذج، مما يسمح له بفحص البيانات الجديدة بسياق أفضل قبل توليد الرد النهائي.

تطبيقات عملية ودقة أعلى

بدلاً من مجرد وصف الصورة المقدمة له، يمكن لنموذج Gemini 3 Flash تنفيذ كود للرسم مباشرة على اللوحة لتعليل استنتاجه. أحد الأمثلة على ذلك في تطبيق Gemini هو الطلب من النموذج "عد الأصابع في اليد".

لتجنب أخطاء العد، يستخدم النموذج لغة Python لرسم مربعات تحديد وعلامات رقمية فوق كل إصبع يحدده. تضمن هذه "المسودة البصرية" أن إجابته النهائية مبنية على فهم دقيق لكل بكسل.

كما يقوم Gemini 3 Flash بالتكبير (Zoom in) تلقائياً عند اكتشاف تفاصيل دقيقة في الصورة. ويمكن لميزة Agentic Vision أيضاً تحليل الجداول عالية الكثافة وتنفيذ كود Python لتصور النتائج بيانياً.

تقليل الهلوسة وزيادة الموثوقية

غالباً ما تهلوس النماذج اللغوية الكبيرة القياسية أثناء العمليات الحسابية البصرية متعددة الخطوات. يتجاوز Gemini 3 Flash هذه المشكلة عن طريق تفريغ الحسابات إلى بيئة Python حتمية، مما يستبدل التخمين الاحتمالي بالتنفيذ القابل للتحقق.

وقد أدت ميزة Agentic Vision إلى "تحسن ثابت في الجودة بنسبة 5-10% عبر معظم معايير الرؤية" لنموذج Gemini 3 Flash.

التوفر والخطط المستقبلية

بدأت هذه الميزة في الوصول إلى تطبيق Gemini مع نموذج التفكير (Thinking model). أما بالنسبة للمطورين، فهي متاحة اليوم عبر Gemini API في Google AI Studio وVertex AI.

في المستقبل، سيصبح Gemini 3 Flash أفضل في تدوير الصور أو إجراء الرياضيات البصرية دون الحاجة إلى توجيه صريح. كما ستسمح الأدوات المستقبلية للنموذج باستخدام البحث العكسي عن الصور لتعزيز فهمه للعالم بشكل أكبر.

الأسئلة الشائعة

ما هي ميزة Agentic Vision في Gemini 3 Flash؟

هي ميزة جديدة تسمح للنموذج بمعالجة الصور بنشاط عبر حلقة 'فكر، تصرف، لاحظ' باستخدام كود بايثون لتحسين الدقة وتقليل الهلوسة.

كيف تساعد هذه الميزة في تقليل أخطاء الذكاء الاصطناعي؟

تقوم الميزة باستبدال التخمين الاحتمالي بالتنفيذ البرمجي الدقيق (مثل التكبير والعد عبر الكود)، مما يوفر أدلة بصرية ملموسة للإجابة.

أين تتوفر ميزة Agentic Vision حالياً؟

الميزة متاحة تدريجياً في تطبيق Gemini مع نموذج Thinking، وللمطورين عبر Gemini API في Google AI Studio وVertex AI.

جوجل تدعم Gemini 3 Flash بميزة "الرؤية النشطة" لتحليل الصور

نهاية عصر "النظرة الواحدة" للذكاء الاصطناعي

كيف تعمل تقنية "فكر، تصرف، لاحظ"؟

تطبيقات عملية ودقة أعلى

تقليل الهلوسة وزيادة الموثوقية

التوفر والخطط المستقبلية

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

الأسئلة الشائعة

التعليقات 0

نهاية عصر "النظرة الواحدة" للذكاء الاصطناعي

كيف تعمل تقنية "فكر، تصرف، لاحظ"؟

جوجل جيميني: الشريك المنطقي لذكاء سيري الاصطناعي

دراسة ستانفورد: مخاطر [[الذكاء الاصطناعي]] في تقديم المشورة الشخصية

Bluesky تكشف عن Attie: ذكاء اصطناعي لتخصيص الخلاصات

رحيل جماعي: جميع مؤسسي xAI يغادرون شركة إيلون ماسك للذكاء الاصطناعي

الذكاء الاصطناعي يُحدث ثورة: 170% إنتاجية بـ 80% قوة عاملة

دراسة: روبوتات الدردشة تتجاهل التعليمات البشرية المتزايدة

تطبيقات عملية ودقة أعلى

تقليل الهلوسة وزيادة الموثوقية

التوفر والخطط المستقبلية

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

شارك هذا المقال

الأسئلة الشائعة

التعليقات 0

صفحات الموقع

مركز المساعدة

سياسة الخصوصية

شروط الاستخدام

من نحن

تواصل معنا