تحسين الدقة في البحث متعدد الأنماط مع Llama Nemotron
في عالم المعلومات اليوم، لا تقتصر البيانات على النصوص فقط، بل تشمل أيضًا ملفات PDF التي تحتوي على رسوم بيانية، عقود ممسوحة ضوئيًا، جداول، لقطات شاشة، وعروض تقديمية. لذا، فإن نظام الاسترجاع القائم على النصوص فقط سيفوت معلومات مهمة. تعمل أنابيب RAG متعددة الأنماط على تغيير ذلك من خلال تمكين الاسترجاع والتفكير على النصوص والصور والتخطيطات معًا، مما يؤدي إلى إجابات أكثر دقة وقابلية للتنفيذ.
تتناول هذه المقالة نموذجين صغيرين من Llama Nemotron لاسترجاع متعدد الأنماط عبر الوثائق المرئية: llama-nemotron-embed-vl-1b-v2، وهو نموذج تضمين متعدد الأنماط (صورة + نص) بكثافة وحيد للصفحة لاسترجاع المعلومات والبحث عن التشابه، وllama-nemotron-rerank-vl-1b-v2، وهو نموذج إعادة ترتيب عبر المحولات لتقييم ملاءمة الاستعلام مع الصفحة.
كلا النموذجين صغير بما يكفي للعمل مع معظم موارد GPU من نفيديا، ومتوافق مع قواعد البيانات المتجهة القياسية، ومصمم لتقليل الهلوسات من خلال تأكيد التوليد على أدلة أفضل.
لماذا تحتاج RAG متعددة الأنماط إلى استرجاع على مستوى عالمي
تجمع أنابيب RAG متعددة الأنماط بين مسترجع ونموذج لغة بصرية (VLM) بحيث تكون الاستجابات مستندة إلى كل من نص الصفحة المسترجع والمحتوى المرئي. تتحكم التضمينات في الصفحات التي يتم استرجاعها وعرضها على VLM، بينما تقرر نماذج إعادة الترتيب أي من تلك الصفحات هي الأكثر ملاءمة.
أحدث التقنيات في البحث متعدد الأنماط التجاري
تم تصميم نماذج llama-nemotron-embed-vl-1b-v2 وllama-nemotron-rerank-vl-1b-v2 للمطورين الذين يبنون أنظمة إجابة على الأسئلة متعددة الأنماط والبحث عبر مجموعات كبيرة من ملفات PDF والصور. يضمن نموذج llama-nemotron-embed-vl-1b-v2 التوافق مع جميع قواعد البيانات المتجهة القياسية، بينما يعزز نموذج llama-nemotron-rerank-vl-1b-v2 جودة الإجابات.
معايير استرجاع الوثائق المرئية
توضح المعايير أن النموذج llama-nemotron-embed-vl-1b-v2 يوفر دقة استرجاع أفضل مقارنة بسلفه، كما يعزز نموذج إعادة ترتيب VLM دقة الاسترجاع بشكل ملحوظ.
أبرز المعالم المعمارية ومنهجية التدريب
يحتوي نموذج التضمين llama-nemotron-embed-vl-1b-v2 على حوالي 1.7 مليار معلمة، وهو نسخة معدلة من عائلة نماذج NVIDIA Eagle. يتم تدريب النموذج باستخدام بنية ثنائية التشفير لتشفير الاستعلام والوثيقة بشكل مستقل.
كيف تستخدم المنظمات هذه النماذج
تستخدم منظمات مثل كادنس وIBM وServiceNow نماذج التضمين وإعادة الترتيب الجديدة لتحسين استرجاع المعلومات عبر الوثائق المتعددة الأنماط.
ابدأ الآن
يمكنك تجربة النماذج مباشرة عبر تشغيل llama-nemotron-embed-vl-1b-v2 في قاعدة البيانات الخاصة بك، وإضافة llama-nemotron-rerank-vl-1b-v2 لتحسين جودة الاسترجاع.
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!