Nvidia: ضغط ذاكرة نماذج اللغة الكبيرة 20x بكفاءة عالية

تاريخ النشر: منذ شهر آخر تحديث: منذ يوم 44 مشاهدة 0 تعليق 3 دقائق قراءة

أعلن باحثو Nvidia عن إنجاز تقني جديد يتمثل في تطوير تقنية "ترميز تحويل ذاكرة المفتاح-القيمة" (KVTC)، التي تعد بتحويل جذري لطريقة عمل نماذج اللغة الكبيرة (LLMs). تهدف هذه التقنية إلى تقليل استهلاك الذاكرة لوحدات معالجة الرسوميات (GPU) بشكل كبير، مما يعزز كفاءة وسرعة هذه النماذج.

تستطيع تقنية KVTC تقليل متطلبات ذاكرة النماذج بما يصل إلى 20 ضعفاً لتاريخ المحادثات، وذلك دون الحاجة إلى تعديل أوزان النموذج الأساسية. هذا يعني أن النماذج يمكنها الاحتفاظ بقدرتها على الفهم والاستجابة مع استهلاك موارد أقل بكثير. كما تساهم هذه التقنية في تسريع زمن الاستجابة الأولية (Time-to-first-token) بما يصل إلى ثمانية أضعاف، وهو عامل حاسم في تحسين تجربة المستخدم مع تطبيقات الذكاء الاصطناعي التفاعلية.

تستلهم KVTC مبادئها من تقنيات ضغط الوسائط المعروفة، مثل JPEG، وتستخدم أساليب متقدمة مثل تحليل المكونات الرئيسية (PCA) لضغط بيانات ذاكرة المفتاح-القيمة (KV cache). هذه الذاكرة ضرورية لتخزين المعلومات السياقية أثناء المحادثات الطويلة، ويُعد ضغطها تحديًا كبيرًا نظرًا لأهميتها في الحفاظ على دقة النموذج. كما تظهر الصورة الأولى، KV cache compression، كيف يتم هذا الضغط بفعالية.

وفقًا للباحثين، فإن هذه الطريقة تفتح آفاقًا جديدة لتطبيقات الذكاء الاصطناعي المؤسسية، خاصة تلك التي تتطلب سياقات طويلة ومحادثات متعددة الأدوار. من خلال تقليل متطلبات الذاكرة، يمكن للشركات خفض التكاليف التشغيلية وتحسين زمن الاستجابة، مما يجعل تطبيقات الذكاء الاصطناعي أكثر قابلية للتوسع وكفاءة. تظهر الصورة الثانية، LLM memory costs، كيف تؤثر الذاكرة على التكاليف.

تم تصميم KVTC لتعمل بشكل متكامل مع البنى التحتية الحالية لـ LLM، مما يسهل دمجها في الأنظمة القائمة. وقد أظهرت الاختبارات الأولية أن KVTC تحافظ على دقة الأداء عبر معايير مختلفة مثل MATH-500 و LiveCodeBench و Needle In A Haystack، كما يتضح من الصورة الخامسة، KVTC performance. هذا يعني أن الضغط لا يأتي على حساب جودة المخرجات.

يستخدم الباحثون مزيجًا من تقنيات الضغط مثل DEFLATE و nvCOMP، بالإضافة إلى PCA، لتحقيق أقصى قدر من الكفاءة في ضغط ذاكرة المفتاح-القيمة. وقد تم تطوير بنية KVTC بحيث يمكن نشرها في بيئات خدمة النماذج، كما تظهر الصورة الرابعة، KVTC serve architecture، مما يضمن توافقها مع الحلول الحالية مثل vLLM و Nvidia H100.

يعتبر هذا الابتكار بمثابة خطوة مهمة نحو جعل نماذج اللغة الكبيرة أكثر كفاءة ومتاحة على نطاق أوسع، مما يدعم التوسع في استخدامها في مختلف الصناعات. (تُظهر الصورة الثالثة، KVTC structure، تفاصيل بنية KVTC.)

تستمر Nvidia في ريادة الابتكار في مجال الذكاء الاصطناعي، وتقدم حلولاً لمعالجة التحديات الرئيسية مثل استهلاك الموارد. يمثل KVTC إضافة قيمة لمجموعة الأدوات المتاحة للمطورين والشركات التي تسعى إلى الاستفادة القصوى من إمكانات نماذج اللغة الكبيرة.

ندعوكم لمشاركة آرائكم وتجاربكم مع تقنيات ضغط الذاكرة في نماذج اللغة الكبيرة. هل ترون أن KVTC ستحقق نقلة نوعية في تطبيقات الذكاء الاصطناعي المؤسسية؟

الأسئلة الشائعة

ما هي تقنية KVTC التي طورتها Nvidia؟

هي تقنية جديدة لضغط ذاكرة المفتاح-القيمة (KV cache) في نماذج اللغة الكبيرة (LLMs) بما يصل إلى 20 ضعفًا دون تغيير أوزان النموذج، مما يقلل استهلاك ذاكرة GPU ويسرع زمن الاستجابة.

ما هي أبرز فوائد تقنية KVTC؟

تقلل متطلبات ذاكرة GPU، تسرع زمن الاستجابة الأولية حتى 8 أضعاف، وتقلل التكاليف التشغيلية لتطبيقات الذكاء الاصطناعي المؤسسية.

هل تؤثر KVTC على دقة نماذج اللغة الكبيرة؟

لا، فقد أظهرت الاختبارات أن KVTC تحافظ على دقة الأداء عبر المعايير الرئيسية مثل MATH-500 و LiveCodeBench و Needle In A Haystack.

Nvidia: ضغط ذاكرة نماذج اللغة الكبيرة 20x بكفاءة عالية

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

الأسئلة الشائعة

التعليقات 0

جوجل جيميني: الشريك المنطقي لذكاء سيري الاصطناعي

دراسة ستانفورد: مخاطر [[الذكاء الاصطناعي]] في تقديم المشورة الشخصية

Bluesky تكشف عن Attie: ذكاء اصطناعي لتخصيص الخلاصات

رحيل جماعي: جميع مؤسسي xAI يغادرون شركة إيلون ماسك للذكاء الاصطناعي

الذكاء الاصطناعي يُحدث ثورة: 170% إنتاجية بـ 80% قوة عاملة

دراسة: روبوتات الدردشة تتجاهل التعليمات البشرية المتزايدة

الأمن السيبراني

اختراق Telnyx PyPI: برمجيات خبيثة مخفية بملفات WAV

آلاف المواقع تُسرب مفاتيح API حساسة: مخاطر أمنية جسيمة

تحذير CISA: استغلال خطير في Langflow يهدد تدفقات الذكاء الاصطناعي

Torg Grabber: برنامج خبيث جديد يستهدف مئات محافظ العملات المشفرة

احتيال Bubble: منصة AI تُستغل لسرقة بيانات Microsoft

IRONSCALES: حماية بريد إلكتروني استباقية بتقنيات الذكاء الاصطناعي

شارك هذا المقال

الأسئلة الشائعة

التعليقات 0

صفحات الموقع

مركز المساعدة

سياسة الخصوصية

شروط الاستخدام

من نحن

تواصل معنا