بحث
Nvidia: ضغط ذاكرة نماذج اللغة الكبيرة 20x بكفاءة عالية
الذكاء الاصطناعي #Nvidia #الذكاء_الاصطناعي

Nvidia: ضغط ذاكرة نماذج اللغة الكبيرة 20x بكفاءة عالية

تاريخ النشر: آخر تحديث: 8 مشاهدة 0 تعليق 3 دقائق قراءة
8 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

أعلن باحثو Nvidia عن إنجاز تقني جديد يتمثل في تطوير تقنية "ترميز تحويل ذاكرة المفتاح-القيمة" (KVTC)، التي تعد بتحويل جذري لطريقة عمل نماذج اللغة الكبيرة (LLMs). تهدف هذه التقنية إلى تقليل استهلاك الذاكرة لوحدات معالجة الرسوميات (GPU) بشكل كبير، مما يعزز كفاءة وسرعة هذه النماذج.

تستطيع تقنية KVTC تقليل متطلبات ذاكرة النماذج بما يصل إلى 20 ضعفاً لتاريخ المحادثات، وذلك دون الحاجة إلى تعديل أوزان النموذج الأساسية. هذا يعني أن النماذج يمكنها الاحتفاظ بقدرتها على الفهم والاستجابة مع استهلاك موارد أقل بكثير. كما تساهم هذه التقنية في تسريع زمن الاستجابة الأولية (Time-to-first-token) بما يصل إلى ثمانية أضعاف، وهو عامل حاسم في تحسين تجربة المستخدم مع تطبيقات الذكاء الاصطناعي التفاعلية.

تستلهم KVTC مبادئها من تقنيات ضغط الوسائط المعروفة، مثل JPEG، وتستخدم أساليب متقدمة مثل تحليل المكونات الرئيسية (PCA) لضغط بيانات ذاكرة المفتاح-القيمة (KV cache). هذه الذاكرة ضرورية لتخزين المعلومات السياقية أثناء المحادثات الطويلة، ويُعد ضغطها تحديًا كبيرًا نظرًا لأهميتها في الحفاظ على دقة النموذج. كما تظهر الصورة الأولى، KV cache compression، كيف يتم هذا الضغط بفعالية.

وفقًا للباحثين، فإن هذه الطريقة تفتح آفاقًا جديدة لتطبيقات الذكاء الاصطناعي المؤسسية، خاصة تلك التي تتطلب سياقات طويلة ومحادثات متعددة الأدوار. من خلال تقليل متطلبات الذاكرة، يمكن للشركات خفض التكاليف التشغيلية وتحسين زمن الاستجابة، مما يجعل تطبيقات الذكاء الاصطناعي أكثر قابلية للتوسع وكفاءة. تظهر الصورة الثانية، LLM memory costs، كيف تؤثر الذاكرة على التكاليف.

تم تصميم KVTC لتعمل بشكل متكامل مع البنى التحتية الحالية لـ LLM، مما يسهل دمجها في الأنظمة القائمة. وقد أظهرت الاختبارات الأولية أن KVTC تحافظ على دقة الأداء عبر معايير مختلفة مثل MATH-500 و LiveCodeBench و Needle In A Haystack، كما يتضح من الصورة الخامسة، KVTC performance. هذا يعني أن الضغط لا يأتي على حساب جودة المخرجات.

يستخدم الباحثون مزيجًا من تقنيات الضغط مثل DEFLATE و nvCOMP، بالإضافة إلى PCA، لتحقيق أقصى قدر من الكفاءة في ضغط ذاكرة المفتاح-القيمة. وقد تم تطوير بنية KVTC بحيث يمكن نشرها في بيئات خدمة النماذج، كما تظهر الصورة الرابعة، KVTC serve architecture، مما يضمن توافقها مع الحلول الحالية مثل vLLM و Nvidia H100.

يعتبر هذا الابتكار بمثابة خطوة مهمة نحو جعل نماذج اللغة الكبيرة أكثر كفاءة ومتاحة على نطاق أوسع، مما يدعم التوسع في استخدامها في مختلف الصناعات. (تُظهر الصورة الثالثة، KVTC structure، تفاصيل بنية KVTC.)

تستمر Nvidia في ريادة الابتكار في مجال الذكاء الاصطناعي، وتقدم حلولاً لمعالجة التحديات الرئيسية مثل استهلاك الموارد. يمثل KVTC إضافة قيمة لمجموعة الأدوات المتاحة للمطورين والشركات التي تسعى إلى الاستفادة القصوى من إمكانات نماذج اللغة الكبيرة.

ندعوكم لمشاركة آرائكم وتجاربكم مع تقنيات ضغط الذاكرة في نماذج اللغة الكبيرة. هل ترون أن KVTC ستحقق نقلة نوعية في تطبيقات الذكاء الاصطناعي المؤسسية؟

الأسئلة الشائعة

هي تقنية جديدة لضغط ذاكرة المفتاح-القيمة (KV cache) في نماذج اللغة الكبيرة (LLMs) بما يصل إلى 20 ضعفًا دون تغيير أوزان النموذج، مما يقلل استهلاك ذاكرة GPU ويسرع زمن الاستجابة.

تقلل متطلبات ذاكرة GPU، تسرع زمن الاستجابة الأولية حتى 8 أضعاف، وتقلل التكاليف التشغيلية لتطبيقات الذكاء الاصطناعي المؤسسية.

لا، فقد أظهرت الاختبارات أن KVTC تحافظ على دقة الأداء عبر المعايير الرئيسية مثل MATH-500 و LiveCodeBench و Needle In A Haystack.

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!