آبل تسرع توليد الكلام بالذكاء الاصطناعي 40%
نجح باحثون من شركة آبل وجامعة تل أبيب في تطوير طريقة مبتكرة لتسريع عملية تحويل النص إلى كلام باستخدام الذكاء الاصطناعي، محققين قفزة كبيرة في الأداء دون التضحية بجودة الصوت أو وضوحه.
وفي ورقة بحثية جديدة بعنوان "القبول المبدئي الخشن لفك التشفير التخميني في الكلام"، فصل الباحثون نهجاً مثيراً للاهتمام يعالج مشكلة البطء في النماذج التقليدية.
معضلة النماذج الحالية
ركز الباحثون على نماذج تحويل النص إلى كلام الانحدارية (Autoregressive models)، وهي التقنية الشائعة التي تعمل على توليد رموز الكلام (Tokens) واحداً تلو الآخر، مشبهة بذلك طريقة عمل نماذج اللغة الكبيرة التي تتنبأ بالكلمة التالية بناءً على ما سبقها.
إلا أن هذه الطريقة تواجه عقبة رئيسية؛ فهي صارمة للغاية وتتطلب تطابقاً دقيقاً للرموز الصوتية، مما يؤدي غالباً إلى رفض تنبؤات قد تكون جيدة بما يكفي صوتياً، لمجرد أنها لا تطابق الرمز الدقيق الذي يتوقعه النموذج، مما يبطئ العملية برمتها.
الحل الذكي: تقنية PCG
يكمن حل آبل في تقنية جديدة أطلقوا عليها اسم "Principled Coarse-Graining" أو (PCG). تعتمد الفكرة ببساطة على أن العديد من الرموز المختلفة يمكن أن تنتج أصواتاً متطابقة تقريباً.
بدلاً من التعامل مع كل صوت محتمل على أنه متميز تماماً، تسمح تقنية آبل للنموذج بقبول الرمز إذا كان ينتمي إلى نفس مجموعة "التشابه الصوتي" العامة.
كيف تعمل التقنية؟
تتكون منظومة PCG من نموذجين يعملان معاً:
- نموذج أصغر: يقترح رموز الكلام بسرعة.
- نموذج "حكم" أكبر: يتحقق مما إذا كانت تلك الرموز تقع ضمن المجموعة الصوتية الصحيحة قبل قبولها.
كما تظهر الصورة المرفقة في الدراسة، يعدل هذا الإطار مفاهيم "فك التشفير التخميني" لتناسب النماذج الصوتية، مما يسرع التوليد مع ضمان المفهومية.
نتائج مذهلة في السرعة والجودة
أظهرت النتائج أن تقنية PCG زادت من سرعة توليد الكلام بنسبة تقارب 40%، وهو تحسن كبير مقارنة بطرق التشفير التخميني القياسية التي لم تقدم تحسناً يذكر في نماذج الكلام.
لم يقتصر الأمر على السرعة فحسب، بل حققت التقنية درجة طبيعية (Naturalness score) بلغت 4.09 (على مقياس بشري من 1 إلى 5)، متفوقة على الأساليب السابقة التي ركزت على السرعة.
وفي اختبار إجهاد قوي، استبدل الباحثون 91.4% من رموز الكلام ببدائل من نفس المجموعة الصوتية، وظل الصوت متماسكاً مع زيادة طفيفة جداً في معدل الخطأ.
كفاءة عالية دون تكلفة إضافية
تتميز هذه التقنية بأنها لا تتطلب إعادة تدريب النموذج المستهدف، بل هي تعديل يتم تطبيقه وقت التشغيل (Inference time). كما أنها تتطلب موارد إضافية ضئيلة جداً، حيث تحتاج فقط إلى حوالي 37 ميجابايت من الذاكرة لتخزين مجموعات التشابه الصوتي، مما يجعلها عملية للأجهزة ذات الذاكرة المحدودة.
الأسئلة الشائعة
هي تقنية تعتمد على تجميع الأصوات المتشابهة لتسريع عملية توليد الكلام بالذكاء الاصطناعي عن طريق قبول الرموز التي تنتمي لنفس المجموعة الصوتية.
حققت التقنية زيادة في سرعة توليد الكلام بنسبة تصل إلى 40% مقارنة بالطرق التقليدية.
لا، هذه التقنية تعد تعديلاً يتم تطبيقه وقت التشغيل ولا تتطلب إعادة تدريب النموذج أو تغييرات معمارية كبيرة.
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!