بحث
دراسة تهز الذكاء الاصطناعي: هل تنسخ النماذج البيانات حرفياً؟
الذكاء الاصطناعي #الذكاء_الاصطناعي #حقوق_النشر

دراسة تهز الذكاء الاصطناعي: هل تنسخ النماذج البيانات حرفياً؟

تاريخ النشر: آخر تحديث: 49 مشاهدة 0 تعليق 3 دقائق قراءة
49 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

لطالما أكدت شركات الذكاء الاصطناعي الكبرى، مثل Google وMeta وOpenAI وAnthropic، أن نماذج اللغة الكبيرة (LLMs) لا تخزن الأعمال المحمية بحقوق النشر، بل "تتعلم" منها بطريقة مشابهة لتعلم الإنسان.

هذا التمييز اللغوي كان بمثابة حجر الزاوية في دفاعها القانوني ضد الدعاوى المتزايدة المتعلقة بانتهاك حقوق النشر.

لكن دراسة جديدة ومثيرة للجدل من باحثين في جامعتي ستانفورد وييل قد تقلب هذا الادعاء رأساً على عقب.

ماذا اكتشفت الدراسة؟

توصلت الدراسة إلى أدلة قوية تشير إلى أن نماذج الذكاء الاصطناعي لا تكتفي بالتعلم من البيانات، بل تنسخ فعلياً أجزاء كبيرة منها وتعيد إنتاجها بدقة ملحوظة.

شملت الدراسة أربعة نماذج لغوية بارزة:

  • OpenAI GPT-4.1
  • Google Gemini 2.5 Pro
  • xAI Grok 3
  • Anthropic Claude 3.7 Sonnet

وكانت النتائج مذهلة:

  • Claude أعاد إنتاج كتباً كاملة تقريباً حرفياً بدقة 95.8%.
  • Gemini أعاد إنتاج كتاب Harry Potter and the Sorcerer’s Stone بدقة 76.8%.
  • Claude أعاد إنتاج رواية 1984 لجورج أورويل بدقة تجاوزت 94%.

والأهم من ذلك، أن جميع هذه الأعمال لا تزال محمية بموجب قوانين حقوق النشر.

لماذا هذا الأمر خطير من الناحية القانونية؟

يمنح قانون حقوق النشر الأميركي أصحاب الحقوق السيطرة الحصرية على النسخ والتوزيع والعرض لأعمالهم.

تعتمد شركات الذكاء الاصطناعي على مبدأ "الاستخدام العادل" لتبرير تدريب نماذجها على هذه الأعمال المحمية.

ولكن، إذا ثبت أن النماذج:

  • تحتفظ بنسخ قابلة للاسترجاع.
  • تعيد إنتاج النصوص بدقة عالية عند الطلب.

فإن ذلك قد يقوض بشكل كامل حجة "التعلم الشبيه بالبشر"، ويحول الأمر إلى نسخ غير مرخص.

كما أشار أليكس رايزنر من The Atlantic، فإن هذه النتائج قد تمثل:

«مسؤولية قانونية هائلة قد تكلف صناعة الذكاء الاصطناعي مليارات الدولارات».

كيف يتم استخراج النصوص؟

في بعض الحالات، استخدم الباحثون أسلوباً يعرف بـ Best-of-N، وهو إغراق النموذج بعدة صيغ للسؤال نفسه لاستخراج أفضل إجابة.

وقد استخدمت شركات مثل OpenAI هذا الأسلوب سابقاً للدفاع عن نفسها، بحجة أن "المستخدم العادي لا يتعامل مع النماذج بهذه الطريقة".

لكن الباحثين يردون بأن إمكانية الاستخراج نفسها هي المشكلة، بغض النظر عن الأسلوب المستخدم.

ردود فعل الصناعة: إنكار مستمر

على الرغم من الأدلة، لا تزال الشركات متمسكة بموقفها:

  • قالت Google في عام 2023 إنه "لا توجد أي نسخة من بيانات التدريب داخل النموذج".
  • أكدت OpenAI أن نماذجها "لا تخزن نسخاً من المعلومات التي تتعلمها".

حتى بعض الخبراء القانونيين منقسمون. أستاذ القانون في ستانفورد مارك لِملي قال إنه غير متأكد إن كان النموذج "يحتوي نسخة" أم "يعيد توليد النص عند الطلب".

ما هو المعرض للخطر؟

القضية تتجاوز الجانب التقني إلى الجوانب الاقتصادية والثقافية:

  • كتّاب وصحفيون وفنانون يعانون أصلاً من تراجع في الدخل.
  • في المقابل، تتضخم قيمة شركات الذكاء الاصطناعي إلى مستويات غير مسبوقة.

السؤال الجوهري الذي ستفصل فيه المحاكم: هل نماذج الذكاء الاصطناعي تتعلم مثل البشر… أم تخزن وتعيد نسخ الإبداع البشري؟

الإجابة قد تعيد رسم مستقبل صناعة الذكاء الاصطناعي بأكملها.

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!