نتائج استخدام نماذج الذكاء الاصطناعي في كتابة تقرير بحثي
الذكاء الاصطناعي موجود في كل مكان اليوم، مع العديد من النماذج التي يتم الترويج لها على أنها قادرة جدًا ومفيدة. بالنسبة لي، يعني ذلك أن أترك الذكاء الاصطناعي يقوم بالبحث في مواضيع معقدة، مما يوفر لي ساعات من الوقت كل يوم. لكن لدي وصول إلى العديد من النماذج، ولا أستطيع إلا أن أتساءل: أيها يستحق ثقتك؟
استخدام الذكاء الاصطناعي للبحث
واحدة من أكثر الأشياء فائدة حول الذكاء الاصطناعي بالنسبة للشخص العادي هي القدرة على جعله يبحث في الإنترنت عن كمية هائلة من المعلومات في وقت قصير. الأشياء التي قد تستغرق منك ساعات للتحقيق والاكتشاف يمكن أن يتم العثور عليها وتجميعها في ملخص سريع بواسطة نموذج ذكاء اصطناعي في أقل من دقيقة. على السطح، قد يبدو أن جميع تلك النماذج المختلفة من الذكاء الاصطناعي متشابهة بشكل فعال، ولها أسماء مختلفة وشركات مختلفة تمولها.
لكنني قضيت الكثير من الوقت في العمل مع نماذج ذكاء اصطناعي مختلفة، وتدريبها، واختبارها، وتحسينها؛ لديها نقاط قوتها وضعفها. لقد اختبرت مجموعة متنوعة من النماذج المتقدمة، وسأشارككم جميعًا النتائج التي توصلت إليها. لإجراء هذا الاختبار، تلقت كل نموذج نفس الطلب:
"يرجى تزويدي بتقرير بحثي يوضح الفوائد المحتملة لتحويل الولايات المتحدة بالكامل إلى مصادر الطاقة المتجددة، بما في ذلك الجدوى، والفوائد الاقتصادية والبيئية، وتكاليف التنفيذ، والعقبات المحتملة أمام التحويل الكامل. يرجى تضمين جداول عند الاقتضاء لدعم تقريرك، وتوفير مصادر لجميع البيانات الواقعية."
تم تقديم هذا الطلب إلى خمسة نماذج متطورة مختلفة: كلود أوبوس 4، جمنيو 2.5 برو، غروك 3، ميتا لاما 4 مافريك، وChat GPT-4.1. أما بالنسبة لكيفية تقييمها، فقد نظرت إلى بعض الأمور:
- هل طلب النموذج تفاصيل إضافية قبل محاولة تلبية طلبي؟
- كم عدد المصادر التي قدمها النموذج، وما كانت جودة وموثوقية تلك المصادر؟
- ما مدى قوة المساعدات البصرية المقدمة من النموذج؟
- مع عدم وجود قيود على الطول المحدد، ما مدى طول وتعقيد تقرير البحث الذي قدمه النموذج؟
- هل كانت المعلومات المقدمة دقيقة ومفصلة بشكل صحيح؟
كلود أوبوس 4: إمكانيات كبيرة مقيدة بنقص القدرة
للأسف، بدأ كلود أوبوس 4 بداية صعبة على الفور. هذا نموذج يدعي مستوى أعلى من "التفكير" يمكنك تشغيله وإيقافه. لديه القدرة على التفكير، مما يسمح له بالإجابة على أسئلة أكثر تعقيدًا بعمق أكبر. بالطبع، قمت بتشغيل وضع التفكير لهذا الطلب البحثي. المشكلة؟ كان النموذج يستمر في التفكير في طرق مسدودة. كان يتقدم جزئيًا في التقرير، ثم يظهر خطأ بدلاً من المنتج النهائي الذي أريده. حدث هذا عدة مرات على التوالي.
يبدو أن طلبي كان معقدًا جدًا بالنسبة له. ولكن بعد المحاولة الثالثة، تمكن كلود أوبوس 4 أخيرًا من إخراج تقرير البحث الذي طلبته. أو على الأقل، جزء منه. تمكن من تغطية الكثير مما طلبته بتفصيل كبير: المشهد الحالي للطاقة في الولايات المتحدة، تقييم الجدوى، تكاليف التنفيذ، الفوائد الاقتصادية والبيئية، لكنه توقف تمامًا خلال تحليل التكلفة والفائدة، تقريبًا في ثلثي التقرير.
لا حاجة للقول، أن هذا أمر سيء حقًا. لم يكمل النموذج تقديم ما طلبته، وهو الحد الأدنى الذي تتوقعه منه. والأسوأ من ذلك، أن الأجزاء من التقرير التي حصلت عليها كانت جيدة جدًا. لم يطلب مني أي أسئلة توضيحية، لكنه قدم ملخصًا تنفيذيًا كاملًا للتقرير في البداية. قدم جدولًا في كل قسم تقريبًا من التقرير، وكان دقيقًا للغاية في المصادر، حيث غالبًا ما قدم مصدرًا لكل رقم في جدول، جميعها من أماكن موثوقة مثل الوكالات الحكومية والدراسات الأكاديمية المهنية.
ومع ذلك، لا يهم أي من ذلك إذا لم يتمكن النموذج من إنهاء تقديم التقرير، لذا يحصل كلود أوبوس 4 على درجة رسوب هنا. إنه لأمر مؤسف حقًا، لأن كلود كان أحد نماذجي المفضلة منذ أن انتقلت من GPT، لكنه يبدو أنه أفضل في المهام الإبداعية.
جمنيو 2.5 برو: يفتقر إلى العمق لطوله
بشكل عام، كان أداء جمنيو 2.5 برو جيدًا. لم يطرح أي أسئلة توضيحية، لكنه تضمن ملخصًا تنفيذيًا واستنتاجًا في التقرير. استخدم 12 مصدرًا عالي الجودة، بما في ذلك تقارير من مختبر الطاقة المتجددة الوطني، ووزارة الطاقة الأمريكية، والوكالة الدولية للطاقة المتجددة، على الرغم من أنه يجدر بالذكر أن أيًا من هذه المصادر لم يكن أكثر حداثة من عام 2022. كان لديه خمسة جداول، على الرغم من أن بعضها كان قليل البيانات ولم يقدم الكثير من القيمة.
كان التقرير بطول متوسط يبلغ حوالي 1300 كلمة، وهو ليس بالطول الذي أفضله لتقرير بحثي مفصل، لكنه أفضل من بعض منافسيه. للأسف، قام نموذج الذكاء الاصطناعي بتقسيم التقرير إلى قطع صغيرة جدًا، حيث كان لبعض الأقسام جملة أو جملتين فقط. أحيانًا كان قسم يقدم بيانًا غامضًا أو تقديرًا ولكنه لا يتضمن أي أرقام فعلية أو معلومات قابلة للتنفيذ.
تقنيًا، تحدث عن كل ما طلبته، لكنه شعر أكثر كأنه ملخص كبير لتقرير بدلاً من تقرير فعلي. مع بعض تحسينات الطلب وإضافة بعض القيود، يمكنني أن أرى جمنيو 2.5 برو يؤدي بشكل أفضل في هذا الاختبار، لكن كما هو قائم الآن، شعرت أنه متوسط بشكل عام. لحسن الحظ، هو أكثر قدرة في بعض المجالات الأخرى التي دفعت جوجل بها.
غروك 3: مصادر وفيرة واستشهاد ممتاز بالمعلومات
في هذه المرحلة من الاختبار، لاحظت أن أيًا من هذه النماذج من الذكاء الاصطناعي لم تكن متحمسة جدًا لطرح أسئلة توضيحية حول طلبي، بما في ذلك غروك 3. بينما كان ذلك مخيبًا للآمال بعض الشيء، إلا أن غروك قد أثار إعجابي بطرق أخرى، وهي عدد المصادر الموثوقة التي استخدمها في بحثه، بالإضافة إلى كيفية استشهادها بشكل نظيف أثناء تقديم الحقائق والتقديرات طوال التقرير. استخدم جمنيو 2.5 برو 12 مصدرًا لتقريره. بينما استخدم غروك 3 21، وتمكن من سحب بعض المصادر من عام 2023 أيضًا.
لقد استغل هذه المصادر بشكل جيد للغاية طوال التقرير. كان كل جدول مفاجئ قوي ومفصل قد استشهد بمصادر لبياناته، وكان تقريبًا كل بيان واقعي وتقدير بيانات له مصدر مستشهد به أيضًا، حتى لو كان لمجرد جملة واحدة. جعل ذلك من السهل جدًا التحقق من دقة كل بيان، ومعرفة أين يمكنني البحث إذا كنت أرغب في العثور على مزيد من المعلومات حول أي تفاصيل قدمها النموذج في التقرير.
كان التقرير أيضًا واسعًا جدًا بحوالي 2000 كلمة. بينما كانت هناك بعض الأقسام الصغيرة التي كان يمكن أن يذهب فيها غروك 3 إلى مزيد من التفاصيل، إلا أنه قدم بشكل عام الكثير من الأرقام الدقيقة، والتفسيرات المفصلة، وفوق كل شيء، العديد من المصادر الأكاديمية والحكومية التي تم دمجها في التقرير بشكل أكثر اكتمالًا من منافسيه. يبدو أن غروك هو في الواقع نموذج ذكاء اصطناعي يحمل اسمًا مناسبًا.
ميتا لاما 4 مافريك: مخيب للآمال عبر اللوحة
للأسف بالنسبة لميتا، كان نموذج لاما 4 مافريك لديه الكثير من المشاكل مع طلبي لتقرير مفصل عن الطاقة المتجددة. للبدء، كان التقرير نفسه قصيرًا بشكل غير معقول عند 800 كلمة فقط، وهذا مع بعض التكرار الذي لم يكن بحاجة إليه حقًا. لم يكن هناك فقط ملخص واستنتاج يغطيان نفس التفاصيل، بل إن النموذج نفسه قدم فقرة بعد ذلك ليخبرني بما كان التقرير عنه وما حققه.
كانت الجداول المقدمة غالبًا قليلة البيانات، وبعض أقسام التقرير قدمت بيانات غير مفيدة إلى حد كبير تفتقر إلى أي بيانات ملموسة، مثل، "يتطلب تحقيق شبكة متجددة بنسبة 100% تقدمًا كبيرًا في تخزين الطاقة (مثل البطاريات، والطاقة المائية المضخمة) ومرونة الشبكة." كانت هذه الجملة الوحيدة في قسم "دمج الشبكة وتخزين الطاقة" من التقرير، ولم تقدم حتى أي أرقام ملموسة. كان علي أن أذهب إلى المصدر بنفسي للبحث عن الأرقام، مما هزم الهدف من طلب الذكاء الاصطناعي للقيام بذلك من أجلي في المقام الأول.
علاوة على كل ذلك، كان التقرير يحتوي على المزيد من النقاط والقوائم أكثر من أي شيء آخر، وعلى الرغم من أنه استخدم مصادر موثوقة، إلا أن النموذج لم يتضمن سوى 8 منها، وهو أقل بكثير من جميع منافسيه. بشكل عام، كان أداء ميتا لاما مافريك 4 الأسوأ في هذا الاختبار في عدة مقاييس، وقد فوجئت بذلك، لأنه استغرق نفس الوقت لتجميع استجابته مثل جميع النماذج الأخرى. يمكن أن يكون الذكاء الاصطناعي من ميتا مفيدًا، لكن من الواضح أن هذا النوع من المهام ليس هو نقطة قوته.
شات GPT 4.1: بسيط وغير مرضي
بصراحة، فوجئت بمدى ضعف أداء شات GPT 4.1 في هذا الاختبار. هذا هو نموذج GPT الرائد، ومع ذلك كان التقرير النهائي حوالي 800 كلمة، تمامًا مثل مافريك من ميتا. بطريقة ما، ومع ذلك، قدم GPT 4.1 أداء أسوأ، حيث قدم لي تجربة بسيطة حقًا. كان اثنان من جداولها الأربعة يحتويان على صفين من البيانات أو أقل، مما قدم معلومات قليلة جدًا لدرجة أنه يمكن اعتبارها غير موجودة.
كان معظم التقرير عبارة عن قوائم نقاط مع بيانات عامة قليلة تدعمها. كان القسم الأكثر "تفصيلاً" في التقرير يحتوي على ثلاث نقاط فقط و70 كلمة من المعلومات. على الرغم من أن النموذج استخدم مصادر موثوقة مثل معهد أبحاث الاقتصاد السياسي وجامعة برينستون ووكالة حماية البيئة الأمريكية، إلا أنه قدم فقط المعلومات السطحية من أي من المقالات المذكورة، مما استدعى مني القيام بالبحث بنفسي للتوصل إلى أي معلومات مفيدة حقًا.
على الأقل، كانت المعلومات التي قدمها النموذج دقيقة، لكن في نهاية اليوم، كانت تفتقر إلى العمق المعنوي. كان هذا النموذج هو الأقل إرضاءً من بين النماذج التي تم اختبارها. ربما يكون Chat GPT أكثر ملاءمة لمهام أخرى.
على الرغم من التقدم الكبير الذي حققته الذكاء الاصطناعي في السنوات الأخيرة، إلا أنه لا يزال بعيدًا عن الكمال. لقد فوجئت عندما علمت أن Grok 3 كان الأفضل من بين جميع النماذج التي اختبرتها، على الرغم من أن Claude Opus 4 قد يكون قد حقق نتائج أفضل لو أنه تمكن من إنهاء المهمة الموكلة إليه. قد لا تكون هذه النماذج مناسبة لمشاريع البحث العميق، لكن أدائها هنا يعد مؤشراً على جودة مخرجاتها العامة وطريقة تدريبها، مما يؤثر على جميع المهام والطلبات الموكلة إليها.
مع ذلك، جعلت هذه التجربة شيئًا واضحًا؛ إذا كنت تبحث عن ذكاء اصطناعي يمكنه مساعدتك في مهام معقدة تتطلب تجميع معلومات دقيقة من جميع أنحاء الويب، فقد ترغب في النظر في نماذج الذكاء الاصطناعي التي تحتوي على أوضاع بحث عميق مخصصة أو قدرات تفكير معقدة أكثر تقدمًا.
التعليقات 0
سجل دخولك لإضافة تعليق
لا توجد تعليقات بعد. كن أول من يعلق!