بحث
توقع الأحداث المستقبلية: تقييم وكالات الذكاء الاصطناعي
الذكاء الاصطناعي #توقع_الأحداث_المستقبلية #الذكاء_الاصطناعي

توقع الأحداث المستقبلية: تقييم وكالات الذكاء الاصطناعي

تاريخ النشر: آخر تحديث: 16 مشاهدة 0 تعليق 8 دقائق قراءة
16 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

المستقبل هو محور حديثنا اليوم، حيث نناقش موضوعًا مثيرًا حول تقييم وكالات الذكاء الاصطناعي في توقع الأحداث المستقبلية. في عالم يتسم بالتغير السريع، يصبح من الضروري أن نتمكن من استخدام المعرفة السابقة للتنبؤ بما سيحدث لاحقًا.

تعتبر مهمة توقع الأحداث المستقبلية مهمة معقدة وشاملة، تتطلب تفكيرًا متقدمًا وقدرة على دمج المعلومات وتقييم الاحتمالات. بدلاً من مجرد استرجاع المعلومات القديمة، يجب على الذكاء الاصطناعي أن يستخدم ما يعرفه ليقوم بتوقعات موثوقة.

تتجاوز أهمية هذا النهج التنبؤي مجرد كونه تحديًا تقنيًا؛ فهو يعالج العديد من المشكلات المنهجية التي تواجه التقييمات الحالية. فالمعايير التقليدية التي تقيس الدقة على مجموعات اختبار ثابتة تتأثر بالبيانات الملوثة، مما يجعل من الصعب الوثوق بالنتائج.

من خلال التركيز على التنبؤ، يصبح التلوث مستحيلاً من حيث التصميم، حيث لا يمكن تدريب النموذج على بيانات غير موجودة بعد! وهذا يخلق ساحة لعب متكافئة حيث يعتمد النجاح على القدرة على التفكير بدلاً من الحفظ.

الأهم من ذلك، أن التنبؤات المتعلقة بالمستقبل هي قابلة للتحقق بشكل جوهري. يمكننا الانتظار لنرى من كان محقًا، مما يخلق مقياسًا موضوعيًا لقياس أداء النموذج.

لذا، نقترح تقييم الوكالات بناءً على قدرتها على توقع الأحداث المستقبلية. يهدف FutureBench إلى استغلال أسواق التنبؤ الحقيقية والأخبار الناشئة لإنشاء مهام تنبؤية مثيرة تستند إلى نتائج مستقبلية فعلية.

هل يمكن للوكالات توقع الأحداث المستقبلية؟

هذا هو السؤال الواضح، وهو جوهر ما يجعل هذا المعيار مثيرًا! نعتقد أن الإجابة لا يمكن أن تكون بسيطة "نعم" أو "لا"، حيث تعتمد بشكل كبير على الأسئلة المطروحة. البشر يستخدمون باستمرار قدرتهم على تقييم المعلومات الحالية لتوقع الأحداث المستقبلية.

يتضمن بعض التنبؤات عدم اليقين القابل للتقليص، ولكن العديد منها لا يتضمن ذلك. عندما يتوقع محلل ماهر أرباح شركة ما أو يتنبأ خبير سياسي بنتائج الانتخابات، فإنهم يستخدمون المعلومات المتاحة لاتخاذ قرارات مستنيرة. وهذا بالضبط ما نطلب من وكالات الذكاء الاصطناعي القيام به مع FutureBench!

جودة توقعات الوكالة تعكس مباشرة قدرتها على البحث عن المعلومات ذات الصلة، ودمج البيانات المعقدة، والتفكير في علاقات السبب والنتيجة. هذه هي القدرات التي نرغب في قياسها في التطبيقات الواقعية.

FutureBench

يتطلب بناء معيار يختبر القدرات التنبؤية الحقيقية تدفقًا مستمرًا من الأسئلة المعنوية. لقد طورنا نهجين تكميليين يلتقطان أنواعًا مختلفة من الأحداث المستقبلية:

1. أسئلة مستندة إلى الأخبار: العثور على عناوين الغد اليوم

يستخدم نهجنا الأول الذكاء الاصطناعي لاستخراج الفرص التنبؤية من الأحداث الحالية. نقوم بنشر وكيل يعتمد على smolagents لجمع المعلومات من بعض المواقع الإخبارية الرئيسية، وتحليل المقالات الرئيسية، وتوليد أسئلة تنبؤية حول النتائج المحتملة.

نوجه هذه العملية من خلال مطالبات مصممة بعناية تحدد ما يجعل السؤال التنبؤي جيدًا—أحداث ذات معنى، قابلة للتحقق، وغير مؤكدة.

التقنية المستخدمة:

  • النموذج: DeepSeek-V3 للتفكير وتوليد الأسئلة
  • جمع المعلومات: Firecrawl لاستخراج المحتوى بشكل موثوق
  • البحث: Tavily للحصول على سياق إضافي عند الحاجة

عادةً ما ينتج الوكيل 5 أسئلة لكل جلسة جمع معلومات، مع أفق زمني يمتد لأسبوع واحد، مما يعني أننا نفترض أننا سنعرف إجابة السؤال بعد سبعة أيام. وهذا يوفر لنا تدفقًا طبيعيًا من مواد التقييم الجديدة المرتبطة بالأحداث الواقعية.

2. دمج Polymarket: الاستفادة من أسواق التنبؤ

مصدرنا الثاني يأتي من Polymarket. هذه الأسئلة تأتي من منصة سوق التنبؤ حيث يقوم المشاركون الحقيقيون بعمل توقعات حول الأحداث المستقبلية. نحن نستقبل حاليًا حوالي 8 أسئلة في الأسبوع.

ومع ذلك، تحتاج البيانات الخام إلى تصفية. نقوم بتطبيق تصفية قوية لإزالة الأسئلة العامة المتعلقة بالطقس وبعض الأسئلة المتعلقة بأسواق الأسهم والعملات المشفرة، والتي ستكون كثيرة جدًا للاستخدام العملي في معيارنا. بالإضافة إلى ذلك، فإن أسئلة Polymarket تحتوي على قيود أقل بشأن الوقت النهائي "لتحقيق" النتيجة، حيث قد تكون النتيجة الفعلية متاحة فقط في الشهر المقبل أو بنهاية العام.

أمثلة على الأسئلة

إليك مثال على ما يخرج من عملية توليد الأسئلة لدينا:

مستندة إلى الأخبارPolymarket
"هل ستقوم الاحتياطي الفيدرالي بخفض أسعار الفائدة بنسبة 0.25% على الأقل بحلول 1 يوليو 2025؟""هل ستزداد التضخم الشهري بنسبة 0.2% في يونيو؟"
"هل ستعقد أوكرانيا وروسيا مفاوضات سلام بحلول 8 يوليو 2025؟""هل ستكون نسبة فوز زوهرا مامداني أكبر من 13% في الانتخابات التمهيدية للحزب الديمقراطي في نيويورك؟"

Future Bench: ثلاثة مستويات من التقييم المنهجي

السؤال التالي هو، ماذا يسمح لنا هذا النوع من المعايير بقياسه؟ يعمل الإطار على ثلاثة مستويات متميزة، مما يتيح لنا عزل ما نقيسه بالضبط:

  • المستوى 1: مقارنة الأطر حافظ على ثبات نماذج اللغة الأساسية والأدوات مع تغيير الأطر. كيف يقارن وكيل قائم على LangChain مع واحد مبني باستخدام CrewAI عند استخدام كلاهما لـ GPT-4 وأدوات البحث نفسها؟ هذا يعزل تأثير الأطر الوكيلة المختلفة.

  • المستوى 2: أداء الأدوات ثبّت نموذج اللغة والإطار أثناء مقارنة تنفيذات مختلفة. أي أداة بحث (مثل Tavily، Google، Bing) تؤدي إلى توقعات أفضل من غيرها، مع ثبات جميع العوامل الأخرى؟ هذا يكشف عن الأدوات التي توفر قيمة حقيقية. ما مقدار القيمة التي تقدمها الأدوات بشكل عام مقارنة بالنماذج بدون أدوات؟

  • المستوى 3: قدرات النموذج حافظ على ثبات الإطار والأدوات أثناء اختبار نماذج لغة مختلفة. مع الوصول إلى نفس مجموعة الأدوات، هل يستخدم DeepSeek-V3 هذه الأدوات بفعالية مثل GPT-4؟ هذا يقيس القدرة على التفكير الخالص. تتيح لنا هذه الطريقة المنهجية فهم مكان حدوث مكاسب وخسائر الأداء بالضبط في سلسلة الوكلاء.

تعمل المعايير أيضًا كاختبار قوي لاتباع التعليمات. يجب على الوكلاء احترام متطلبات التنسيق المحددة وتوليد إجراءات يمكن تحليلها وتنفيذها بشكل صحيح. في الممارسة العملية، يكشف هذا غالبًا عن الأماكن التي تكافح فيها نماذج اللغة الأصغر مع التفكير المعقد متعدد الخطوات.

🚀 جربها بنفسك! استكشف لوحة المتصدرين الحية: FutureBench Interactive Leaderboard

توقع المستقبل: الوكلاء والنتائج الأولية

نستخدم SmolAgents كإطار عمل وكيل أساسي لجميع الأسئلة. نقوم أيضًا بحساب الأداء على النماذج الأساسية. بالنسبة لمهمة التوقع نفسها، يحصل الوكلاء على مجموعة أدوات مركزة:

  • البحث: تكامل Tavily للعثور على معلومات حديثة وتحليلات من خبراء
  • أداة تجريف الويب: أداة بسيطة لتجريف الويب لمتابعة مصادر محددة والحصول على سياق تفصيلي.

تجبر هذه الإعدادة المتعمدة الوكلاء على أن يكونوا استراتيجيين بشأن جمع المعلومات، مع توفير الأدوات اللازمة للتوقعات المستنيرة.

النتائج الأولية

نقارن بين نماذج مختلفة باستخدام SmolAgents كمرجع (يمكنك العثور على لوحة المتصدرين في مساحة HF الخاصة بنا). نقوم أيضًا بتشغيل نماذج اللغة القياسية بدون وصول إلى الإنترنت لتقدير سابقة عامة. كما هو متوقع، نرى أن النماذج الوكيلة تؤدي بشكل أفضل من نماذج اللغة البسيطة؛ حيث تُظهر النماذج الأقوى جودة توقعات أكثر استقرارًا. بشكل عام، نجد أيضًا أنماطًا مثيرة للاهتمام في كيفية اقتراب نماذج مختلفة من سؤال معين:

أنماط العمل المثيرة للاهتمام

أظهر تشغيل هذه المعايير رؤى حول كيفية اقتراب نماذج مختلفة من جمع المعلومات. إحدى الفروقات الملحوظة كانت فيما يتعلق بالتجريف. GPT-4.1 يبدو أنه يعتمد بشكل أكبر على نتائج البحث. بينما Claude3.7 و4 يستكشفان الفضاء الإلكتروني بتفصيل أكبر ويميلان إلى استخدام تجريف الويب بشكل متكرر؛ مما يعني جمع المزيد من الرموز المدخلة خلال عملية البحث، وبالتالي زيادة التكلفة.

تظهر النماذج أساليب مثيرة للاهتمام في صنع التوقعات، على سبيل المثال، للإجابة على السؤال "هل ستزداد التضخم السنوي بنسبة 2.6 أو أكثر في يونيو؟":

  • حلل وكيل DeepSeekV3 آفاق التضخم في يونيو 2025 من خلال البحث عن بيانات CPI الحديثة (مكتشفًا التضخم الحالي عند 2.4-2.8%)، واعتبر تأثيرات التعريفات كضغط تصاعدي، واستنتج أن التضخم سيتجاوز عتبة 2.6%.

  • حلل Claude3.7 التضخم في يونيو 2025 من خلال بحث شامل (11 بحثًا مقابل 3 لـ DeepSeekV3)، وجمع بيانات CPI لشهر مايو 2025 (2.4% على أساس سنوي)، وحدد الاتجاهات الشهرية المتباطئة (0.2%→0.1%)، ووازن ضغوط التعريفات مقابل سياسة الاحتياطي الفيدرالي التقييدية، وحسب الفجوة الدقيقة المطلوبة بنسبة 0.2%، واستنتج أن التباطؤ الأخير جعل الوصول إلى عتبة 2.6% غير محتمل، مما أجاب بـ "لا".

  • حلل GPT4.1 التضخم في يونيو 2025 من خلال بحث مستهدف عن توافق السوق والتوقعات، وحدد CPI لشهر مايو 2025 عند 2.4% (أقل من توقعات 2.5%)، ولاحظ زيادات شهرية ضعيفة بنسبة 0.1%، ولم يجد أي توقعات من المحللين بخصوص 2.6%+ لشهر يونيو، واستنتج أن القفزة من 2.4% إلى 2.6% كانت غير محتملة بالنظر إلى الاتجاهات الأخيرة التي كانت دون التوقعات.

من المثير للاهتمام أن Claude كان النموذج الوحيد الذي حاول الوصول إلى موقع مكتب إحصاءات العمل للتجريف مباشرة، وهو ما فشل بسبب كونه موقعًا حكوميًا (.gov) ولا نسمح بهذا النوع من الإجراءات.

تظهر النماذج أنماط تفكير مميزة في مخرجاتها. ركز تحليل GPT على توقعات الإجماع كإشارة رئيسية للأحداث المستقبلية بدلاً من الاستنتاج من البيانات الحالية، بينما أظهر نهج Claude هيكلًا تحليليًا صارمًا مع إطار عمل منهجي للمؤيدين والمعارضين وتحليل الفجوة الكمية، وعرضت مخرجات DeepSeekV3 اعترافًا صريحًا بحدود البيانات وتعديلات منهجية عندما واجهت الأساليب الأولية قيودًا.

تكشف هذه الاختلافات السلوكية عن أنماط مثيرة للاهتمام في كيفية اقتراب نماذج مختلفة من جمع المعلومات. تشير الاختلافات في استخدام الويب واستهلاك الرموز إلى أن النماذج لديها استراتيجيات مميزة للتعامل مع مهام التوقع، وهو ما يمكن أن يساعد FutureBench في قياسه وفهمه.

القيود والاتجاهات المستقبلية

تتمثل إحدى التحديات في أن التقييم يمكن أن يكون مكلفًا بسبب العدد الكبير من الرموز المدخلة. على سبيل المثال، يميل Claude إلى زيارة صفحات الويب بشكل متكرر، مما يؤدي إلى تراكم العديد من الرموز المدخلة. في حلقة متعددة الأدوار، يمكن أن يجعل ذلك عدد الرموز المدخلة يرتفع بسرعة كبيرة. وهذا يزيد من تكلفة أي توليد لاحق، على الرغم من أن معظم الرموز يتم تخزينها مؤقتًا في النهاية.

FutureBench هو معيار متطور، حيث سنستمر في دمج النتائج الجديدة والأنماط الأفضل كلما اكتشفناها. نود الحصول على تعليقات من المجتمع لفهم كيفية تحسين مصادر الأسئلة، والتجارب التي يجب إجراؤها، وأي البيانات هي الأكثر إثارة للاهتمام للتحليل.

المراجع

Singh, S., Nan, Y., Wang, A., D'souza, D., Kapoor, S., Ustun, A., Koyejo, S., Deng, Y., Longpre, S., Smith, N., Ermiş, B.H., Fadaee, M., & Hooker, S. (2025). The Leaderboard Illusion. ArXiv, abs/2504.20879.

Karger, E., Bastani, H., Yueh-Han, C., Jacobs, Z., Halawi, D., Zhang, F., & Tetlock, P.E. (2025). ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities. ICLR.

Ye, C., Hu, Z., Deng, Y., Huang, Z., Ma, M.D., Zhu, Y., & Wang, W. (2024). MIRAI: Evaluating LLM Agents for Event Forecasting. ArXiv, abs/2407.01231.

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!