بحث
اختبارات ChatGPT Health: تحليلات طبية خاطئة ومقلقة
الذكاء الاصطناعي #الذكاء_الاصطناعي #صحتك

اختبارات ChatGPT Health: تحليلات طبية خاطئة ومقلقة

تاريخ النشر: آخر تحديث: 17 مشاهدة 0 تعليق 2 دقائق قراءة
17 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

أطلقت شركة OpenAI في وقت سابق من هذا الشهر مساحة جديدة مخصصة للصحة داخل تطبيقها، مروجة لها كطريقة أكثر أماناً للمستخدمين لطرح أسئلة حول مواضيع حساسة مثل البيانات الطبية واللياقة البدنية. وكانت إحدى الميزات البارزة هي قدرة ChatGPT Health على تحليل البيانات من تطبيقات مثل Apple Health وMyFitnessPal وPeloton لكشف الاتجاهات طويلة المدى. ومع ذلك، يشير تقرير جديد إلى أن الشركة ربما بالغت في تقدير فعالية هذه الميزة في استخلاص رؤى موثوقة.

نتائج صادمة وتقييمات عشوائية

وفقاً لاختبارات مبكرة أجراها جيفري أ. فاولر من صحيفة "واشنطن بوست"، عندما مُنح ChatGPT Health حق الوصول إلى بيانات Apple Health الممتدة لعقد من الزمن، قام روبوت الدردشة بتقييم صحة قلب المراسل بتقدير "F" (راسب). ولكن بعد مراجعة هذا التقييم، وصف طبيب قلب النتيجة بأنها "لا أساس لها"، مؤكداً أن الخطر الفعلي لإصابة المراسل بأمراض القلب منخفض للغاية.

وقدم الدكتور إريك توبول من معهد سكريبس للأبحاث تقييماً صريحاً لقدرات ChatGPT Health، قائلاً إن الأداة ليست جاهزة لتقديم المشورة الطبية وتعتمد بشكل كبير جداً على مقاييس الساعات الذكية غير الموثوقة. اعتمد تقييم الذكاء الاصطناعي بشكل كبير على تقديرات ساعة آبل (Apple Watch) للحد الأقصى لاستهلاك الأكسجين (VO2 max) وتقلب معدل ضربات القلب، وكلاهما له قيود معروفة ويمكن أن يختلف بشكل كبير بين الأجهزة وإصدارات البرامج.

تناقض في التشخيص وتجاهل للبيانات

لم تتوقف المشاكل عند التشخيص الخاطئ فقط. فعندما طلب المراسل من ChatGPT Health تكرار نفس تمرين التقييم، تذبذبت النتيجة بين "F" و"B" عبر محادثات مختلفة. وفي بعض الأحيان، تجاهل روبوت الدردشة تقارير فحوصات الدم الحديثة التي كان بإمكانه الوصول إليها، بل ونسي أحياناً تفاصيل أساسية مثل عمر المراسل وجنسه.

ولم يكن المنافس أفضل حالاً، حيث أظهر نموذج Claude for Healthcare من شركة Anthropic، الذي ظهر أيضاً في وقت سابق من هذا الشهر، اتساقاً مماثلاً في النتائج غير الدقيقة، حيث قام بتعيين درجات تتراوح بين "C" و"B-" لنفس البيانات.

مخاطر الثقة المفرطة في الذكاء الاصطناعي

أكدت كل من OpenAI وAnthropic أن أدواتهما ليست مخصصة لتحل محل الأطباء وأنها توفر سياقاً عاماً فقط. ومع ذلك، قدم كلا النموذجين تقييمات واثقة وشخصية للغاية لصحة القلب والأوعية الدموية. هذا المزيج من "السلطة" في الطرح وعدم الاتساق في النتائج قد يخيف المستخدمين الأصحاء أو يطمئن بشكل خاطئ المستخدمين غير الأصحاء.

بينما قد يفتح الذكاء الاصطناعي في النهاية الباب أمام رؤى قيمة من البيانات الصحية طويلة المدى، تشير الاختبارات المبكرة إلى أن تغذية هذه الأدوات بسنوات من بيانات تتبع اللياقة البدنية يخلق حالياً ارتباكاً أكثر مما يوفر وضوحاً.

الأسئلة الشائعة

أظهرت الاختبارات المبكرة عدم دقة كبيرة، حيث اعتمدت على مقاييس غير موثوقة من الساعات الذكية وقدمت تقييمات متناقضة.

يمكنه تحليل البيانات من تطبيقات مثل Apple Health وMyFitnessPal وPeloton لاستخراج الاتجاهات الصحية.

لا، تؤكد الشركات المطورة أن هذه الأدوات توفر سياقاً عاماً فقط ولا تستبدل الاستشارة الطبية المتخصصة.

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!