وجدت دراسة أجرتها جامعة ستانفورد أن برنامج الدردشة الآلي الشهير ChatGPT الذي أنشأته شركة OpenAI يزداد سوءًا في حل المعادلات الرياضية، وواجه برنامج chatbot تقلبات كبيرة في الأداء في مهام معينة بين مارس ويونيو.
وقارن البحث نسختين من التكنولوجيا - GPT-3.5 وGPT-4، مع التركيز على مهام مثل حل مسائل الرياضيات ، والإجابة على الأسئلة الحساسة ، وإنشاء كود برمجي، والتفكير المرئي.
وفقًا لتقرير Fortune، كشفت الدراسة عن ظاهرة تسمى "الانجراف" ، حيث تغيرت قدرة التكنولوجيا على أداء مهام محددة بشكل غير متوقع بمرور الوقت.
وفي حالة قدرة حل المشكلات الرياضية في GPT-4 انخفضت دقتها بشكل كبير من 97.6 % في مارس إلى 2.4 % فقط في يونيو. وفقًا للنتائج ، أظهر نموذج GPT-3.5 مسارًا معاكسًا ، حيث تحسن من دقة 7.4 % في مارس إلى 86.8 % في يونيو في نفس المهمة .
لوحظت تقلبات مماثلة عندما طُلب من النماذج كتابة التعليمات البرمجية وإجراء اختبارات الاستدلال البصري، وأعرب أستاذ علوم الكمبيوتر في جامعة ستانفورد ، جيمس زو ، أحد مؤلفي الدراسة ، عن دهشته من حجم التغيير، بالنظر إلى تطور ChatGPT.
وقال Zou في مقابلة مع Fortune: "عندما نقوم بضبط نموذج لغوي كبير لتحسين أدائه في مهام معينة ، يمكن أن يكون لذلك في الواقع الكثير من النتائج غير المقصودة ، والتي قد تضر في الواقع بأداء هذا النموذج في مهام أخرى". "هناك كل أنواع الترابطات المثيرة للاهتمام في كيفية استجابة النموذج للأشياء التي يمكن أن تؤدي إلى بعض السلوكيات المتدهورة التي لاحظناها." رداً على القدرات الرياضية المتدهورة في ChatGPT، علق أحد مستخدمي Reddit قائلاً إن الغباء مع تقدم العمر هو أكثر الأشياء التي يمكن أن يفعلها الإنسان.
لم يكن التناقض في النتائج بسبب عدم دقة النموذج في مهام محددة. بدلاً من ذلك، حدث ذلك لأنهم عندما حاولوا تحسين النموذج في بعض المهام ، كان له تأثيرات غير مقصودة على أجزاء أخرى من النموذج ، مما تسبب في سلوكيات غير متوقعة.
وتكشف النتائج أن هذه النماذج يمكن أن تخضع لتغييرات بمرور الوقت، والتي يشار إليها باسم "الانجرافات". تتسبب هذه الانجرافات في أداء النماذج بشكل مختلف في المهام المختلفة.
ولضمان استمرار هذه النماذج اللغوية في العمل بفعالية ، تؤكد الدراسة على أهمية مراقبة أدائها بانتظام من خلال القيام بذلك ، يمكن تحديد أي مشاكل أو مشكلات تنشأ بسبب هذه الانجرافات ومعالجتها على الفور، مع الحفاظ على الأداء الأمثل للنماذج.
وتلقي دراسة جامعة ستانفورد الضوء على التحديات التي تطرحها الانجرافات في نماذج لغة الذكاء الاصطناعي مثل ChatGPT ويسلط البحث الضوء على الحاجة إلى مزيد من التحقيق والشفافية لضمان الأداء المتسق والموثوق لهذه الأنظمة في المهام المختلفة.