“تقدم برامج LLM الحالية أخطاء كبيرة عند تحرير أوراق العمل”: وجد باحثو Microsoft أن معظم نماذج الذكاء الاصطناعي تعاني من المهام الطويلة الأمد – لذلك ربما لا تثق بها تمامًا بعد

قرر باحثو مايكروسوفت أن درجات LLM الحالية ليست جيدة للمهام طويلة المدى
المزيد من التفاعلات والبنية الأقل تقلل بشكل كبير من الأداء المعياري
“بايثون هو المجال الوحيد الذي تكون فيه معظم النماذج جاهزة”

جديد الاختبارات اكتشف ثلاثة من موظفي Microsoft مشكلة أساسية قد تعيق الذكاء الاصطناعي الفعال القائم على الوكيل، وهي أن معظم نماذج الذكاء الاصطناعي لا يمكنها في الواقع دعم سير العمل طويل الأمد بشكل موثوق.
ولتحديد النتائج التي توصلوا إليها، قدم الباحثون معيار DELEGATE-52 الجديد، والذي يوفر مقاييس لـ 52 قطاعًا بما في ذلك البرمجة والمحاسبة والعلوم والمزيد.

اقرأ أيضاً
استعراض أسلوب لعب 007 First Light على PS5 Pro لأول مرة

استعراض أسلوب لعب 007 First Light على PS5 Pro لأول مرة

في النهاية، خلص المقال إلى أن برامج LLM الحالية “تقدم أخطاء نادرة ولكنها خطيرة تؤدي إلى إفساد المستندات بصمت، وتصبح أكثر خطورة على مدار فترات طويلة من التفاعل.”

أحدث الفيديوهات من

قد يعجبك هذا

شاهد أيضاً
الهواتف الرائدة بأسعار معقولة تتصدر خيارات المستهلكين في 2026

الهواتف الرائدة بأسعار معقولة تتصدر خيارات المستهلكين في 2026

الذكاء الاصطناعي ليس جيدًا بعد في المهام طويلة الأمد

وتغطي الدراسة بعضًا من أحدث نماذج الذكاء الاصطناعي، بما في ذلك Gemini 3.1 Pro وClaude 4.6 Opus وGPT-5.4. حتى أن هذه النماذج قد “تفسد ما متوسطه 25% من محتوى المستند في نهاية عمليات سير العمل الطويلة”، مع كون النماذج الأصغر أكثر عرضة للأخطاء.
يستخدم معيار DELEGATE-52 مستندات حقيقية تحتوي على حوالي 15000 كلمة. الرموز المميزة وقدمت من 5 إلى 10 مهام تحرير معقدة باستخدام “محاكاة التتابع ذهابًا وإيابًا” التي تطلب من الذكاء الاصطناعي إجراء تحويل ثم عكسه. يتيح ذلك للباحثين قياس مدى فعالية كل نموذج في إعادة بناء المستندات إلى شكلها الأصلي.
كان أداء النماذج أفضل في المجالات شديدة التنظيم والقابلة للبرمجة، وخلص باحثو مايكروسوفت إلى أن “بايثون هو المجال الوحيد الذي تكون فيه معظم النماذج جاهزة.” من ناحية أخرى، في سير عمل اللغة الطبيعية، والمجالات الإبداعية، والمستندات شبه المنظمة، واجه المصممون صعوبات.
توضح المقالة أيضًا أنه كلما زاد طول الرمز المميز، زاد احتمال حدوث مشكلات في نموذج الذكاء الاصطناعي.

قد يهمك
جوجل تكشف عن أجهزة لابتوب Googlebook مدعومة بالذكاء الاصطناعي Gemini بواسطة Investing.com

جوجل تكشف عن أجهزة لابتوب Googlebook مدعومة بالذكاء الاصطناعي Gemini بواسطة Investing.com

لم تختلف النماذج الحدودية في قدرتها على إزالة الأخطاء، بل في قدرتها على تأخير الأخطاء فقط. بعض النماذج الأخرى التي اختبرها باحثو مايكروسوفت تضمنت عدة أجيال من GPT-5 وGPT-4 وخيارات Claude ونماذج Gemini وواحد من كل من Mistral وxAI وMoonshot – بإجمالي 19 نموذجًا مختلفًا من ست عائلات.
حصل Gemini 3.1 Pro على المركز الأول بنتيجة 80.9% على مقياس DELEGATE-52 بعد 20 تفاعل؛ كلود 4.6 Opus (73.1%) وGPT-5.4 (71.5%) يكملان المراكز الثلاثة الأولى، مع GPT 5 Nano (10.0%) في المركز الأخير.
باختصار، يخلص المقال إلى أن نماذج الذكاء الاصطناعي الحالية ليست قوية بما يكفي ليتم الوثوق بها في سير العمل المستقل على المدى الطويل، مما يسلط الضوء على المجالات الرئيسية التي يحتاج مصممو النماذج إلى التركيز عليها في المستقبل ويقدم معيارًا آخر لتحديد قدرات النموذج.
بواسطة يسجل

اتبع TechRadar على أخبار جوجل و أضفنا كمصدرك المفضل لتلقي أخبار ومراجعات وآراء الخبراء حول قنواتك.

كاتب المقال

صحفي متخصص في الشأن السعودي أكتب من 15 سنة وأعمل بالعديد من المواقع في جميع المجالات وانقل الأخبار بحيادية تامة وأفضل الكتابة في الموضوعات الإخبارية سواء علي المستوي المحلي أو العالمي واعشق السفر والتنقل والسيارات وأحب الإطلاع على كل جديد