“تقدم برامج LLM الحالية أخطاء كبيرة عند تحرير أوراق العمل”: وجد باحثو Microsoft أن معظم نماذج الذكاء الاصطناعي تعاني من المهام الطويلة الأمد – لذلك ربما لا تثق بها تمامًا بعد

بواسطةمحمد نورآخر تحديث13 مايو 2026 - 10:32ص

قرر باحثو مايكروسوفت أن درجات LLM الحالية ليست جيدة للمهام طويلة المدى
المزيد من التفاعلات والبنية الأقل تقلل بشكل كبير من الأداء المعياري
“بايثون هو المجال الوحيد الذي تكون فيه معظم النماذج جاهزة”

جديد الاختبارات اكتشف ثلاثة من موظفي Microsoft مشكلة أساسية قد تعيق الذكاء الاصطناعي الفعال القائم على الوكيل، وهي أن معظم نماذج الذكاء الاصطناعي لا يمكنها في الواقع دعم سير العمل طويل الأمد بشكل موثوق.
ولتحديد النتائج التي توصلوا إليها، قدم الباحثون معيار DELEGATE-52 الجديد، والذي يوفر مقاييس لـ 52 قطاعًا بما في ذلك البرمجة والمحاسبة والعلوم والمزيد.

اقرأ أيضاً

تقنية

جو 24 : ما وراء الكيوبت.. ثورة المعالجات الكمية ترسم مستقبل الحوسبة الفائقة

في النهاية، خلص المقال إلى أن برامج LLM الحالية “تقدم أخطاء نادرة ولكنها خطيرة تؤدي إلى إفساد المستندات بصمت، وتصبح أكثر خطورة على مدار فترات طويلة من التفاعل.”

أحدث الفيديوهات من

قد يعجبك هذا

شاهد أيضاً

تقنية

يمكن لجهاز Samsung Galaxy S26 Ultra التقاط صور أفضل بمجرد تغيير بعض الإعدادات

الذكاء الاصطناعي ليس جيدًا بعد في المهام طويلة الأمد

وتغطي الدراسة بعضًا من أحدث نماذج الذكاء الاصطناعي، بما في ذلك Gemini 3.1 Pro وClaude 4.6 Opus وGPT-5.4. حتى أن هذه النماذج قد “تفسد ما متوسطه 25% من محتوى المستند في نهاية عمليات سير العمل الطويلة”، مع كون النماذج الأصغر أكثر عرضة للأخطاء.
يستخدم معيار DELEGATE-52 مستندات حقيقية تحتوي على حوالي 15000 كلمة. الرموز المميزة وقدمت من 5 إلى 10 مهام تحرير معقدة باستخدام “محاكاة التتابع ذهابًا وإيابًا” التي تطلب من الذكاء الاصطناعي إجراء تحويل ثم عكسه. يتيح ذلك للباحثين قياس مدى فعالية كل نموذج في إعادة بناء المستندات إلى شكلها الأصلي.
كان أداء النماذج أفضل في المجالات شديدة التنظيم والقابلة للبرمجة، وخلص باحثو مايكروسوفت إلى أن “بايثون هو المجال الوحيد الذي تكون فيه معظم النماذج جاهزة.” من ناحية أخرى، في سير عمل اللغة الطبيعية، والمجالات الإبداعية، والمستندات شبه المنظمة، واجه المصممون صعوبات.
توضح المقالة أيضًا أنه كلما زاد طول الرمز المميز، زاد احتمال حدوث مشكلات في نموذج الذكاء الاصطناعي.

قد يهمك

تقنية

5 ميزات في iOS 27 لا تزال غير متوفرة في أندرويد “حتى الآن”…

لم تختلف النماذج الحدودية في قدرتها على إزالة الأخطاء، بل في قدرتها على تأخير الأخطاء فقط. بعض النماذج الأخرى التي اختبرها باحثو مايكروسوفت تضمنت عدة أجيال من GPT-5 وGPT-4 وخيارات Claude ونماذج Gemini وواحد من كل من Mistral وxAI وMoonshot – بإجمالي 19 نموذجًا مختلفًا من ست عائلات.
حصل Gemini 3.1 Pro على المركز الأول بنتيجة 80.9% على مقياس DELEGATE-52 بعد 20 تفاعل؛ كلود 4.6 Opus (73.1%) وGPT-5.4 (71.5%) يكملان المراكز الثلاثة الأولى، مع GPT 5 Nano (10.0%) في المركز الأخير.
باختصار، يخلص المقال إلى أن نماذج الذكاء الاصطناعي الحالية ليست قوية بما يكفي ليتم الوثوق بها في سير العمل المستقل على المدى الطويل، مما يسلط الضوء على المجالات الرئيسية التي يحتاج مصممو النماذج إلى التركيز عليها في المستقبل ويقدم معيارًا آخر لتحديد قدرات النموذج.
بواسطة يسجل

اتبع TechRadar على أخبار جوجل و أضفنا كمصدرك المفضل لتلقي أخبار ومراجعات وآراء الخبراء حول قنواتك.

كاتب المقال

محمد نور

صحفي متخصص في الشأن السعودي أكتب من 15 سنة وأعمل بالعديد من المواقع في جميع المجالات وانقل الأخبار بحيادية تامة وأفضل الكتابة في الموضوعات الإخبارية سواء علي المستوي المحلي أو العالمي واعشق السفر والتنقل والسيارات وأحب الإطلاع على كل جديد

21٬277 مادة منشورة

عرض صفحة الكاتب

اخبار السعودية

الأوقية عند 4021 دولارا وتراجع أسعار الذهب في مصر

آخر تحديث30 يونيو 2026 - 1:51صفياخبار السعودية

هبوط متواصل يضغط على الذهب اليوم الاثنين 29 يونيو، الأوقية سجلت 4021 دولارا وسط توقعات استمرار تشديد السياسة النقدية الأمريكية وتراجع الطلب كملاذ آمن مع تطورات المشهد الجيوسياسي.المعدن الأصفر يتجه…

آخر تحديث30 يونيو 2026 - 1:51صفياخبار السعودية
رياضة

مدرب سلة جامعة جونزاجا يهدى قميص فريقه للتوأم فى أمريكا.. صور

آخر تحديث30 يونيو 2026 - 1:50صفيرياضة

أهدى مارك فيو مدرب فريق كرة السلة بجامعة جونزاجا، قميص الفريق، إلى حسام حسن المدير الفني لمنتخب مصر الأول، وإبراهيم حسن مدير الكرة. للمزيد من أخبار كأس العالم 2026 اضغط…

آخر تحديث30 يونيو 2026 - 1:50صفيرياضة
رياضة

موعد مباراة كوت ديفوار والنرويج في دور الـ 32 من كأس العالم

آخر تحديث30 يونيو 2026 - 1:49صفيرياضة

مباراة كوت ديفوار والنرويج تمثل ذروة الإثارة في منافسات دور الـ32 ضمن بطولة كأس العالم 2026 التي تحتضنها ملاعب الولايات المتحدة وكندا والمكسيك، حيث يتأهب عشاق الساحرة المستديرة لمتابعة مواجهة…

آخر تحديث30 يونيو 2026 - 1:49صفيرياضة
تقنية

يقول Valve الآن أن Steam Machine تدعم دقة “تصل إلى” 4K

آخر تحديث30 يونيو 2026 - 1:42صفيتقنية

منذ الإعلان عن سعر جهاز Steam Machine وتاريخ إصداره يوم الاثنين، كان هناك الكثير من النقاش حول إمكانيات جهاز كمبيوتر صغير. وعلى ما يبدو ردًا على الخطاب، قام Valve بالتحديث…

آخر تحديث30 يونيو 2026 - 1:42صفيتقنية
اخبار

لقاح «كوفيد-19» الحديث يخفّض مخاطر القلب لدى المسنين

آخر تحديث30 يونيو 2026 - 1:40صفياخبار

كشفت دراسة أميركية جديدة واسعة النطاق، نُشرت في دورية «JAMA Internal Medicine» وشملت أكثر من مليون من قدامى المحاربين في الولايات المتحدة، أن كبار السن الذين تلقوا لقاح كوفيد-19 الحديث…

آخر تحديث30 يونيو 2026 - 1:40صفياخبار
اخبار السعودية

الأهلي ينهي عقد رياض محرز بعد تفعيل البند وسداد 15 مليون يورو

آخر تحديث30 يونيو 2026 - 1:34صفياخبار السعودية

قرار حاسم من الأهلي، تفعيل بند إنهاء عقد رياض محرز بعد استيفاء المتطلبات التعاقدية.أتمت إدارة النادي الأهلي جميع الإجراءات النظامية الخاصة بإنهاء عقد لاعب الفريق الجزائري رياض محرز، وذلك عقب…

آخر تحديث30 يونيو 2026 - 1:34صفياخبار السعودية
رياضة

القنوات الناقلة لمواجهة إنجلترا والكونغو الديمقراطية في دور الـ 32 من المونديال

آخر تحديث30 يونيو 2026 - 1:33صفيرياضة

مباراة إنجلترا والكونغو الديمقراطية في دور الـ 32 من منافسات كأس العالم 2026 تمثل محطة حاسمة، حيث تتجه الأنظار إلى ملعب أتلانتا لمتابعة هذا الصدام المرتقب، والذي يأتي في توقيت…

آخر تحديث30 يونيو 2026 - 1:33صفيرياضة
رياضة

موعد والقنوات الناقلة لمباراة فرنسا والسويد اليوم في كأس العالم.. والمعلقين

آخر تحديث30 يونيو 2026 - 1:32صفيرياضة

يخوض منتخب فرنسا بقيادة مديره الفني ديديه ديشامب، مباراة جديدة في منافسات بطولة كأس العالم لكرة القدم للرجال، نسخة 2026، مساء اليوم الثلاثاء، أمام منتخب السويد. وتأتي مباراة فرنسا والسويد،…

آخر تحديث30 يونيو 2026 - 1:32صفيرياضة