تواجه نماذج الذكاء الاصطناعي الجديدة مثل o3 وo4-mini من OpenAI تحديات ملحوظة، تتمثل في ارتفاع معدلات “الهلاوس” أو تقديم معلومات مختلقة مقارنة بإصدارات سابقة. هذه النماذج، رغم تفوقها في مجالات منطقية وتحليلية مثل حل المشكلات الرياضية وكتابة الأكواد البرمجية، إلا أنها تظهر أداء متذبذبًا يشير إلى الحاجة الملحة لتحسين مستويات الدقة والمصداقية.
تحديات الهلاوس في النماذج الجديدة من OpenAI
الهلاوس تمثل عقبة كبيرة تواجه مجال الذكاء الاصطناعي، حيث تعني تزويد المستخدم بمعلومات غير حقيقية بشكل يبدو منطقيًا تمامًا، وهو ما لاحظه المستخدمون والباحثون في نموذجَي o3 وo4-mini. وفقًا لتقارير OpenAI الداخلية، سجل نموذج o3 نسبة هلاوس بلغت 33% عند اختباره في معيار “PersonQA” الذي يقيس دقة معرفة النموذج بالمعلومات عن الأشخاص، بينما وصل معدل الهلاوس في o4-mini إلى 48%. مقارنة بالنماذج القديمة مثل o1 وo3-mini، فإن هذا الارتفاع مثير للقلق، خاصة عندما يتعلق الأمر باستخدام الذكاء الاصطناعي في تطبيقات ذات حساسية مثل الطب أو القانون.
نتائج الاختبارات والتحديات الرئيسية
أظهرت النماذج الجديدة أداءً جيدًا في بعض المهام التي تتطلب تحليلاً معقدًا، مثل كتابة الشيفرات البرمجية، مما يجعلها منافسًا قويًا في السوق. لكن، في نفس الوقت، تسببت الهفوات التي تقدمها على شكل معلومات مختلقة في سؤال حول مدى إمكانية الاعتماد عليها. على سبيل المثال، وفقًا للباحثين في Transluce، اخترع نموذج o3 خطوات وهمية مثل “تشغيل كود على جهاز ماك بوك برو” رغم عدم توفر تلك الإمكانية تقنيًا. كما كشف كيان كتانفوروش من جامعة ستانفورد أن النماذج الجديدة تتفوق في الكفاءة، لكنها تعاني من توليد روابط غير موجودة، ما يؤثر سلبًا على الموثوقية.
حلول مقترحة وتقنيات مستقبلية
إحدى الحلول التي يمكن أن تحد من مشكلة الهلاوس هي تمكين النماذج من الوصول إلى الإنترنت، حيث أظهر نموذج GPT-4o، بفضل ميزة البحث عبر الشبكة، دقة وصلت إلى 90% في اختبارات عديدة. ومع ذلك، يبقى من الضروري تطوير تقنيات إضافية لتحسين الأداء دون التضحية بالدقة، حيث أن الارتفاع المستمر في قدرات التحليل والمنطق قد يؤدي إلى تزايد معدلات الهلاوس. وفقًا لما صرح به نيكو فيليكس، أحد متحدثي OpenAI، فإن الشركة تعمل بجدية على تحسين موثوقية النماذج وجعلها أكثر دقة في جميع السياقات.
العنوان | القيمة |
---|---|
نموذج o3 | معدل هلاوس 33% |
نموذج o4-mini | معدل هلاوس 48% |
دقة مع البحث | 90% |
تُظهر هذه النماذج إمكانات مثيرة للإعجاب، لكنها تحتاج إلى تحسينات كبيرة لتكون موثوقة في جميع المجالات. تحسين الذكاء الاصطناعي يُعد خطوة حيوية نحو تحقيق استخدام أوسع وأكثر فائدة في المستقبل.
نقطة تحول: منصة “الأعلى للتشاور الاجتماعي” تعزز الحوار الفعّال بين الأطراف المعنية
يانيك فيريرا يعقد محاضرة هامة للاعبي الزمالك لتعزيز الأداء
فخ المودرن.. الزمالك يحاول تفادي الخطأ الذي وقع فيه الأهلي
«تشكيل مثير».. الأهلي يعلن قائمته أمام بوريرام في ربع نهائي أبطال آسيا
وزير الصناعة يفتتح المعرض الدولي التاسع للتبريد والتكييف بحضور كبير
بايرن ميونيخ يؤكد غياب نوير عن مواجهة إنتر ميلان القادمة
قرار صادر.. مذكرة تفاهم جديدة تعزز الشراكة الاستراتيجية بين مصرف الإمارات المركزي وبنك جنوب السودان
«قفزة جديدة» ترفع سعر الذهب اليوم.. سعر عيار 21 السبت 26 أبريل 2025