الأبرع تقنيًا.. كيف يتفوق نموذج «o3» في حل أصعب الأسئلة العلمية؟

المنصة الرقمية «ساي أرينا» لتقييم إجابات النماذج اللغوية الكبيرة في المواضيع العلمية تعتمد على تصويت الباحثين في أداء هذه النماذج، حيث تفوقت نماذج الذكاء الاصطناعي مثل نموذج «o3» على منافسين بارزين مثل «جيميناي» و«ديبسيك» في دقة وجودة الإجابات العلمية المقدمة.

تقييم أداء النماذج اللغوية الكبيرة في العلوم عبر منصة ساي أرينا

نموذج الذكاء الاصطناعي «o3»، المطور من قبل الشركة صاحبة روبوت الدردشة «تشات جي بي تي»، تصدر تصنيفًا جديدًا أُطلق حديثًا، يركز على تحديد أفضل النماذج اللغوية الكبيرة في الإجابة عن الأسئلة العلمية المتنوعة، وذلك وفق منصة «ساي أرينا» التي تم تدشينها في بداية يوليو من هذا العام. منصة «ساي أرينا» طورتها مؤسسة آلِن للذكاء الاصطناعي (Ai2) في سياتل بولاية واشنطن، وقد قيمت أداء 23 نموذجًا لغويًا كبيرًا بناءً على جودة ردودها على استفسارات علمية شاملة، حيث ساهم في العملية 102 باحثًا بمشاركة أكثر من 13 ألف تصويت لتحديد النموذج الأفضل في عدة تخصصات مثل العلوم الطبيعية، والرعاية الصحية، والهندسة، والعلوم الإنسانية والاجتماعية.

نشير إلى أن نموذج «o3»، من تطوير شركة «أوبن إيه آي» بسان فرانسيسكو، حصد المركز الأول في معظم مجالات الدراسات العلمية، في حين جاء نموذج «ديبسيك-آر1» DeepSeek-R1 المطور في هنجتشو بالصين في المرتبة الثانية في العلوم الطبيعية والرابعة في الهندسة، بينما احتل نموذج «جيميناي-2.5-برو» Gemini-2.5-Pro الذي طورته «جوجل» بالمركز الثالث والرابع في مجالات متعددة.

تحليل أسباب تميز نموذج o3 في تقييم منصات الذكاء الاصطناعي العلمية

يرى أرمان كوهان، الباحث في معهد آلِن، أن نجاح نموذج «o3» يعود بشكل رئيسي إلى قدرته على تقديم معلومات مفصلة ودقيقة مدعومة بمراجع علمية موثوقة، مما يطرح إجابات فنية دقيقة وسلسة في وقت واحد؛ ويضيف أن فهم تباين أداء النماذج بنحو شامل يبقى معقدًا بسبب حقوق الملكية واحتكار الشركات لمعلومات تدريب نماذجها. ولكنه يشير إلى عوامل محتملة مثل اختلاف مجموعات البيانات وأساليب التدريب، إضافة إلى الاختلاف في الأهداف التي صُممت النماذج لتحقيقها.

تمثل منصة «ساي أرينا» أحدث ابتكارات تقييم نموذج الذكاء الاصطناعي، حيث تعتمد على تقييمات المستخدمين الخارجيين لتصنيف كفاءة هذه النماذج بشكل شفاف وموضوعي، وهو ما اعتبره راهول شوم، الباحث في علم الروبوتات والذكاء الاصطناعي من الجامعة الوطنية الأسترالية، خطوة إيجابية لمراجعة أداء النماذج اللغوية الكبيرة في المهام البحثية بدقة متناهية.

آلية عمل منصة ساي أرينا ودور الباحثين في تصنيف النماذج اللغوية الكبيرة

تعتمد منصة «ساي أرينا» نظامًا فريدًا يطلب من الباحثين طرح أسئلة علمية متنوعة بعشوائية، لتقييم 23 نموذجًا لغويًا كبيرًا في وقت واحد؛ إذ يتلقى الباحث إجابات من نموذجين مختارين عشوائيًا، مدعمة بمراجع مأخوذة من محرك البحث البحثي «سيمانتيك سكولار» Semantic Scholar، وهو بدوره أداة ذكاء اصطناعي طورها معهد آلِن. بعد هذا يحصل الباحثون على خيار التصويت بين ثلاثة احتمالات: هل كانت إجابة أحد النموذجين أفضل، أم كان الأداء متقاربًا، أم أن كلا النموذجين قدما أداء متدنيًا. هذه الطريقة تضمن تقييمًا موضوعيًا وشفافًا.

تتيح المنصة الوصول لعامة المستخدمين دون مقابل، إذ يمكن لأي مستخدم طرح سؤاله العلمي والحصول على ردود من نموذجين لغويين، بالإضافة إلى إمكانية التصويت على فاعلية إجاباتهم، رغم أن التصويت الرسمي يتم فقط عبر المستخدمين الذين تحقق هويتهم ووافقوا على شروط الاستخدام؛ ما يعزز مصداقية التقييم ويوفر تحديثات مستمرة في التصنيف.

ويرى جوناثان كومرفلد، الباحث في الذكاء الاصطناعي بجامعة سيدني، أن إمكانية اختبار النماذج اللغوية الكبيرة في مجالات علمية دقيقة مع ضمان دقة الأسئلة والإجابات يساهم بفعالية في دعم الباحثين لمواكبة أحدث المنشورات والدراسات، حيث:

  • تساعد الأدوات على الوصول لأبحاث قد تغيب عن الباحثين
  • تعزز الشفافية في قياس مستويات تقدم نماذج الذكاء الاصطناعي
  • تتجنب مشاكل التلاعب في التقييمات التي ظهرت في منصات سابقة

على الرغم من ذلك، تعتمد المنصة بدرجة كبيرة على تفاعل المستخدمين ومشاركتهم، مما يطرح تحديًا قد يؤثر على نجاح المنصة إذا لم يشعر المستخدمون بقيمة حقيقية لاستخدامها. ويحظى تحفيز المنصة بتوفيرها المجاني والنماذج المتطورة، فضلاً عن دعم الإجابات بمصادر بحثية مفيدة من «سيمانتيك سكولار» التي تضفي ثقة على النتائج المقدمة.

يجدر التنويه إلى تحذيرات الباحثين الذين يشيرون إلى أن النماذج اللغوية الكبيرة قد تُنتج أحيانًا نصوصًا متعارضة مع المصادر العلمية أو تسيء تفسير المصطلحات، مع ضرورة عدم الاعتماد فقط على الملخصات المستخلصة من هذه النماذج، بل حث العلماء على قراءة الأوراق الأصلية لفهم الأبحاث بشكل أعمق، وهو ما يبرز أهمية منصة «ساي أرينا» كأداة مكملة وليست بديلاً عن البحث العلمي الأصلي.