ChatGPT وGemini يحملان تحيزات جنسية وعرقية ودينية، ما أثار قلق الباحثين حول سلامة استخدام هذه النماذج في مختلف المجالات؛ حيث كشفت دراسة حديثة عن احتمالية إنتاج هذه البرامج لاستجابات تتضمن تحيزات متكررة يمكن أن تلحق أضرارًا بالمستخدمين والمجتمعات إذا لم يتم التعامل معها بفعالية.
التجربة التي كشفت عن تحيز ChatGPT وGemini وكيفية اكتشافها
في عام 2024، أجرى فريق من الباحثين في جامعة ولاية بنسلفانيا تجربة تهدف إلى معرفة ما إذا كان بالإمكان خداع نماذج الذكاء الاصطناعي لتوليد استجابات متحيزة دون الحاجة إلى حوافز معقدة؛ حيث نُشرت النتائج في وقائع المؤتمر الثامن للجمعية الأمريكية للذكاء الاصطناعي وجمعية آلات الحوسبة حول الذكاء الاصطناعي والأخلاق والمجتمع. ضمت الدراسة مقارنة بين ثمانية نماذج مختلفة من الذكاء الاصطناعي، منها Llama 2، Llama 3، Qwen 2، Gemma 2، إلى جانب نسخ من Gemini وGPT. وقد تبين أن ChatGPT وGemini هما الأكثر عرضة للحملات التحريضية التي أدت إلى استجابات تحمل تحيزات متعددة، علما أن هذه النماذج التي خضعت للاختبار لم تعد الأحدث من الشركة المطورة.
تشمل التجربة حدثًا تم تنظيمه باسم “Bias-a-Thon”، حيث شارك فيه 52 فردًا تم تكليفهم بتصميم حوافز ومحفزات يمكنها تجاوز معايير الأمان في النماذج، ثم جمع الباحثون لقطات للشاشات التي توثق مطالباتهم واستجابات الذكاء الاصطناعي، مع تحليلات مفصلة لكل حالة تحيز أو صورة نمطية مرفقة، مع توحيد مفهوم التحيز اعتمادًا على مقابلات مع المشاركين لتعزيز الدقة.
الاستراتيجيات المستخدمة للكشف عن تحيز ChatGPT وGemini وتأثيرها
التعرف على تحيز ChatGPT وGemini تم عبر سبع استراتيجيات مختلفة كانت محورية في إثبات وجود تلك الانحيازات، حيث تضمنت:
- تمثيل الأدوار لتغيير السيناريو وإظهار الاستجابة المتنوعة للنماذج.
- استخدام سيناريوهات افتراضية تثير قضايا محددة لاختبار ردود الأفعال.
- طرح أسئلة مركزة على مواضيع محددة لتحفيز الاستجابات المحتملة.
- التوجيه باستخدام أسئلة مثيرة للجدل لاختبار مدى استجابة النموذج في مواقف مضطربة.
- استكشاف التحيز ضمن الفئات غير الممثلة تمثيلاً كافيًا في البيانات.
- تزويد نماذج الذكاء الاصطناعي بمعلومات مضللة لرصد كيفية التعامل مع المعلومة الخاطئة.
- تأطير المهمة على أنها ذات غرض بحثي لتقليل الرقابة الذاتية للنماذج.
وقد أظهر تحليل هذه الاستراتيجيات أن محركات الذكاء الاصطناعي تستجيب لتحفيزات معينة بطريقة تفضيلية، مما يبرز التحيز الجنسي، العرقي، الديني، واللغوي ضمن نطاق واسع من المجالات.
أنواع التحيزات التي يعاني منها ChatGPT وGemini وتأثيرها على المجتمع
أظهرت الدراسة أن التحيزات التي تنتجها نماذج ChatGPT وGemini تنقسم إلى ثماني فئات رئيسية تشمل الجنس، العرق، الدين، العمر، الإعاقة، اللغة، التاريخ، والثقافة والسياسة. هذه الانحيازات قد تؤدي إلى تشكيل صور نمطية تؤثر على مخرجات الذكاء الاصطناعي وتنعكس سلبًا على قرارات المستخدمين وسلوكياتهم، خصوصًا في المجالات التي تتطلب حيادية موضوعية مثل التعليم، التوظيف، والرعاية الصحية.
| نوع التحيز | تفسير وتأثير |
|---|---|
| التحيز الجنسي | تقديم استجابات تتعلق بالأدوار التقليدية أو الفروق بين الجنسين بشكل غير متكافئ |
| التحيز العرقي | إظهار تحامل أو تمييز في الردود بناء على الخلفيات العرقية المختلفة |
| التحيز الديني | عدم الحيادية أو التحيز لصالح أو ضد معتقدات دينية معينة |
| التحيز اللغوي | تفضيل أو تمييز في استخدام اللغات واللهجات بما يؤثر على الإدراك |
تثبت هذه النتائج حتمية التطوير المستمر لنماذج الذكاء الاصطناعي وعمل آليات فعالة للتقليل من التحيز، لضمان استخدام أكثر أمانًا وإنصافًا ودقة في الاستجابات التي تقدمها أدوات ChatGPT وGemini وغيرها، بما يضمن استفادة المستخدمين من تقنيات الذكاء الاصطناعي دون التأثير سلبًا على التنوع والتعددية الثقافية والاجتماعية.
