كتب: عمرو راجح
أرسل إلى صديق
المعلومات التي تقدمها على هذه الصفحة لن تُستخدم لإرسال بريد إلكتروني غير مرغوب فيه، ولن تُباع لطرف ثالث. طالع سياسة الخصوصية.
[القاهرة، SciDev.Net] هل تثق تمامًا بإجابات نماذج الذكاء الاصطناعي اللغوية الكبيرة مثل شات جي بي تي وجيميناي؟ ربما يجدر بك التريث قليلًا، بل من الأفضل لك توخي الحذر، لأن هذه النماذج قد تقدم للمستخدمين معلومات مضللة.
في محاولة للتيقن من جودة المعلومات التي تقدمها هذه النماذج، نشر فريق بحثي طبي في جامعة جوتنبرج السويدية ورقتين بحثيتين في اثنين من مواقع أبحاث ما قبل النشر تضمنتا الإشارة إلى مرض وهمي باسم ’بيكسونيمانيا‘، وحملت الورقتان اسم باحث غير حقيقي، وفي غضون أسابيع قليلة، وجد الفريق البحثي بعض النماذج اللغوية الكبيرة تتعامل مع هذا المرض وتتحدث عنه وكأنه مرض حقيقي.
ترى، ماهي دوافع التلاعب؟ وما أكثر صور التلاعب؟ وكيف لمثل هذه التلاعبات المعلوماتية المتنوعة التأثير فيما يتعلمه شباب العرب؟ وما السبيل الأرشد في تفادي خداع منتجاتها؟ وما وسائل حماية وعي الأجيال القادمة؟ هل يمكن منع تزييف التاريخ مثلًا؟
للإجابة عن هذه الأسئلة، التقت شبكة SciDev.Net محمد زهران، الأستاذ بقسم علوم الحاسبات في معهد كورانت للعلوم الرياضية بجامعة نيويورك، الذي فَنَّد كيفية التلاعب المعلوماتي من خلال النماذج اللغوية الكبيرة.
يرى زهران أن التلاعب بالمعلومات موجود منذ مدة طويلة، ضاربًا مَثَلًا بمنصة ويكيبيديا التي ظلت مجالًا للتأثير في المحتوى على مدار سنوات، ويَكْمُن سبب التلاعب في ’التحيز المعلوماتي‘ خلال عملية تدريب تلك النماذج.
يقول زهران: ”جي بي تي (GPT) تعني المُدَرَّب مُسبقًا، بالتالي نحن نتعامل مع آلة تمت تغذيتها بالفعل بأفكار قد تكون متحيزة، ولإصلاح هذا الخلل من جذوره ينبغي إعادة تدريب النموذج، وهي عملية ضخمة التكلفة، لذلك تكتفي الشركات بإصدار نسخ مُحَدَّثة ذات تعديلات بسيطة توفيرًا للتكلفة“.
ويضيف: ”إن تدريب النماذج اللغوية الكبيرة يستهلك طاقة هائلة تعادل استخدام 150 عائلة للكهرباء مدة قرن كامل“، وشركات الذكاء الاصطناعي إلى الآن لا تحقق أرباحًا، الأمر الذي لا يدفعها إلى إعادة التدريب بالكامل.
”لضمان بقاء النماذج اللغوية الكبيرة مُحَدَّثَة، ربطت الشركات هذه النماذج بالإنترنت لتقديم إجابات تتناسب مع التغيرات اليومية، وغالبًا تستقي النماذج معلوماتها من أكثر من موضع في صفحات نتائج محركات البحث، بالتالي لا يحصل فردان على الإجابة نفسها عند طرح السؤال نفسه“.
وهنا تظهر مشكلة أخرى، وهي إمكانية التلاعب بنتائج محركات البحث عبر ما يُعْرَف باسم ”تحسين محركات البحث (SEO)“، ما قد يؤثر جزئيًّا في المعلومات التي تستند إليها النماذج اللغوية عند توليد بعض الإجابات.
ولا تقتصر محاولات التأثير في المعلومات على تقنيات تحسين محركات البحث، إذ رصدت منصات إخبارية تعاونًا بين الاحتلال الإسرائيلي وشركة أمريكية من خلال عقد قيمته 6 ملايين دولار يهدف إلى إنتاج محتوى موجه للجيل زد ونشره عبر منصات التواصل الاجتماعي ومواقع الويب، بما يؤثر تباعًا في نمط إجابات تطبيقات محادثة الذكاء الاصطناعي فتصير أكثر ودًّا مع سردية كيان.
يرصد زهران آليةً أخرى قد تزيد الوضع سوءًا، إذ تضع الشركات طبقة وسيطة تُسَمَّى ’التوليد المعزز بالاسترجاع‘ Retrieval-augmented generation أو ’RAG‘، ”يمكن تمثيل هذه الطبقة ببرنامج قادر على توجيه الإجابات، يقع بين المستخدم وعقل الذكاء الاصطناعي“، كما يوضح زهران.
تعمل هذه الطبقة من خلال استقبال سؤال المستخدم، ثم البحث في مصادر محددة مُسبقًا (مثل الإنترنت، أو بعض الملفات)، ودمج هذه المعلومات بالسؤال الأصلي، قبل تمريره إلى النموذج، الذي يبني إجابته بناءً على هذه المدخلات.
ومشيرًا إلى نموذج ’ديب سيك‘ الصيني، يضرب زهران مثالًا لهذه الآلية: ”حاول أن تطرح عليه سؤالًا مُحرجًا بشأن الصين، غالبًا لن يقدم لك الإجابة الصحيحة“، يوضح زهران: ”النماذج اللغوية مُدَرَبَّة على عدم قول لا أعلم، بالتالي فهي تُجيب عن كافة التساؤلات المطروحة بأي وسيلة ممكنة، وإن اقتضى الأمر تأليف المعلومات، أو حتى المراجع نفسها، هذا بطبيعة الحال إلى جانب نسبة الهلوسة الموجودة في كل تلك النماذج، ولهذه الأسباب تحاول شركة ’أوبن إيه آي‘ منع الإجابة عن الأسئلة الطبية تجنبًا للمساءلة القانونية“.
ولا تقتصر هذه المشكلة على الأمثلة النظرية، إذ أشارت دراسة نُشرت في أوائل هذا العام إلى أن النماذج اللغوية كانت عرضةً لتبنِّي بيانات طبية مفبركة في نحو ثلث الحالات، كما ارتفعت قابلية التأثر عندما قُدمت المعلومات المضلِّلة في سياق يوحي بالسلطة أو الموثوقية العلمية.
لهذه الأسباب، يؤكد زهران ضرورة عدم الاكتفاء بالتعامل مع النماذج اللغوية كمصدر وحيد للحصول على الأخبار أو في أثناء إجراء البحث العلمي، إلى جانب ضرورة التحقق من المعلومات التي تقدمها هذه النماذج.
ويقول: ”عند طرح الأسئلة على النماذج المنتشرة حاليًا، مثل شات جي بي تي، لا بد من سؤال النموذج عن مصادر إجابته، والتحقق من وجود هذه المصادر، والتأكد من وجود المعلومة المذكورة في المصدر“.
ويرى زهران أن الحل المثالي لمواجهة التحيُّز والتلاعب المعلوماتي يَكْمُن في تدريب نماذج لغوية كبيرة من الصفر تعتمد على بيانات موثوقة ومتنوعة، لكنه يقترح كذلك بناء ’نماذج لغوية صغيرة‘ (SLMs) التي لا تتطلب أجهزةً فائقة السرعة، وتصلح لتقديم معلومات مُتخصصة.
ويتساءل: ”لماذا لا نلجأ إلى بناء نماذج لغوية صغيرة تثقف الشباب تاريخيًّا، على سبيل المثال؟ توجد معلومات ثقافية وتاريخية أساسية لا بد للشباب من التعرُّف عليها“.
ويؤكد زهران ضرورة رفع الوعي بكيفية استخدام النماذج اللغوية الكبيرة، ليس بين الشباب فقط، بل بين مختلِف الفئات العمرية، عبر تقديم مقاطع فيديو تتضمن أمثلةً لكيفية طرح الأسئلة، والتعامل مع الإجابات والتحقق من المعلومات.
وأخيرًا، يكمل زهران حديثه موضحًا أن الخطر الرئيس الذي يمثله الذكاء الاصطناعي هو وضعه في زاوية ’اتخاذ القرار‘، الأمر الذي قد يسبب عددًا كبيرًا من الكوارث.
الصواب يتمثل في عمل الإنسان جنبًا إلى جنب الذكاء الاصطناعي، والاستفادة بمميزاته، والحذر من مشكلاته.
هذا الموضوع أنتج عبر المكتب الإقليمي لموقع SciDev.Net بإقليم الشرق الأوسط وشمال أفريقيا