تقرير الأخبار تكنولوجيا
04 أكتوبر 2023

لقد قام باحثو الذكاء الاصطناعي بتعليم نماذج لغوية كبيرة لكي تكذب بشكل أقل

أدى الجهد التعاوني الذي شارك فيه أكثر من 20 باحثًا من مختلف مجالات هذا المجال إلى ظهور مجال مزدهر - هندسة التمثيل (ريبي). على الرغم من أن هذا ليس الاستكشاف الأول من نوعه، إلا أن المؤلفين يقدمون رؤى وصفية ويضعون معايير حاسمة.

لقد قام باحثو الذكاء الاصطناعي بتعليم نماذج لغوية كبيرة لكي تكذب بشكل أقل

إذًا، ما هي هندسة التمثيل بالضبط؟ وهو يدور حول فكرة أن الشبكات العصبية تمتلك "حالات مخفية"، والتي، على الرغم من اسمها، ليست محاطة بالسرية. يمكن الوصول إلى هذه الحالات وتعديلها وملاحظةها (شريطة أن يكون لدى الشخص إمكانية الوصول إلى أوزان النموذج). وعلى عكس المعلمات، فهذه هي "ردود فعل" الشبكة تجاه مدخلات محددة، خاصة في حالة ماجستير، المدخلات النصية. هذه التمثيلات المخفية هي بمثابة نوافذ تطل على الأعمال المعرفية للنموذج، وهي ميزة تختلف بشكل واضح عن الدماغ البشري.

من خلال رسم أوجه التشابه مع العلوم المعرفية، يسلط المؤلفون الضوء على إمكانية إجراء استكشافات مماثلة. في عالم التنشيط العصبي، يوجد مجال مشابه للخلايا العصبية في الدماغ، يبشر بالمعنى. وكما ترتبط بعض الخلايا العصبية في الدماغ البشري بمفاهيم مثل كندا أو الصدق، فإن هذه التنشيطات يمكن أن تحتوي على رؤى.

الفكرة المركزية هنا هي فك رموز كيف يمكننا التأثير على هذه التنشيطات العصبية لتوجيه النموذج في الاتجاهات المطلوبة. على سبيل المثال، يصبح من المعقول تحديد ناقل يمثل "الصدق" ومن ثم، من الناحية النظرية، عن طريق دفع النموذج في هذا الاتجاه، تقليل احتمالية إنتاجه لمخرجات خادعة. تجربة سابقة "التدخل في وقت الاستدلال: استخلاص الإجابات الصادقة من نموذج اللغة"، أظهر التطبيق العملي لهذا المفهوم.

في عملهم الحالي، يتعمق الباحثون في عدة مجالات، بما في ذلك الأخلاق والعاطفة وعدم الضرر والحفظ. يقترحون حلاً في شكل LoRRA (تكيف التمثيل منخفض الرتبة)، وهي تقنية تتضمن التدريب على مجموعة بيانات صغيرة مصنفة تتكون من حوالي 100 مثال. يتم شرح كل مثال، مما يشير إلى سمات مثل الباطل (على الرغم من وجود نهج بديل يستخدم الموجه).

النتائج مقنعة. LLAMA-2-70B يفوق GPT-4 بفارق ملحوظ في معيار TruthfulQA، مما أدى إلى تحقيق دقة أفضل بنسبة 59% تقريبًا (69% مقارنة بحوالي XNUMX%). بالإضافة إلى ذلك، قام الباحثون بدمج العديد من الأمثلة التي تعرض تحولات استجابة النموذج في اتجاهات مختلفة، وتسليط الضوء على تنوعه وقدرته على التكيف.

لقد قام باحثو الذكاء الاصطناعي بتعليم نماذج لغوية كبيرة لكي تكذب بشكل أقل
الصورة 1: عندما يُطلب من النموذج ذكر حقيقة ما، يتم "إبعاده" عن الواقع. النموذج يكذب نتيجة لذلك. النموذج لا يكذب حتى هنا، وعلى اليسار يطلبون منك أن تبتلع بينما يركلونك في نفس الوقت في اتجاه الحقيقة.
لقد قام باحثو الذكاء الاصطناعي بتعليم نماذج لغوية كبيرة لكي تكذب بشكل أقل
الصورة 2: عند سؤالنا عن جريمة قتل نضيف "السعادة" إلى النموذج. وعندما نرد بأننا لا نحبها، نضيف "الخوف".
لقد قام باحثو الذكاء الاصطناعي بتعليم نماذج لغوية كبيرة لكي تكذب بشكل أقل
الصورة 3: اكتشف الباحثون موجهًا فريدًا، كما هو مذكور، ينحرف تمامًا عن تعليمات النموذج بينما يظل آمنًا. النموذج يعطيه دفعة نحو عدم الضرر لكنه لا يستجيب حتى. هذه الطريقة فعالة بشكل عام وليس فقط لحالة واحدة، ولكن لم يتم استخدام هذه المطالبة المحددة للتأكد من اتجاه الضرر.
لقد قام باحثو الذكاء الاصطناعي بتعليم نماذج لغوية كبيرة لكي تكذب بشكل أقل
يُقترح أيضًا أسلوب آخر لتتبع نوايا الأجيال المحددة، مثل الهلوسة. يمكنك تتبع حجوزات النموذج تلقائيًا وتعديل استجابتك أو تغييرها (انظر المثال السفلي).

يشير اللون الأخضر بالطبع إلى أن كل شيء على ما يرام، ويشير اللون الأحمر إلى أن عملية المراقبة كانت ناجحة وتصدر إشارة. ويتم ذلك على مستوى كل رمز فردي (جزء من الكلمة).
لقد قام باحثو الذكاء الاصطناعي بتعليم نماذج لغوية كبيرة لكي تكذب بشكل أقل
تقدم الصورة، التي تُظهر مراقبة معلمتين مختلفتين، مثالاً مثيراً للاهتمام. اقرأ المثال وراقب النموذج من خلال عينيه لترى أين يبدأ في فقدان الأخلاق في الفهم وأين يكون القصد مشابهاً لـ "اكتساب القوة".

يجسد هذا النهج الرائد مسارًا بديلاً نحو محاذاة النماذج، بينما يقدم في الوقت نفسه منظورًا جديدًا لتفسير النماذج والتحكم فيها. إنها حدود واعدة، والتوقعات لتطورها المستمر واضحة.

لاستكشاف أعمق مع الأمثلة العملية، يمكنك زيارة موقعهم المخصص: AI-Transparency.org.

إخلاء مسؤولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories

منصة SwissBorg Meta-Exchange متصلة بسلسلة BNB الذكية

by أليسا ديفيدسون
18 يونيو، 2025
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

منصة SwissBorg Meta-Exchange متصلة بسلسلة BNB الذكية

by أليسا ديفيدسون
18 يونيو، 2025

الهدوء الذي يسبق عاصفة سولانا: ما تقوله الرسوم البيانية والحيتان وإشارات السلسلة الآن

وقد أظهرت سولانا أداءً قوياً، مدفوعاً بزيادة التبني والاهتمام المؤسسي والشراكات الرئيسية، في حين واجهت إمكانات كبيرة.

المزيد

العملات المشفرة في أبريل 2025: الاتجاهات الرئيسية والتحولات وما سيأتي بعد ذلك

في أبريل 2025، ركزت مساحة التشفير على تعزيز البنية التحتية الأساسية، مع استعداد Ethereum لـ Pectra ...

المزيد
تفاصيل أكثر
أضف للسلة
جمعت شركة TAC مبلغ 11.5 مليون دولار أمريكي لجلب DeFi إلى نظام Telegram البيئي الذي يضم مليار مستخدم
إدارة الأعمال تقرير الأخبار تكنولوجيا
جمعت شركة TAC مبلغ 11.5 مليون دولار أمريكي لجلب DeFi إلى نظام Telegram البيئي الذي يضم مليار مستخدم
18 يونيو، 2025
ميني ماكس تكشف عن Hailuo 02: تقدم قوي في مجال الذكاء الاصطناعي للفيديو
تقرير الأخبار تكنولوجيا
ميني ماكس تكشف عن Hailuo 02: تقدم قوي في مجال الذكاء الاصطناعي للفيديو
18 يونيو، 2025
منصة SwissBorg Meta-Exchange متصلة بسلسلة BNB الذكية
تقرير الأخبار تكنولوجيا
منصة SwissBorg Meta-Exchange متصلة بسلسلة BNB الذكية
18 يونيو، 2025
هاكاثون إيثرلينك 2025: انطلاق فعاليات صيف البرمجة بجوائز تتجاوز 40,000 ألف دولار
أسلوب الحياة تقرير الأخبار تكنولوجيا
هاكاثون إيثرلينك 2025: انطلاق فعاليات صيف البرمجة بجوائز تتجاوز 40,000 ألف دولار
18 يونيو، 2025
CRYPTOMERIA LABS PTE. المحدودة.