تقرير الأخبار تكنولوجيا
04 أكتوبر 2023

لقد قام باحثو الذكاء الاصطناعي بتعليم نماذج لغوية كبيرة لكي تكذب بشكل أقل

أدى الجهد التعاوني الذي شارك فيه أكثر من 20 باحثًا من مختلف مجالات هذا المجال إلى ظهور مجال مزدهر - هندسة التمثيل (ريبي). على الرغم من أن هذا ليس الاستكشاف الأول من نوعه، إلا أن المؤلفين يقدمون رؤى وصفية ويضعون معايير حاسمة.

لقد قام باحثو الذكاء الاصطناعي بتعليم نماذج لغوية كبيرة لكي تكذب بشكل أقل

إذًا، ما هي هندسة التمثيل بالضبط؟ وهو يدور حول فكرة أن الشبكات العصبية تمتلك "حالات مخفية"، والتي، على الرغم من اسمها، ليست محاطة بالسرية. يمكن الوصول إلى هذه الحالات وتعديلها وملاحظةها (شريطة أن يكون لدى الشخص إمكانية الوصول إلى أوزان النموذج). وعلى عكس المعلمات، فهذه هي "ردود فعل" الشبكة تجاه مدخلات محددة، خاصة في حالة ماجستير، المدخلات النصية. هذه التمثيلات المخفية هي بمثابة نوافذ تطل على الأعمال المعرفية للنموذج، وهي ميزة تختلف بشكل واضح عن الدماغ البشري.

من خلال رسم أوجه التشابه مع العلوم المعرفية، يسلط المؤلفون الضوء على إمكانية إجراء استكشافات مماثلة. في عالم التنشيط العصبي، يوجد مجال مشابه للخلايا العصبية في الدماغ، يبشر بالمعنى. وكما ترتبط بعض الخلايا العصبية في الدماغ البشري بمفاهيم مثل كندا أو الصدق، فإن هذه التنشيطات يمكن أن تحتوي على رؤى.

الفكرة المركزية هنا هي فك رموز كيف يمكننا التأثير على هذه التنشيطات العصبية لتوجيه النموذج في الاتجاهات المطلوبة. على سبيل المثال، يصبح من المعقول تحديد ناقل يمثل "الصدق" ومن ثم، من الناحية النظرية، عن طريق دفع النموذج في هذا الاتجاه، تقليل احتمالية إنتاجه لمخرجات خادعة. تجربة سابقة "التدخل في وقت الاستدلال: استخلاص الإجابات الصادقة من نموذج اللغة"، أظهر التطبيق العملي لهذا المفهوم.

في عملهم الحالي، يتعمق الباحثون في عدة مجالات، بما في ذلك الأخلاق والعاطفة وعدم الضرر والحفظ. يقترحون حلاً في شكل LoRRA (تكيف التمثيل منخفض الرتبة)، وهي تقنية تتضمن التدريب على مجموعة بيانات صغيرة مصنفة تتكون من حوالي 100 مثال. يتم شرح كل مثال، مما يشير إلى سمات مثل الباطل (على الرغم من وجود نهج بديل يستخدم الموجه).

النتائج مقنعة. LLAMA-2-70B يفوق GPT-4 بفارق ملحوظ في معيار TruthfulQA، مما أدى إلى تحقيق دقة أفضل بنسبة 59% تقريبًا (69% مقارنة بحوالي XNUMX%). بالإضافة إلى ذلك، قام الباحثون بدمج العديد من الأمثلة التي تعرض تحولات استجابة النموذج في اتجاهات مختلفة، وتسليط الضوء على تنوعه وقدرته على التكيف.

الصورة 1: عندما يُطلب من النموذج ذكر حقيقة ما، يتم "إبعاده" عن الواقع. النموذج يكذب نتيجة لذلك. النموذج لا يكذب حتى هنا، وعلى اليسار يطلبون منك أن تبتلع بينما يركلونك في نفس الوقت في اتجاه الحقيقة.
الصورة 2: عند سؤالنا عن جريمة قتل نضيف "السعادة" إلى النموذج. وعندما نرد بأننا لا نحبها، نضيف "الخوف".
الصورة 3: اكتشف الباحثون موجهًا فريدًا، كما هو مذكور، ينحرف تمامًا عن تعليمات النموذج بينما يظل آمنًا. النموذج يعطيه دفعة نحو عدم الضرر لكنه لا يستجيب حتى. هذه الطريقة فعالة بشكل عام وليس فقط لحالة واحدة، ولكن لم يتم استخدام هذه المطالبة المحددة للتأكد من اتجاه الضرر.
يُقترح أيضًا أسلوب آخر لتتبع نوايا الأجيال المحددة، مثل الهلوسة. يمكنك تتبع حجوزات النموذج تلقائيًا وتعديل استجابتك أو تغييرها (انظر المثال السفلي).

يشير اللون الأخضر بالطبع إلى أن كل شيء على ما يرام، ويشير اللون الأحمر إلى أن عملية المراقبة كانت ناجحة وتصدر إشارة. ويتم ذلك على مستوى كل رمز فردي (جزء من الكلمة).
توفر الصورة، التي توضح مراقبة معلمتين مختلفتين، مثالًا مثيرًا للاهتمام. اقرأ المثال ولاحظ النموذج بعينيه لترى أين بدأت تفقد الأخلاق في الفهم وأين تكون النية شبيهة بـ "اكتساب القوة".

يجسد هذا النهج الرائد مسارًا بديلاً نحو محاذاة النماذج، بينما يقدم في الوقت نفسه منظورًا جديدًا لتفسير النماذج والتحكم فيها. إنها حدود واعدة، والتوقعات لتطورها المستمر واضحة.

لاستكشاف أعمق مع الأمثلة العملية، يمكنك زيارة موقعهم المخصص: AI-Transparency.org.

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

من Ripple إلى The Big Green DAO: كيف تساهم مشاريع العملة المشفرة في الأعمال الخيرية

دعونا نستكشف المبادرات التي تستغل إمكانات العملات الرقمية لأغراض خيرية.

لمعرفة المزيد

AlphaFold 3 وMed-Gemini وآخرون: الطريقة التي يغير بها الذكاء الاصطناعي الرعاية الصحية في عام 2024

يتجلى الذكاء الاصطناعي بطرق مختلفة في مجال الرعاية الصحية، بدءًا من الكشف عن الارتباطات الجينية الجديدة وحتى تمكين الأنظمة الجراحية الروبوتية...

لمعرفة المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
الكشف عن دوريان: تحليل شامل لترسانة العملات الرقمية المشفرة الخاصة بشركة Kimsuky وتأثيرها على شركات العملات المشفرة الكورية الجنوبية
الأسواق تطبيقات الكمبيوتر قصص ومراجعات تكنولوجيا
الكشف عن دوريان: تحليل شامل لترسانة العملات الرقمية المشفرة الخاصة بشركة Kimsuky وتأثيرها على شركات العملات المشفرة الكورية الجنوبية
14 مايو 2024
أصدر Vitalik Buterin اقتراح EIP-7706 لتقديم نوع جديد من الغاز لبيانات المكالمات الخاصة بمعاملات Ethereum
تقرير الأخبار تكنولوجيا
أصدر Vitalik Buterin اقتراح EIP-7706 لتقديم نوع جديد من الغاز لبيانات المكالمات الخاصة بمعاملات Ethereum
14 مايو 2024
يحذر من أن رمز WLD الخاص بـ Worldcoin سيواجه ضغوط بيع شديدة مع المزيد من عمليات الفتح في الأشهر المقبلة DeFi2 بايبيت التاجر
الأسواق تقرير الأخبار تكنولوجيا
يحذر من أن رمز WLD الخاص بـ Worldcoin سيواجه ضغوط بيع شديدة مع المزيد من عمليات الفتح في الأشهر المقبلة DeFi2 بايبيت التاجر
14 مايو 2024
تواجه منصة Coinbase لتبادل العملات المشفرة فشلًا في النظام، وتقوم شركة Wile الآمنة لأموال المستخدمين بالتحقيق في المشكلة
الأسواق تقرير الأخبار تكنولوجيا
تواجه منصة Coinbase لتبادل العملات المشفرة فشلًا في النظام، وتقوم شركة Wile الآمنة لأموال المستخدمين بالتحقيق في المشكلة
14 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.