لقد قام باحثو الذكاء الاصطناعي بتعليم نماذج لغوية كبيرة لكي تكذب بشكل أقل
أدى الجهد التعاوني الذي شارك فيه أكثر من 20 باحثًا من مختلف مجالات هذا المجال إلى ظهور مجال مزدهر - هندسة التمثيل (ريبي). على الرغم من أن هذا ليس الاستكشاف الأول من نوعه، إلا أن المؤلفين يقدمون رؤى وصفية ويضعون معايير حاسمة.
إذًا، ما هي هندسة التمثيل بالضبط؟ وهو يدور حول فكرة أن الشبكات العصبية تمتلك "حالات مخفية"، والتي، على الرغم من اسمها، ليست محاطة بالسرية. يمكن الوصول إلى هذه الحالات وتعديلها وملاحظةها (شريطة أن يكون لدى الشخص إمكانية الوصول إلى أوزان النموذج). وعلى عكس المعلمات، فهذه هي "ردود فعل" الشبكة تجاه مدخلات محددة، خاصة في حالة ماجستير، المدخلات النصية. هذه التمثيلات المخفية هي بمثابة نوافذ تطل على الأعمال المعرفية للنموذج، وهي ميزة تختلف بشكل واضح عن الدماغ البشري.
من خلال رسم أوجه التشابه مع العلوم المعرفية، يسلط المؤلفون الضوء على إمكانية إجراء استكشافات مماثلة. في عالم التنشيط العصبي، يوجد مجال مشابه للخلايا العصبية في الدماغ، يبشر بالمعنى. وكما ترتبط بعض الخلايا العصبية في الدماغ البشري بمفاهيم مثل كندا أو الصدق، فإن هذه التنشيطات يمكن أن تحتوي على رؤى.
الفكرة المركزية هنا هي فك رموز كيف يمكننا التأثير على هذه التنشيطات العصبية لتوجيه النموذج في الاتجاهات المطلوبة. على سبيل المثال، يصبح من المعقول تحديد ناقل يمثل "الصدق" ومن ثم، من الناحية النظرية، عن طريق دفع النموذج في هذا الاتجاه، تقليل احتمالية إنتاجه لمخرجات خادعة. تجربة سابقة "التدخل في وقت الاستدلال: استخلاص الإجابات الصادقة من نموذج اللغة"، أظهر التطبيق العملي لهذا المفهوم.
في عملهم الحالي، يتعمق الباحثون في عدة مجالات، بما في ذلك الأخلاق والعاطفة وعدم الضرر والحفظ. يقترحون حلاً في شكل LoRRA (تكيف التمثيل منخفض الرتبة)، وهي تقنية تتضمن التدريب على مجموعة بيانات صغيرة مصنفة تتكون من حوالي 100 مثال. يتم شرح كل مثال، مما يشير إلى سمات مثل الباطل (على الرغم من وجود نهج بديل يستخدم الموجه).
النتائج مقنعة. LLAMA-2-70B يفوق GPT-4 بفارق ملحوظ في معيار TruthfulQA، مما أدى إلى تحقيق دقة أفضل بنسبة 59% تقريبًا (69% مقارنة بحوالي XNUMX%). بالإضافة إلى ذلك، قام الباحثون بدمج العديد من الأمثلة التي تعرض تحولات استجابة النموذج في اتجاهات مختلفة، وتسليط الضوء على تنوعه وقدرته على التكيف.
يجسد هذا النهج الرائد مسارًا بديلاً نحو محاذاة النماذج، بينما يقدم في الوقت نفسه منظورًا جديدًا لتفسير النماذج والتحكم فيها. إنها حدود واعدة، والتوقعات لتطورها المستمر واضحة.
لاستكشاف أعمق مع الأمثلة العملية، يمكنك زيارة موقعهم المخصص: AI-Transparency.org.
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.