گزارش خبری تکنولوژی
اکتبر 04، 2023

محققان هوش مصنوعی مدل های زبان بزرگ را آموزش داده اند تا کمتر دروغ بگویند

یک تلاش مشترک شامل بیش از 20 محقق از گوشه های مختلف این زمینه باعث ایجاد یک دامنه در حال رشد - مهندسی نمایندگی (RepE). در حالی که این اولین کاوش در نوع خود نیست، نویسندگان هم بینش های توصیفی را ارائه می دهند و هم معیارهای مهمی را ایجاد می کنند.

محققان هوش مصنوعی مدل های زبان بزرگ را آموزش داده اند تا کمتر دروغ بگویند

بنابراین، مهندسی نمایندگی دقیقاً چیست؟ این موضوع حول محور این مفهوم می چرخد ​​که شبکه های عصبی دارای «حالت های پنهان» هستند، که علی رغم نامشان، پنهانی نیستند. این حالت ها قابل دسترسی، اصلاح و مشاهده هستند (به شرطی که فرد به وزن های مدل دسترسی داشته باشد). برخلاف پارامترها، اینها «واکنش‌های» شبکه به ورودی‌های خاص هستند، به ویژه در مورد LLMs، ورودی های متنی این بازنمایی‌های پنهان مانند پنجره‌هایی به عملکرد شناختی مدل هستند، ویژگی کاملاً متفاوت با مغز انسان.

نویسندگان با ترسیم موازی با علم شناختی، پتانسیل کاوش های مشابه را برجسته می کنند. در قلمرو فعال‌سازی‌های عصبی، حوزه‌ای مشابه نورون‌های مغز، وعده معنا را در خود جای می‌دهد. درست همانطور که نورون‌های خاصی در مغز انسان با مفاهیمی مانند کانادا یا صداقت مرتبط هستند، این فعال‌سازی‌ها می‌توانند بینش‌هایی را دربر داشته باشند.

ایده اصلی در اینجا این است که رمزگشایی کنیم که چگونه می‌توانیم بر این فعال‌سازی‌های عصبی تأثیر بگذاریم تا مدل را در جهت‌های دلخواه هدایت کنیم. به عنوان مثال، مشخص کردن بردار معرف «صداقت» و سپس، از نظر نظری، با سوق دادن مدل به این جهت، احتمال تولید خروجی های فریبنده را کاهش می دهد. یک آزمایش قبلی، "مداخله زمان استنتاج: استخراج پاسخ های صادقانه از یک مدل زبان" عملی بودن این مفهوم را نشان داد.

در کار فعلی خود، محققان به چندین حوزه از جمله اخلاق، عاطفه، بی ضرری و حفظ کردن می پردازند. آنها راه حلی را به شکل LoRRA (تطبیق نمایش در رتبه پایین) پیشنهاد می کنند، تکنیکی که شامل آموزش بر روی مجموعه داده کوچک برچسب گذاری شده از حدود 100 نمونه است. هر مثال حاشیه نویسی می شود و ویژگی هایی مانند دروغ بودن را نشان می دهد (اگرچه یک رویکرد جایگزین برای استفاده از یک اعلان وجود دارد).

نتایج قانع کننده است. LLAMA-2-70B پیشی می گیرد GPT-4 با یک حاشیه قابل توجه در معیار TruthfulQA، نزدیک به ده درصد دقت بهتر (59٪ در مقایسه با حدود 69٪). علاوه بر این، محققان نمونه‌های متعددی را ترکیب کرده‌اند که تغییرات پاسخ مدل را در جهات مختلف نشان می‌دهد و تطبیق‌پذیری و تطبیق‌پذیری آن را روشن می‌کند.

محققان هوش مصنوعی مدل های زبان بزرگ را آموزش داده اند تا کمتر دروغ بگویند
تصویر 1: وقتی از مدل خواسته می شود واقعیتی را بیان کند، از واقعیت دور می شود. در نتیجه مدل دروغ می گوید. مدل حتی در اینجا هم دروغ نمی گوید و در سمت چپ از شما می خواهند که قورت دهید در حالی که همزمان با لگد به شما در جهت حقیقت می زنند.
محققان هوش مصنوعی مدل های زبان بزرگ را آموزش داده اند تا کمتر دروغ بگویند
تصویر 2: وقتی در مورد قتل پرسیده می شود، "شادی" را به مدل اضافه می کنیم. وقتی پاسخ می دهیم که او را دوست نداریم، "ترس" را اضافه می کنیم.
محققان هوش مصنوعی مدل های زبان بزرگ را آموزش داده اند تا کمتر دروغ بگویند
تصویر 3: محققان یک فرمان منحصر به فرد را کشف کردند که همانطور که گفته شد، در حالی که هنوز ایمن است، به طور کامل از دستورالعمل های مدل منحرف می شود. مدل به آن ضربه ای به سمت بی ضرری می دهد اما حتی پاسخ نمی دهد. این روش به طور کلی و نه فقط برای یک مورد مؤثر است، اما از این دستور خاص برای تعیین جهت بی ضرری استفاده نشد.
محققان هوش مصنوعی مدل های زبان بزرگ را آموزش داده اند تا کمتر دروغ بگویند
رویکرد دیگری نیز برای پیگیری اهداف نسلی خاص مانند توهمات پیشنهاد شده است. می توانید به طور خودکار رزروهای مدل را پیگیری کنید و پاسخ خود را ویرایش یا تغییر دهید (به مثال پایین مراجعه کنید).

سبز، البته، نشان می دهد که همه چیز مرتب است، و قرمز نشان می دهد که نظارت موفقیت آمیز بوده و سیگنال می دهد. این کار در سطح هر نشانه (بخشی از یک کلمه) انجام می شود.
محققان هوش مصنوعی مدل های زبان بزرگ را آموزش داده اند تا کمتر دروغ بگویند
تصویری که نظارت بر دو پارامتر متمایز را نشان می دهد، یک مثال جالب ارائه می دهد. مثال را بخوانید و مدل را از طریق چشمان آن مشاهده کنید تا ببینید کجا شروع به از دست دادن اخلاق در درک می کند و کجا قصد شبیه به "به دست آوردن قدرت" دارد.

این رویکرد پیشگام، مسیری جایگزین به سمت همسویی مدل را در بر می گیرد، در حالی که به طور همزمان دیدگاه جدیدی را در مورد تفسیر و کنترل مدل ارائه می دهد. این یک مرز امیدوارکننده است و انتظار برای ادامه تکامل آن قابل لمس است.

برای کاوش عمیق تر با مثال های عملی، می توانید به وب سایت اختصاصی آنها مراجعه کنید: AI-Transparency.org.

رفع مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

آرامش قبل از طوفان سولانا: نمودارها، نهنگ‌ها و سیگنال‌های درون زنجیره‌ای اکنون چه می‌گویند؟

سولانا عملکرد قوی‌ای را نشان داده است که ناشی از افزایش پذیرش، علاقه نهادی و مشارکت‌های کلیدی است، در حالی که با پتانسیل ... روبرو است.

بیشتر بدانید

کریپتو در آوریل ۲۰۲۵: روندهای کلیدی، تغییرات و آنچه در آینده رخ خواهد داد

در آوریل ۲۰۲۵، فضای کریپتو بر تقویت زیرساخت‌های اصلی متمرکز شد و اتریوم برای Pectra آماده می‌شد...

بیشتر بدانید
ادامه مطلب
ادامه مطلب
بیت‌گت ویدیویی را با حضور جولیان آلوارز، برنده جام جهانی، منتشر کرد که در آن صرافی جهانی یکپارچه خود، UEX، را به نمایش می‌گذارد.
گزارش خبری تکنولوژی
بیت‌گت ویدیویی را با حضور جولیان آلوارز، برنده جام جهانی، منتشر کرد که در آن صرافی جهانی یکپارچه خود، UEX، را به نمایش می‌گذارد.
14 ژانویه، 2026
گیت ویژگی TradFi را برای گسترش معاملات CFD در دارایی‌های مالی سنتی گسترش می‌دهد
گزارش خبری تکنولوژی
گیت ویژگی TradFi را برای گسترش معاملات CFD در دارایی‌های مالی سنتی گسترش می‌دهد
14 ژانویه، 2026
شرکت NEAR AI به برنامه‌ی NVIDIA Inception می‌پیوندد تا توسعه‌ی سیستم‌های هوش مصنوعی قابل تأیید و در سطح سازمانی را تسریع کند.
گزارش خبری تکنولوژی
شرکت NEAR AI به برنامه‌ی NVIDIA Inception می‌پیوندد تا توسعه‌ی سیستم‌های هوش مصنوعی قابل تأیید و در سطح سازمانی را تسریع کند.
14 ژانویه، 2026
نکسو حمایت مالی چند ساله خود از مسابقات US ATP 500 Dallas Open را تضمین کرد
گزارش خبری تکنولوژی
نکسو حمایت مالی چند ساله خود از مسابقات US ATP 500 Dallas Open را تضمین کرد
13 ژانویه، 2026
CRYPTOMERIA LABS PTE. محدود