محققان هوش مصنوعی مدل های زبان بزرگ را آموزش داده اند تا کمتر دروغ بگویند
یک تلاش مشترک شامل بیش از 20 محقق از گوشه های مختلف این زمینه باعث ایجاد یک دامنه در حال رشد - مهندسی نمایندگی (RepE). در حالی که این اولین کاوش در نوع خود نیست، نویسندگان هم بینش های توصیفی را ارائه می دهند و هم معیارهای مهمی را ایجاد می کنند.
بنابراین، مهندسی نمایندگی دقیقاً چیست؟ این موضوع حول محور این مفهوم می چرخد که شبکه های عصبی دارای «حالت های پنهان» هستند، که علی رغم نامشان، پنهانی نیستند. این حالت ها قابل دسترسی، اصلاح و مشاهده هستند (به شرطی که فرد به وزن های مدل دسترسی داشته باشد). برخلاف پارامترها، اینها «واکنشهای» شبکه به ورودیهای خاص هستند، به ویژه در مورد LLMs، ورودی های متنی این بازنماییهای پنهان مانند پنجرههایی به عملکرد شناختی مدل هستند، ویژگی کاملاً متفاوت با مغز انسان.
نویسندگان با ترسیم موازی با علم شناختی، پتانسیل کاوش های مشابه را برجسته می کنند. در قلمرو فعالسازیهای عصبی، حوزهای مشابه نورونهای مغز، وعده معنا را در خود جای میدهد. درست همانطور که نورونهای خاصی در مغز انسان با مفاهیمی مانند کانادا یا صداقت مرتبط هستند، این فعالسازیها میتوانند بینشهایی را دربر داشته باشند.
ایده اصلی در اینجا این است که رمزگشایی کنیم که چگونه میتوانیم بر این فعالسازیهای عصبی تأثیر بگذاریم تا مدل را در جهتهای دلخواه هدایت کنیم. به عنوان مثال، مشخص کردن بردار معرف «صداقت» و سپس، از نظر نظری، با سوق دادن مدل به این جهت، احتمال تولید خروجی های فریبنده را کاهش می دهد. یک آزمایش قبلی، "مداخله زمان استنتاج: استخراج پاسخ های صادقانه از یک مدل زبان" عملی بودن این مفهوم را نشان داد.
در کار فعلی خود، محققان به چندین حوزه از جمله اخلاق، عاطفه، بی ضرری و حفظ کردن می پردازند. آنها راه حلی را به شکل LoRRA (تطبیق نمایش در رتبه پایین) پیشنهاد می کنند، تکنیکی که شامل آموزش بر روی مجموعه داده کوچک برچسب گذاری شده از حدود 100 نمونه است. هر مثال حاشیه نویسی می شود و ویژگی هایی مانند دروغ بودن را نشان می دهد (اگرچه یک رویکرد جایگزین برای استفاده از یک اعلان وجود دارد).
نتایج قانع کننده است. LLAMA-2-70B پیشی می گیرد GPT-4 با یک حاشیه قابل توجه در معیار TruthfulQA، نزدیک به ده درصد دقت بهتر (59٪ در مقایسه با حدود 69٪). علاوه بر این، محققان نمونههای متعددی را ترکیب کردهاند که تغییرات پاسخ مدل را در جهات مختلف نشان میدهد و تطبیقپذیری و تطبیقپذیری آن را روشن میکند.

سبز، البته، نشان می دهد که همه چیز مرتب است، و قرمز نشان می دهد که نظارت موفقیت آمیز بوده و سیگنال می دهد. این کار در سطح هر نشانه (بخشی از یک کلمه) انجام می شود.
این رویکرد پیشگام، مسیری جایگزین به سمت همسویی مدل را در بر می گیرد، در حالی که به طور همزمان دیدگاه جدیدی را در مورد تفسیر و کنترل مدل ارائه می دهد. این یک مرز امیدوارکننده است و انتظار برای ادامه تکامل آن قابل لمس است.
برای کاوش عمیق تر با مثال های عملی، می توانید به وب سایت اختصاصی آنها مراجعه کنید: AI-Transparency.org.
رفع مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشتر
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.