برنامه های LLM: مسیری جدید برای تنظیم دقیق مدل های عصبی در موقعیت های پیچیده
به طور خلاصه
نویسندگان یک مسیر جایگزین به نام برنامه های LLM پیشنهاد می کنند که می تواند به عنوان توسعه یادگیری درون زمینه ای در نظر گرفته شود.
کلید حل یک مشکل از طریق برنامه LLM توانایی تجزیه راه حل یک مشکل به دنباله ای از مراحل ساده تر است.
دو حوزه اصلی سفارشی سازی LLM وجود دارد: تنظیم دقیق (یا آموزش اضافی) مدل پایه از پیش آموزش دیده و یادگیری درون زمینه. تنظیم دقیق به منابع محاسباتی، جمع آوری داده ها و زیرساخت های قابل توجهی برای انجام این کار و سپس میزبانی مدل های دقیق نیاز دارد. در همین حال، یادگیری درون متنی شامل جمعآوری دستور صحیح با مثالهایی از حل مسئله، مانند زنجیره فکر (CoT) است. با این حال، مشکلاتی وجود دارد، مانند اندازه محدود متنی که میتوان به مدل ارسال کرد و اینکه در یک اعلان پیچیده چند گذری، مراحل میتوانند با یکدیگر تداخل داشته باشند و مدل میتواند با چیزی منحرف شود. که در حال حاضر نباید حواسش پرت شود. نویسندگان یک مسیر جایگزین به نام پیشنهاد می کنند برنامه های LLMکه می توان آن را توسعه یادگیری درون زمینه ای دانست.
توصیه می شود: Prompt Engineering Ultimate Guide 2023 |
LLM در برنامه تعبیه شده است (به صورت معمولی زبان برنامه نویسیبرای مثال در پایتون). این کد خارجی وظیفه ذخیره وضعیت و حفظ گام به گام مدل را بر عهده دارد. چند مزیت عمده دارد: زبان های برنامه نویسی برای این کار تطبیق داده شده اند، اندازه زمینه موجود رشد می کند و مراحل با یکدیگر تداخل ندارند. کلید حل یک مشکل از طریق برنامه LLM توانایی تجزیه راه حل یک مشکل به دنباله ای از مراحل ساده تر است. این رویکرد با کارهای قبلی متفاوت است، جایی که مدل از ابزارهای خارجی مانند ماشین حساب یا مفسران کد برای حفظ دولت این رویکرد خوب است زیرا میتوان یک کار پیچیده و گسترده را به این طریق توصیف کرد و آزمایش، اشکالزدایی و ارزیابی کیفیت را آسانتر کرد.
علاوه بر این، هیچ تداخلی بین مراحل وجود ندارد و کار با LLM را آسانتر میکند. سیستم های پرسش و پاسخ نیز جدید نیستند. آنها مدت ها قبل از LLM وجود داشته اند. اکنون تکلیف پاسخگویی به سوالات چگونه حل شده است؟
سایت ها اغلب به روز می شوند، بنابراین الف مدل یخ زده یک گزینه نیست؛ به سرعت منسوخ می شود و نمی تواند به سؤالات مربوط به محصولات جدید پاسخ دهد. بازآموزی مداوم مدل برای هر به روز رسانی یک گزینه واقعی نیست: گران و وقت گیر است. در عوض، صفحات یک وب سایت معمولاً نمایه می شوند، در نوعی پایگاه داده قرار می گیرند و اغلب بردار می شوند. به درخواست کاربر، اسناد مربوطه برداشته شده و به عنوان زمینه به LLM ارسال می شود.
در چنین پارادایم، مشکل به طور طبیعی از طریق برنامه LLM حل می شود. به عنوان یک جایزه، آن را ممکن می شود برای پیادهسازی منطق پیچیدهتر چند گذری که به طور کامل در متن قرار نمیگیرد.
تست شده بر روی مجموعه داده StrategyQA شامل مسائل طبقه بندی باینری است که راه حل آن مستلزم استدلال چند طرفه است. مانند "آیا نور خورشید به عمیق ترین مکان دریای سیاه نفوذ می کند؟". برای پاسخ باید حداکثر عمق (2 کیلومتر) و میزان نفوذ نور در آب (1 کیلومتر) را پیدا کنید و سپس نتیجه بگیرید. بیایید به نمونه سوال دیگری نگاهی بیندازیم: "آیا ارسطو از لپ تاپ استفاده می کرد؟" این سوال آنقدر ساده نیست و دنباله ای از مراحل استدلال را به صراحت دنبال نمی کند: "آیا ارسطو در زمان اختراع لپ تاپ زنده بود؟" میکند. مجموعه داده روی سوالاتی تمرکز می کند که در آن چنین دنباله ای ضمنی است. تنها 2,780 سوال در مجموعه داده وجود دارد که تنها 918 سوال دارای پاراگراف هایی با شواهدی هستند که تمام مراحل استدلال را تقویت می کند. در کار فعلی، به این زیر مجموعه محدود می شود. در غیر این صورت، ما باید به یادگیری برخی از حقایق در طول آموزش LLM تکیه کنیم.
OPT-175B LLM، به طور پیش فرض، در پیروی از دستورالعمل ها خیلی خوب نیست. نیازی به تنظیم دقیق دستورالعمل ها و داده های مکالمه نداشت. برای حل مسئله پاسخگویی به سؤالات مبتنی بر شواهد، به مرحله فیلتر کردن داده ها و مرحله جستجوی درختی تقسیم می شود.
در مرحله فیلتر کردن، با داشتن یک سوال، توسعه دهندگان تمام پاراگراف ها را مرور می کنند و مرتبط ترین آنها را انتخاب می کنند. به عنوان مثال، با یک دستور چند شات، از LLM بخواهید پاسخ دهد (بله/خیر) که آیا یک پاراگراف داده شده با سوال پرسیده شده مرتبط است یا خیر. تست شده بر روی 300 زیر مجموعه از StrategyQA، که در آن هر سوال با یک پاراگراف، مرتبط یا غیر مرتبط، 50/50 مطابقت داشت. OPT-175B و text-davinci-002 الف ندارند کیفیت بسیار بالاتر از یک پایه تصادفی: تا 56٪. هر چه پیشرفته تر 11B Tk-Instruct در 61.6% خیلی بهتر نیست.
با توجه به کیفیت پایین این رویکرد، جایگزینی با هم قرار داده شد که میانگین احتمال ورود منفی (NLL) سوال را در ترکیب با پاراگراف قبلی متن در نظر گرفته و سپس نتایج را رتبه بندی می کند. بر روی یک مجموعه داده ارزیابی شد که در آن برای هر سوال، 100 پاراگراف وجود داشت، و تنها یک پاراگراف مرتبط بود (بنابراین حدس زدن تصادفی 1٪ را به دست میدهد. ما دقت بالای 1 را در 79٪ و top-5 را با 93٪ بدست آوردیم. برای این محاسبه معمولاً نیاز به دسترسی به خود مدل دارید که همیشه در API انجام نمی شود.
مرحله بعدی مرحله ساخت زنجیره های خروجی است. این کار از طریق جستجو از طریق درختی انجام می شود که در آن سوال ریشه است، و در هر سطح، پاراگراف های زیادی با شواهد احتمالی وجود دارد که به عنوان زمینه برای ایجاد مرحله بعدی استفاده می شود. هر مسیر از طریق درخت یک زنجیره خروجی بالقوه است. نتیجه گیری در مورد همه زنجیره های ممکن غیر واقعی است، بنابراین همه زنجیره های موجود رتبه بندی می شوند و زنجیره بالاترین رتبه گسترش می یابد. این چنین تنوعی از جستجوی پرتو است. هنگامی که یک پاسخ داده می شود یا حداکثر تعداد مجاز مراحل گذرانده می شود، فرآیند متوقف می شود.
مهمترین جزئیات، دو استراتژی رتبه بندی هستند که برای مرحله جستجوی درختی آزمایش شده اند. استراتژی اول بر اساس میانگین NLL کل زنجیره است، در حالی که استراتژی دوم به تفاوت میانگین NLL با و بدون پاراگراف (P)، با و بدون سوال (Q) میپردازد. در 918 سؤال موجود از StrategyQA، این رویکرد به طور قابل توجهی کیفیت پاسخ را نسبت به خط پایه با CoT (60٪) بهبود می بخشد. هر دو گزینه جستجو حدود 66٪ را ارائه می دهند (استراتژی با دلتا کمی بالاتر). اگر حقایق طلایی ارسال شود، کیفیت حدود 81٪ می شود که حد بالایی برای OPT است. به نظر می رسد دارکلانگ به جایی می رود اما به روشی متفاوت.
مقاله بر اساس تلگرام است پست.
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.