گزارش خبری پیشرفته
ممکن است 15، 2023

برنامه های LLM: مسیری جدید برای تنظیم دقیق مدل های عصبی در موقعیت های پیچیده

به طور خلاصه

نویسندگان یک مسیر جایگزین به نام برنامه های LLM پیشنهاد می کنند که می تواند به عنوان توسعه یادگیری درون زمینه ای در نظر گرفته شود.

کلید حل یک مشکل از طریق برنامه LLM توانایی تجزیه راه حل یک مشکل به دنباله ای از مراحل ساده تر است.

دو حوزه اصلی سفارشی سازی LLM وجود دارد: تنظیم دقیق (یا آموزش اضافی) مدل پایه از پیش آموزش دیده و یادگیری درون زمینه. تنظیم دقیق به منابع محاسباتی، جمع آوری داده ها و زیرساخت های قابل توجهی برای انجام این کار و سپس میزبانی مدل های دقیق نیاز دارد. در همین حال، یادگیری درون متنی شامل جمع‌آوری دستور صحیح با مثال‌هایی از حل مسئله، مانند زنجیره فکر (CoT) است. با این حال، مشکلاتی وجود دارد، مانند اندازه محدود متنی که می‌توان به مدل ارسال کرد و اینکه در یک اعلان پیچیده چند گذری، مراحل می‌توانند با یکدیگر تداخل داشته باشند و مدل می‌تواند با چیزی منحرف شود. که در حال حاضر نباید حواسش پرت شود. نویسندگان یک مسیر جایگزین به نام پیشنهاد می کنند برنامه های LLMکه می توان آن را توسعه یادگیری درون زمینه ای دانست.

برنامه های LLM: مسیری جدید برای تنظیم دقیق مدل های عصبی در موقعیت های پیچیده
توصیه می شود: Prompt Engineering Ultimate Guide 2023

LLM در برنامه تعبیه شده است (به صورت معمولی زبان برنامه نویسیبرای مثال در پایتون). این کد خارجی وظیفه ذخیره وضعیت و حفظ گام به گام مدل را بر عهده دارد. چند مزیت عمده دارد: زبان های برنامه نویسی برای این کار تطبیق داده شده اند، اندازه زمینه موجود رشد می کند و مراحل با یکدیگر تداخل ندارند. کلید حل یک مشکل از طریق برنامه LLM توانایی تجزیه راه حل یک مشکل به دنباله ای از مراحل ساده تر است. این رویکرد با کارهای قبلی متفاوت است، جایی که مدل از ابزارهای خارجی مانند ماشین حساب یا مفسران کد برای حفظ دولت این رویکرد خوب است زیرا می‌توان یک کار پیچیده و گسترده را به این طریق توصیف کرد و آزمایش، اشکال‌زدایی و ارزیابی کیفیت را آسان‌تر کرد.

علاوه بر این، هیچ تداخلی بین مراحل وجود ندارد و کار با LLM را آسان‌تر می‌کند. سیستم های پرسش و پاسخ نیز جدید نیستند. آنها مدت ها قبل از LLM وجود داشته اند. اکنون تکلیف پاسخگویی به سوالات چگونه حل شده است؟

سایت ها اغلب به روز می شوند، بنابراین الف مدل یخ زده یک گزینه نیست؛ به سرعت منسوخ می شود و نمی تواند به سؤالات مربوط به محصولات جدید پاسخ دهد. بازآموزی مداوم مدل برای هر به روز رسانی یک گزینه واقعی نیست: گران و وقت گیر است. در عوض، صفحات یک وب سایت معمولاً نمایه می شوند، در نوعی پایگاه داده قرار می گیرند و اغلب بردار می شوند. به درخواست کاربر، اسناد مربوطه برداشته شده و به عنوان زمینه به LLM ارسال می شود.

در چنین پارادایم، مشکل به طور طبیعی از طریق برنامه LLM حل می شود. به عنوان یک جایزه، آن را ممکن می شود برای پیاده‌سازی منطق پیچیده‌تر چند گذری که به طور کامل در متن قرار نمی‌گیرد.

تست شده بر روی مجموعه داده StrategyQA شامل مسائل طبقه بندی باینری است که راه حل آن مستلزم استدلال چند طرفه است. مانند "آیا نور خورشید به عمیق ترین مکان دریای سیاه نفوذ می کند؟". برای پاسخ باید حداکثر عمق (2 کیلومتر) و میزان نفوذ نور در آب (1 کیلومتر) را پیدا کنید و سپس نتیجه بگیرید. بیایید به نمونه سوال دیگری نگاهی بیندازیم: "آیا ارسطو از لپ تاپ استفاده می کرد؟" این سوال آنقدر ساده نیست و دنباله ای از مراحل استدلال را به صراحت دنبال نمی کند: "آیا ارسطو در زمان اختراع لپ تاپ زنده بود؟" میکند. مجموعه داده روی سوالاتی تمرکز می کند که در آن چنین دنباله ای ضمنی است. تنها 2,780 سوال در مجموعه داده وجود دارد که تنها 918 سوال دارای پاراگراف هایی با شواهدی هستند که تمام مراحل استدلال را تقویت می کند. در کار فعلی، به این زیر مجموعه محدود می شود. در غیر این صورت، ما باید به یادگیری برخی از حقایق در طول آموزش LLM تکیه کنیم.

OPT-175B LLM، به طور پیش فرض، در پیروی از دستورالعمل ها خیلی خوب نیست. نیازی به تنظیم دقیق دستورالعمل ها و داده های مکالمه نداشت. برای حل مسئله پاسخگویی به سؤالات مبتنی بر شواهد، به مرحله فیلتر کردن داده ها و مرحله جستجوی درختی تقسیم می شود.

در مرحله فیلتر کردن، با داشتن یک سوال، توسعه دهندگان تمام پاراگراف ها را مرور می کنند و مرتبط ترین آنها را انتخاب می کنند. به عنوان مثال، با یک دستور چند شات، از LLM بخواهید پاسخ دهد (بله/خیر) که آیا یک پاراگراف داده شده با سوال پرسیده شده مرتبط است یا خیر. تست شده بر روی 300 زیر مجموعه از StrategyQA، که در آن هر سوال با یک پاراگراف، مرتبط یا غیر مرتبط، 50/50 مطابقت داشت. OPT-175B و text-davinci-002 الف ندارند کیفیت بسیار بالاتر از یک پایه تصادفی: تا 56٪. هر چه پیشرفته تر 11B Tk-Instruct در 61.6% خیلی بهتر نیست.

با توجه به کیفیت پایین این رویکرد، جایگزینی با هم قرار داده شد که میانگین احتمال ورود منفی (NLL) سوال را در ترکیب با پاراگراف قبلی متن در نظر گرفته و سپس نتایج را رتبه بندی می کند. بر روی یک مجموعه داده ارزیابی شد که در آن برای هر سوال، 100 پاراگراف وجود داشت، و تنها یک پاراگراف مرتبط بود (بنابراین حدس زدن تصادفی 1٪ را به دست می‌دهد. ما دقت بالای 1 را در 79٪ و top-5 را با 93٪ بدست آوردیم. برای این محاسبه معمولاً نیاز به دسترسی به خود مدل دارید که همیشه در API انجام نمی شود.

مرحله بعدی مرحله ساخت زنجیره های خروجی است. این کار از طریق جستجو از طریق درختی انجام می شود که در آن سوال ریشه است، و در هر سطح، پاراگراف های زیادی با شواهد احتمالی وجود دارد که به عنوان زمینه برای ایجاد مرحله بعدی استفاده می شود. هر مسیر از طریق درخت یک زنجیره خروجی بالقوه است. نتیجه گیری در مورد همه زنجیره های ممکن غیر واقعی است، بنابراین همه زنجیره های موجود رتبه بندی می شوند و زنجیره بالاترین رتبه گسترش می یابد. این چنین تنوعی از جستجوی پرتو است. هنگامی که یک پاسخ داده می شود یا حداکثر تعداد مجاز مراحل گذرانده می شود، فرآیند متوقف می شود.

مهمترین جزئیات، دو استراتژی رتبه بندی هستند که برای مرحله جستجوی درختی آزمایش شده اند. استراتژی اول بر اساس میانگین NLL کل زنجیره است، در حالی که استراتژی دوم به تفاوت میانگین NLL با و بدون پاراگراف (P)، با و بدون سوال (Q) می‌پردازد. در 918 سؤال موجود از StrategyQA، این رویکرد به طور قابل توجهی کیفیت پاسخ را نسبت به خط پایه با CoT (60٪) بهبود می بخشد. هر دو گزینه جستجو حدود 66٪ را ارائه می دهند (استراتژی با دلتا کمی بالاتر). اگر حقایق طلایی ارسال شود، کیفیت حدود 81٪ می شود که حد بالایی برای OPT است. به نظر می رسد دارکلانگ به جایی می رود اما به روشی متفاوت.

مقاله بر اساس تلگرام است پست.

درباره هوش مصنوعی بیشتر بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند

افشاگری از طریق پرونده های 13F نشان می دهد که سرمایه گذاران نهادی قابل توجهی در ETF های بیت کوین مشغول هستند و بر پذیرش فزاینده ...

بیشتر بدانید

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Injective با AltLayer نیروها را به هم می پیوندد تا امنیت مجدد را به inEVM بیاورد
کسب و کار گزارش خبری پیشرفته
Injective با AltLayer نیروها را به هم می پیوندد تا امنیت مجدد را به inEVM بیاورد
ممکن است 3، 2024
Masa با Teller همکاری می کند تا استخر وام MASA را معرفی کند، وام USDC را بر اساس امکان پذیر می کند
بازارها گزارش خبری پیشرفته
Masa با Teller همکاری می کند تا استخر وام MASA را معرفی کند، وام USDC را بر اساس امکان پذیر می کند
ممکن است 3، 2024
Velodrome نسخه بتا سوپرچین را در هفته‌های آینده عرضه می‌کند و در سراسر بلاک‌چین‌های OP Stack Layer 2 گسترش می‌یابد
بازارها گزارش خبری پیشرفته
Velodrome نسخه بتا سوپرچین را در هفته‌های آینده عرضه می‌کند و در سراسر بلاک‌چین‌های OP Stack Layer 2 گسترش می‌یابد
ممکن است 3، 2024
CARV شراکت با Aethir را برای تمرکززدایی لایه داده خود و توزیع جوایز اعلام می کند.
کسب و کار گزارش خبری پیشرفته
CARV شراکت با Aethir را برای تمرکززدایی لایه داده خود و توزیع جوایز اعلام می کند.
ممکن است 3، 2024
CRYPTOMERIA LABS PTE. محدود