15 مايو 2023

برامج ماجستير: المسار الجديد لضبط النماذج العصبية في المواقف المعقدة

by دامير يالالوف

تم النشر: 15 مايو 2023 الساعة 3:42 صباحًا تم التحديث: 15 مايو 2023 الساعة 3:42 صباحًا

by كارولينا جاسزكس

تم التحرير والتحقق من صحة الحقائق: 15 مايو 2023 الساعة 3:42 صباحًا

في سطور

يقترح المؤلفون مسارًا بديلاً يسمى LLM Programs ، والذي يمكن اعتباره تطويرًا للتعلم في السياق.

مفتاح حل مشكلة من خلال برنامج LLM هو القدرة على تحليل حل المشكلة إلى سلسلة من الخطوات الأبسط.

هناك مجالان رئيسيان لتخصيص LLM: الضبط الدقيق (أو التدريب الإضافي) للنموذج الأساسي المدرب مسبقًا والتعلم في السياق. يتطلب الضبط الدقيق موارد حوسبة كبيرة وجمع البيانات والبنية التحتية للقيام بذلك ثم استضافة نماذج دقيقة. وفي الوقت نفسه ، يتضمن التعلم في السياق تجميع الموجه الصحيح مع أمثلة لحل المشكلة ، مثل سلسلة الفكر (CoT). ومع ذلك ، هناك بعض الصعوبات ، مثل الحجم المحدود للنص الذي يمكن تقديمه إلى النموذج وحقيقة أنه في موجه معقد متعدد التمريرات ، يمكن أن تتداخل الخطوات مع بعضها البعض ، ويمكن تشتيت انتباه النموذج بشيء ما لا ينبغي تشتيت انتباهه في الوقت الحالي. يقترح المؤلفون مسارًا بديلاً يسمى برامج ماجستير، والتي يمكن اعتبارها تطويرًا للتعلم في السياق.

برامج ماجستير: المسار الجديد لضبط النماذج العصبية في المواقف المعقدة

أوصى: الدليل النهائي للهندسة السريعة 2023

تم تضمين LLM في البرنامج (بتنسيق لغة برمجة، على سبيل المثال ، في بايثون). هذا الرمز الخارجي مسؤول عن تخزين الحالة والحفاظ على النموذج خطوة بخطوة. لها بعض المزايا الرئيسية: يتم تكييف لغات البرمجة لهذا ، ويزداد حجم السياق المتاح ، ولا تتداخل الخطوات مع بعضها البعض. مفتاح حل مشكلة من خلال برنامج LLM هو القدرة على تحليل حل المشكلة إلى سلسلة من الخطوات الأبسط. يختلف هذا النهج عن الأعمال السابقة ، حيث استخدم النموذج أدوات خارجية مثل الآلات الحاسبة أو مترجمي الشفرات للحفاظ على الدولة. هذا النهج جيد لأنه من الممكن وصف مهمة معقدة ومنتشرة بهذه الطريقة ، مما يسهل اختبار الجودة وتصحيحها وتقييمها.

بالإضافة إلى ذلك ، لا يوجد تداخل بين الخطوات ، مما يسهل العمل مع LLM. أنظمة الأسئلة والأجوبة ليست جديدة أيضًا ؛ لقد كانوا موجودين قبل وقت طويل من LLMs. كيف يتم حل مهمة الإجابة على الأسئلة الآن؟

يتم تحديث المواقع بشكل متكرر ، لذا أ نموذج مجمدة ليس خيارا سرعان ما تصبح قديمة ولن تكون قادرة على الإجابة على الأسئلة المتعلقة بالمنتجات الجديدة. إعادة التدريب المستمر للنموذج لكل تحديث ليس خيارًا واقعيًا: إنه مكلف ويستغرق وقتًا طويلاً. بدلاً من ذلك ، عادةً ما يتم فهرسة صفحات موقع الويب ، ووضعها في نوع من قواعد البيانات ، وغالبًا ما يتم توجيهها. بناءً على طلب المستخدم ، يتم سحب المستندات ذات الصلة وإرسالها كسياق إلى LLM.

في مثل هذا النموذج ، يتم حل المشكلة بشكل طبيعي من خلال برنامج LLM. على سبيل المكافأة يصبح ممكنا لتنفيذ منطق متعدد المسارات أكثر تعقيدًا لا يتناسب تمامًا مع السياق.

تم اختباره على مجموعة بيانات StrategyQA تحتوي على مشاكل التصنيف الثنائية ، والتي يتضمن حلها التفكير متعدد الطرق. مثل "هل يخترق ضوء الشمس أعمق مكان في البحر الأسود؟". للإجابة ، تحتاج إلى العثور على أقصى عمق (2 كم) وكيف يخترق الضوء العميق الماء (1 كم) ، ثم استخلاص النتيجة. دعنا نلقي نظرة على مثال آخر لسؤال: "هل استخدم أرسطو جهاز كمبيوتر محمول؟" هذا السؤال ليس مباشرًا ولا يتبع تسلسل خطوات التفكير بشكل صريح مثل "هل كان أرسطو على قيد الحياة عندما تم اختراع الكمبيوتر المحمول؟" يفعل. تركز مجموعة البيانات على الأسئلة التي يكون فيها مثل هذا التسلسل ضمنيًا. لا يوجد سوى 2,780 سؤالًا في مجموعة البيانات ، منها 918 سؤالًا فقط تحتوي على فقرات بها أدلة تعزز جميع خطوات التفكير. في العمل الحالي ، فإنه يحد من هذه المجموعة الفرعية ؛ خلاف ذلك ، يجب علينا الاعتماد على تعلم LLM بعض الحقائق أثناء التدريب المسبق.

OPT-175B LLM ، افتراضيًا ، ليس جيدًا في اتباع التعليمات ؛ لم يكن هناك حاجة إلى صقل التعليمات ولا على بيانات المحادثة. لحل مشكلة الإجابة على الأسئلة المدعومة بالأدلة ، يتم تقسيمها إلى مرحلة تصفية البيانات ومرحلة البحث الشجري.

في مرحلة التصفية ، وبعد طرح سؤال ، يتصفح المطورون جميع الفقرات ويختارون الأكثر صلة بالموضوع. على سبيل المثال ، مع موجه بضع لقطات ، اطلب من LLM الإجابة (نعم / لا) ما إذا كانت فقرة معينة ذات صلة بالسؤال المطروح. تم اختباره على 300 مجموعة فرعية من StrategyQA ، حيث تمت مطابقة كل سؤال مع فقرة ، ذات صلة أم لا ، 50/50. لا يحتوي OPT-175B و text-davinci-002 على ملف جودة أعلى بكثير من خط الأساس العشوائي: حتى 56٪. الأكثر تقدمًا 11B المعارف التقليدية ليس أفضل بكثير بنسبة 61.6٪.

نظرًا لسوء جودة هذا النهج ، تم وضع بديل معًا يأخذ في الاعتبار متوسط احتمال السجل السلبي (NLL) للسؤال جنبًا إلى جنب مع الفقرة السابقة من النص ثم يقوم بترتيب النتائج. تم التقييم على مجموعة بيانات حيث يوجد 100 فقرة لكل سؤال ، وفقرة واحدة فقط ذات صلة (لذا فإن التخمين العشوائي يعطي 1٪). حصلنا على دقة أعلى 1 بنسبة 79٪ وأعلى 5 بنسبة 93٪. لإجراء هذا الحساب ، تحتاج عادةً إلى الوصول إلى النموذج نفسه ، وهو ما لا يتم إجراؤه دائمًا في واجهة برمجة التطبيقات.

بعد ذلك تأتي مرحلة بناء سلاسل الإخراج. يتم ذلك من خلال البحث من خلال شجرة حيث يكون السؤال هو الجذر ، وفي كل مستوى ، هناك العديد من الفقرات مع الأدلة المحتملة المستخدمة كسياق لإنشاء الخطوة التالية. كل مسار عبر الشجرة هو سلسلة مخرجات محتملة. من غير الواقعي استخلاص استنتاج بشأن جميع السلاسل الممكنة ، لذلك يتم ترتيب جميع السلاسل المتاحة ، ويتم توسيع سلسلة الترتيب الأعلى. هذا هو مثل هذا الاختلاف في البحث الشعاعي. تتوقف العملية عند إجراء استجابة أو تجاوز الحد الأقصى المسموح به لعدد الخطوات.

أهم التفاصيل هي استراتيجيتي الترتيب اللتين تم اختبارهما لخطوة البحث الشجري. تعتمد الإستراتيجية الأولى على متوسط NLL للسلسلة بأكملها ، بينما تنظر الإستراتيجية الثانية إلى متوسط الفرق في NLL مع وبدون فقرة (P) ، مع وبدون سؤال (Q). بالنسبة للأسئلة المتاحة البالغ عددها 918 سؤالاً من StrategyQA ، فإن هذا النهج يحسن بشكل كبير جودة الإجابة بالنسبة إلى خط الأساس مع CoT (60٪) ؛ يعطي كلا خياري البحث حوالي 66٪ (الإستراتيجية ذات دلتا أعلى قليلاً). إذا تم تقديم الحقائق الذهبية ، تصبح الجودة حوالي 81٪ ، وهو الحد الأعلى لـ OPT. يبدو أن Darklang يذهب إلى هناك في مكان ما ولكن بطريقة مختلفة قليلاً.

المقال مبني على Telegram بريد.. اعلاني.

اقرأ المزيد عن الذكاء الاصطناعي:

الوسوم (تاج):

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.

المزيد من المقالات

دامير يالالوف