FLM-101B: یک مدل زبانی در مقیاس 101B بسیار مقرون به صرفه با مدل های پیشرو هوش مصنوعی رقابت می کند.
به طور خلاصه
LLM چینی، LM-101B، می تواند با بودجه 100 هزار دلاری آموزش ببیند و عملکردی قابل مقایسه با مدل های شناخته شده ای مانند GPT-3 و GLM-130B.
محققان چینی از LLM جدید رونمایی کردند FLM-101B، یک LLM فقط رمزگشا با 101 میلیارد پارامتر قابل توجه. این توسعه یک جایگزین مقرون به صرفه برای کاربردهای تحقیقاتی و عملی فراهم می کند.
آنچه FLM-101B را متمایز می کند عملکرد استثنایی آن است که با بودجه نسبتاً متوسطی به دست آمده است. در حالی که به خوبی شناخته شده است که آموزش LLM ها از ابتدا می تواند به سرمایه گذاری های نجومی نیاز داشته باشد، سازندگان FLM-101B نشان داده اند که آموزش مدلی با 101 میلیارد پارامتر تنها با بودجه 100 هزار دلاری امکان پذیر است.
نتایج تجربی چیزی جز چشمگیر نیستند. FLM-101B سطوح عملکرد قابل مقایسه با مستقر و نیازمند منابع را نشان داده است مدل هایی مانند GPT-3 و GLM-130B. این مقایسه پتانسیل فوقالعاده این مدل مقرونبهصرفه، بهویژه در معیارهای IQ با زمینههای پیچیده که در دادههای آموزشی وجود ندارد، برجسته میکند.
سازندگان FLM-101B در اقدامی که بر تعهد آنها به پیشبرد تحقیق و توسعه هوش مصنوعی تاکید می کند، این مدل را منبع باز ساخته اند. محققان و توسعه دهندگان در سراسر جهان اکنون می توانند به این LLM در مقیاس 101B برای کاربردهای مختلف دسترسی داشته باشند و از آن به زبان های چینی و انگلیسی استفاده کنند.
مدل FLM-101B از یک رویکرد آموزشی منحصر به فرد استفاده می کند. این به سرعت دانش را از یک مدل کوچکتر 16 میلیارد پارامتری در مراحل اولیه آموزش انباشته می کند و به تدریج تا 101 میلیارد پارامتر مقیاس می شود. این رویکرد افزایشی به طور قابل توجهی هزینه های آموزشی را کاهش می دهد و از نظر مالی برای طیف وسیع تری از پروژه ها امکان پذیر می شود.
یکی از ویژگی های برجسته FLM-101B پشتیبانی آن از گسترش کارآمد اندازه پنجره در طول استنتاج است. این امر از طریق استفاده از جاسازی موقعیت چرخشی xPos به دست میآید که به مدل اجازه میدهد تا زمینه وسیعتری را مدیریت کند و سازگاری و قابلیت استفاده آن را افزایش دهد.
FLM-101B روی خوشه ای از 24 سرور GPU DGX-A800 در کمتر از 26 روز آموزش داده شد. این شاهکار چشمگیر بر مقیاس پذیری و استفاده کارآمد از منابع مدل تأکید می کند. پایگاه کد آموزشی این مدل که از Megatron-LM اقتباس شده است، به زودی به عنوان منبع باز در دسترس خواهد بود و بینش های ارزشمندی را برای جامعه هوش مصنوعی ارائه می دهد.
سازندگان FLM-101B به محدودیتهای بالقوه، از جمله قرار گرفتن مدل در معرض نمونههای ناامن در مجموعه آموزشی به دلیل ماهیت باز مجموعه داده، اذعان دارند. این هشدار به عنوان یادآوری اهمیت استفاده مسئولانه از هوش مصنوعی و تعدیل محتوا.
در حالی که FLM-101B به نتایج قابل توجهی دست یافته است، سازندگان زمینه های بهبود را تصدیق می کنند. فرآیند استنتاج مدل، اگرچه قدرتمند است، اما هنوز به طور کامل بهینه نشده است که منجر به استفاده بیشتر از منابع و کاهش سرعت می شود. با این حال، برنامههایی برای معرفی Flash Attention در استنتاج و رفع این محدودیت در حال انجام است.
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.