ژوئیه 11، 2023

GPT-4جزئیات فاش شده مقیاس عظیم و معماری چشمگیر آن را روشن می کند

تاریخ انتشار: 11 جولای 2023 ساعت 7:19 بروزرسانی: 11 جولای 2023 ساعت 7:23 ق.ظ.

ویرایش و بررسی شده: 11 ژوئیه 2023، ساعت 7:19 صبح

به طور خلاصه

اطلاعات لو رفته در مورد GPT-4 باعث ایجاد هیجان در جامعه هوش مصنوعی شده است. با بیش از 10 برابر پارامترهای قبلی خود، GPT-3, GPT-4 تخمین زده می شود که 1.8 تریلیون پارامتر در 120 لایه توزیع شده است.

OpenAI مدل مخلوطی از خبرگان (MoE) را با استفاده از 16 متخصص با 111 میلیارد پارامتر برای پرسپترون های چند لایه (MLP) اجرا کرد. فرآیند استنتاج کارآمد مدل از 280 میلیارد پارامتر و 560 TFLOP در هر گذر به جلو استفاده می کند که نشان می دهد OpenAIتعهد به به حداکثر رساندن کارایی و مقرون به صرفه بودن. مجموعه داده آموزشی این مدل شامل 13 تریلیون توکن با تنظیم دقیق از 8k تا 32k است.

OpenAI از موازی سازی در GPT-4 برای استفاده از پتانسیل کامل پردازنده‌های گرافیکی A100 خود، با استفاده از موازی‌سازی تانسور ۸ طرفه و موازی خط لوله ۱۵ طرفه. روند آموزش گسترده و منابع فشرده بود و هزینه های آن بین 8 تا 15 میلیون دلار بود.

GPT-4هزینه استنتاج تقریباً سه برابر بیشتر از مدل قبلی خود است، اما همچنین شامل توجه چند پرس و جو، دسته بندی پیوسته و رمزگشایی حدسی است. معماری استنتاج بر روی خوشه ای از 128 پردازنده گرافیکی که در مراکز داده متعدد توزیع شده اند، عمل می کند.

نشت اخیر از جزئیات پیرامون GPT-4 موج شوک را در جامعه هوش مصنوعی ایجاد کرده است. اطلاعات فاش شده که از یک منبع نامشخص به دست آمده است، نگاهی اجمالی به قابلیت‌های الهام‌بخش و مقیاس بی‌سابقه این مدل پیشگامانه ارائه می‌دهد. ما حقایق را تجزیه خواهیم کرد و جنبه های کلیدی که باعث ایجاد آن می شوند را آشکار خواهیم کرد GPT-4 یک شگفتی واقعی تکنولوژیکی

GPT-4جزئیات فاش شده مقیاس عظیم و معماری چشمگیر آن را روشن می کند — اعتبار: Metaverse Post (mpost.io)

فهرست مندرجات

GPT-4تعداد پارامترهای عظیم
مدل ترکیبی کارشناسان (MOE)
الگوریتم مسیریابی MoE ساده شده
استنتاج کارآمد
مجموعه داده های آموزشی گسترده
اصلاح از طریق تنظیم دقیق از 8K به 32K
مقیاس‌بندی با پردازنده‌های گرافیکی از طریق Parallelism
هزینه های آموزش و چالش های استفاده
معاوضه در ترکیبی از کارشناسان
هزینه استنتاج
توجه چند پرس و جو
بچینگ پیوسته
بینایی
رمزگشایی گمانه زنی
معماری استنتاج
اندازه و ترکیب مجموعه داده
شایعات و گمانه زنی ها
نظر خبرنگار
شیفتگی با GPT-4دانش
تطبیق پذیری GPT-4

GPT-4تعداد پارامترهای عظیم

یکی از بارزترین افشاگری‌های این نشت، وسعت بسیار زیاد آن است GPT-4. این دستگاه دارای اندازه حیرت انگیزی است، با بیش از 10 برابر پارامترهای قبلی خود، GPT-3. تخمین زده می شود که مجموع خیره کننده آن حدود 1.8 باشد تریلیون پارامتر در 120 لایه قابل توجه توزیع شده است. این افزایش قابل توجه در مقیاس بدون شک به GPT-4قابلیت های پیشرفته و پتانسیل پیشرفت های اساسی.

مدل ترکیبی کارشناسان (MOE)

برای اطمینان از هزینه های معقول با حفظ عملکرد استثنایی، OpenAI مدل مخلوطی از خبرگان (MOE) را در GPT-4. با استفاده از 16 متخصص در مدل، که هر کدام از حدود 111 میلیارد پارامتر برای پرسپترون های چند لایه (MLP) تشکیل شده است. OpenAI بهینه سازی موثر تخصیص منابع قابل ذکر است، در طول هر پاس رو به جلو، تنها دو متخصص مسیریابی می‌شوند و نیازهای محاسباتی را بدون به خطر انداختن نتایج به حداقل می‌رسانند. این رویکرد نوآورانه نشان می دهد OpenAIتعهد به به حداکثر رساندن کارایی و مقرون به صرفه بودن در مدل های خود.

نشت بسیار جالب و مفصل از GPT-4 معماری، با تجزیه و تحلیل عالی از استدلال پشت آن و مفاهیم آن – توسط @dylan522p :https://t.co/eHE7VlGY5V

خلاصه‌ای بدون پرداخت را می‌توانید در اینجا پیدا کنید: https://t.co/rLxw5s9ZDt
- جان پی هریس (@jphme) ژوئیه 11، 2023

الگوریتم مسیریابی MoE ساده شده

در حالی که این مدل اغلب الگوریتم های مسیریابی پیشرفته را برای انتخاب کارشناسانی برای مدیریت هر توکن بررسی می کند. OpenAIرویکرد در حال حاضر GPT-4 مدل ظاهرا ساده تر است. ادعا می شود که الگوریتم مسیریابی به کار گرفته شده توسط هوش مصنوعی نسبتا ساده است، اما با این وجود موثر است. تقریباً 55 میلیارد پارامتر مشترک برای توجه، توزیع کارآمد توکن ها را به متخصصان مناسب در مدل تسهیل می کند.

استنتاج کارآمد

GPT-4فرآیند استنتاج، کارایی و قدرت محاسباتی آن را نشان می دهد. هر پاس رو به جلو که به تولید یک توکن اختصاص داده شده است، تقریباً از 280 میلیارد پارامتر و 560 TFLOP (عملیات ممیز شناور ترا در هر ثانیه) استفاده می کند. این در تضاد کامل با مقیاس عظیم است GPT-4، با 1.8 تریلیون پارامتر و 3,700 TFLOP در هر گذر به جلو در یک مدل کاملا متراکم. استفاده کارآمد از منابع برجسته است OpenAIتعهد به دستیابی به عملکرد بهینه بدون نیازهای محاسباتی بیش از حد.

مجموعه داده های آموزشی گسترده

GPT-4 بر روی یک مجموعه داده عظیم شامل تقریباً 13 تریلیون توکن آموزش دیده است. توجه به این نکته مهم است که این توکن‌ها هم شامل توکن‌های منحصربه‌فرد و هم توکن‌هایی هستند که اعداد دوره را محاسبه می‌کنند. را فرآیند آموزش شامل دو دوره برای داده های مبتنی بر متن و چهار دوره برای داده های مبتنی بر کد. OpenAI میلیون‌ها ردیف از داده‌های تنظیم دقیق دستورالعمل را که از ScaleAI و به صورت داخلی منبع داده شده بود، برای اصلاح عملکرد مدل استفاده کرد.

مرحله قبل از آموزش GPT-4 از طول زمینه 8K استفاده کرد. متعاقباً، این مدل تحت تنظیمات دقیق قرار گرفت و در نتیجه نسخه 32k ارائه شد. این پیشرفت بر اساس مرحله قبل از آموزش ایجاد می شود و قابلیت های مدل را افزایش می دهد و آن را برای وظایف خاص تنظیم می کند.

مقیاس‌بندی با پردازنده‌های گرافیکی از طریق Parallelism

OpenAI از قدرت موازی سازی استفاده کرد GPT-4 تا از پتانسیل کامل پردازنده های گرافیکی A100 خود استفاده کنند. آنها از موازی سازی تانسور 8 طرفه استفاده کردند که پردازش موازی را به حداکثر می رساند، زیرا این حد برای NVLink است. علاوه بر این، موازی سازی خط لوله 15 جهته برای افزایش بیشتر عملکرد مورد استفاده قرار گرفت. در حالی که تکنیک‌های خاصی مانند ZeRo Stage 1 احتمالاً به کار گرفته شده‌اند، روش‌شناسی دقیق هنوز فاش نشده است.

هزینه های آموزش و چالش های استفاده

آموزش GPT-4 تلاشی گسترده و نیازمند منابع بود. OpenAI تقریباً 25,000 پردازنده گرافیکی A100 را در یک دوره 90 تا 100 روزه اختصاص داد که با نرخ استفاده تقریباً 32٪ تا 36٪ MFU (بیشتر استفاده می شود). روند آموزش با شکست‌های متعددی مواجه شد که مستلزم راه‌اندازی مجدد مکرر از پست‌های بازرسی بود. اگر 1 دلار در هر ساعت A100 تخمین زده شود، هزینه های آموزشی برای این اجرا به تنهایی حدود 63 میلیون دلار خواهد بود.

معاوضه در ترکیبی از کارشناسان

پیاده‌سازی مدل ترکیبی از خبرگان، چندین معاوضه را ارائه می‌دهد. در شرایطی که GPT-4, OpenAI به جای تعداد بیشتر، 16 متخصص را انتخاب کرد. این تصمیم منعکس کننده تعادل بین دستیابی به نتایج زیان برتر و اطمینان از تعمیم پذیری در بین وظایف مختلف است. کارشناسان بیشتر می توانند چالش هایی را از نظر تعمیم وظایف و همگرایی ارائه دهند. OpenAIانتخاب برای ورزش کردن احتیاط در کارشناس انتخاب با تعهد آنها به عملکرد قابل اعتماد و قوی مطابقت دارد.

هزینه استنتاج

در مقایسه با مدل قبلی خود، مدل داوینچی با پارامتر 175 میلیارد، GPT-4هزینه استنتاج تقریباً سه برابر بیشتر است. این اختلاف را می توان به عوامل متعددی از جمله خوشه های بزرگتر مورد نیاز برای حمایت نسبت داد GPT-4 و استفاده کمتری که در طول استنتاج به دست آمد. برآوردها نشان می دهد که هزینه تقریبی 0.0049 دلار به ازای هر 1,000 توکن برای 128 پردازنده گرافیکی A100 و 0.0021 دلار سنت به ازای هر 1,000 توکن برای 128 پردازنده گرافیکی H100 در هنگام استنباط وجود دارد. GPT-4 با 8k این ارقام استفاده مناسب و اندازه دسته‌ای بالا را فرض می‌کنند که ملاحظات مهمی برای بهینه‌سازی هزینه است.

توجه چند پرس و جو

OpenAI از توجه چند پرس و جو (MQA)، تکنیکی که به طور گسترده در این زمینه استفاده می شود، استفاده می کند GPT-4 همچنین. با پیاده سازی MQA، مدل تنها به یک هد نیاز دارد که به طور قابل توجهی ظرفیت حافظه لازم برای حافظه پنهان کلید-مقدار (کش KV) را کاهش می دهد. با وجود این بهینه سازی، باید توجه داشت که دسته 32k GPT-4 نمی‌توان آن را روی پردازنده‌های گرافیکی A40 با ظرفیت 100 گیگابایت جای داد و 8k با حداکثر اندازه دسته محدود می‌شود.

بچینگ پیوسته

برای ایجاد تعادل بین هزینه تأخیر و استنتاج، OpenAI هم اندازه های متغیر و هم بچینگ پیوسته را در بر می گیرد GPT-4. این رویکرد تطبیقی امکان پردازش انعطاف‌پذیر و کارآمد، بهینه‌سازی استفاده از منابع و کاهش سربار محاسباتی را فراهم می‌کند.

GPT-4 یک رمزگذار دید مجزا در کنار رمزگذار متن معرفی می‌کند که دارای توجه متقابل بین این دو است. این معماری که یادآور فلامینگو است، پارامترهای دیگری را به تعداد 1.8 تریلیون پارامتر از قبل چشمگیر اضافه می کند. GPT-4. مدل بینایی با استفاده از تقریباً 2 تریلیون توکن پس از مرحله پیش‌آموزشی فقط متنی، تحت تنظیم دقیق جداگانه قرار می‌گیرد. این قابلیت بینایی قدرت می بخشد عوامل خودمختار برای خواندن صفحات وب، رونویسی تصاویر، و تفسیر محتوای ویدیویی - یک دارایی ارزشمند در عصر داده های چند رسانه ای.

رمزگشایی گمانه زنی

یک جنبه جالب از GPT-4استراتژی استنتاج استفاده احتمالی از رمزگشایی حدسی است. این رویکرد شامل به کارگیری کوچکتر و سریعتر است مدل برای ایجاد پیش بینی برای چندین توکن از قبل. سپس این توکن‌های پیش‌بینی‌شده به صورت یک دسته به یک مدل «اوراکل» بزرگ‌تر وارد می‌شوند. اگر کوچکتر پیش بینی های مدل مطابق با توافق مدل بزرگتر، چندین توکن را می توان با هم رمزگشایی کرد. با این حال، اگر مدل بزرگ‌تر توکن‌های پیش‌بینی‌شده توسط مدل پیش‌نویس را رد کند، بقیه دسته کنار گذاشته می‌شوند و استنتاج تنها با مدل بزرگ‌تر ادامه می‌یابد. این رویکرد امکان رمزگشایی کارآمد را فراهم می کند در حالی که به طور بالقوه دنباله های احتمال کمتری را می پذیرد. شایان ذکر است که این گمانه زنی در حال حاضر تایید نشده است.

معماری استنتاج

GPT-4فرآیند استنتاج بر روی خوشه‌ای از 128 پردازنده گرافیکی کار می‌کند که در چندین مرکز داده در مکان‌های مختلف توزیع شده‌اند. این زیرساخت از موازی سازی تانسور 8 طرفه و موازی خط لوله 16 طرفه برای به حداکثر رساندن کارایی محاسباتی استفاده می کند. هر گره، متشکل از 8 GPU، تقریباً 130 میلیارد پارامتر را در خود جای می دهد. با سایز مدل 120 لایه GPT-4 می تواند در 15 گره مختلف قرار گیرد، احتمالاً به دلیل نیاز به محاسبه جاسازی ها، لایه های کمتری در گره اول وجود دارد. این انتخاب‌های معماری استنتاج با کارایی بالا را تسهیل می‌کنند و نشان می‌دهند OpenAIتعهد به پیش بردن مرزهای کارایی محاسباتی.

اندازه و ترکیب مجموعه داده

GPT-4 بر روی 13 تریلیون توکن قابل توجه آموزش داده شد و مجموعه گسترده ای از متن را برای یادگیری در اختیار آن قرار داد. با این حال، همه نشانه ها را نمی توان با مجموعه داده های شناخته شده مورد استفاده در طول آموزش به حساب آورد. در حالی که مجموعه داده هایی مانند CommonCrawl و RefinedWeb بخش قابل توجهی از داده های آموزش، بخشی از توکن ها باقی می ماند که نامشخص هستند، که اغلب به عنوان داده های "مخفی" شناخته می شوند.

شایعات و گمانه زنی ها

گمانه زنی هایی در مورد منشاء این داده های فاش نشده ظاهر شده است. یک شایعه حاکی از آن است که شامل محتوایی از پلتفرم‌های محبوب مانند توییتر، ردیت و یوتیوب است که تأثیر بالقوه محتوای تولید شده توسط کاربر را در شکل‌دهی برجسته می‌کند. GPT-4پایگاه دانش علاوه بر این، حدس‌هایی درباره گنجاندن مجموعه‌های گسترده مانند LibGen، مخزن میلیون‌ها کتاب، و Sci-Hub، پلتفرمی که دسترسی به مقالات علمی متعددی را فراهم می‌کند، وجود دارد. این تصور که GPT-4 در کل GitHub آموزش دیده بود در بین علاقه مندان به هوش مصنوعی نیز منتشر شده است.

نظر خبرنگار

اگرچه شایعات زیادی وجود دارد، اما مهم است که با احتیاط به این شایعات نزدیک شوید. آموزش از GPT-4 ممکن است از مجموعه داده های ویژه ای که از کتاب های درسی کالج تشکیل شده است، بهره زیادی برده باشد. این مجموعه داده، که طیف وسیعی از دروس و موضوعات را پوشش می‌دهد، می‌توانست به سختی با دست جمع‌آوری شود. کتاب های درسی کالج یک پایگاه دانش ساختاریافته و جامع را ارائه می دهند که می تواند با موفقیت برای آموزش یک مدل زبان مورد استفاده قرار گیرد و به راحتی به فایل های متنی تبدیل می شود. گنجاندن چنین مجموعه داده ای ممکن است این تصور را ایجاد کند که GPT-4 در زمینه های مختلف آگاه است.

شیفتگی با GPT-4دانش

یکی از جنبه های جذاب GPT-4آموزش توانایی آن برای نشان دادن آشنایی با کتاب های خاص و حتی یادآوری شناسه های منحصر به فرد از پلتفرم هایی مانند Project Euler است. محققان سعی کرده اند بخش های حفظ شده کتاب ها را از آن استخراج کنند GPT-4 برای به دست آوردن بینش در مورد آموزش آن، بیشتر کنجکاوی در مورد عملکرد درونی مدل را تحریک می کند. این اکتشافات ظرفیت شگفت انگیز را برجسته می کند GPT-4 برای حفظ اطلاعات و تأکید بر قابلیت های چشمگیر مدل های زبان در مقیاس بزرگ.

تطبیق پذیری GPT-4

طیف گسترده ای از موضوعات و زمینه هایی که GPT-4 به ظاهر می تواند با ویترین ها تطبیق پذیری آن را درگیر کند. خواه پاسخ دادن به سؤالات پیچیده در علوم رایانه باشد یا در بحث های فلسفی، GPT-4آموزش بر روی یک مجموعه داده متنوع، آن را برای تعامل با کاربران از حوزه های مختلف مجهز می کند. این تطبیق پذیری ناشی از قرار گرفتن در معرض مجموعه گسترده ای از منابع متنی است که آن را به ابزاری ارزشمند برای طیف گسترده ای از کاربران تبدیل می کند.

درباره هوش مصنوعی بیشتر بخوانید:

برچسب ها:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.

مقالات بیشتر

دامیر یالالوف