GPT-4جزئیات فاش شده مقیاس عظیم و معماری چشمگیر آن را روشن می کند
به طور خلاصه
اطلاعات لو رفته در مورد GPT-4 باعث ایجاد هیجان در جامعه هوش مصنوعی شده است. با بیش از 10 برابر پارامترهای قبلی خود، GPT-3, GPT-4 تخمین زده می شود که 1.8 تریلیون پارامتر در 120 لایه توزیع شده است.
OpenAI مدل مخلوطی از خبرگان (MoE) را با استفاده از 16 متخصص با 111 میلیارد پارامتر برای پرسپترون های چند لایه (MLP) اجرا کرد. فرآیند استنتاج کارآمد مدل از 280 میلیارد پارامتر و 560 TFLOP در هر گذر به جلو استفاده می کند که نشان می دهد OpenAIتعهد به به حداکثر رساندن کارایی و مقرون به صرفه بودن. مجموعه داده آموزشی این مدل شامل 13 تریلیون توکن با تنظیم دقیق از 8k تا 32k است.
OpenAI از موازی سازی در GPT-4 برای استفاده از پتانسیل کامل پردازندههای گرافیکی A100 خود، با استفاده از موازیسازی تانسور ۸ طرفه و موازی خط لوله ۱۵ طرفه. روند آموزش گسترده و منابع فشرده بود و هزینه های آن بین 8 تا 15 میلیون دلار بود.
GPT-4هزینه استنتاج تقریباً سه برابر بیشتر از مدل قبلی خود است، اما همچنین شامل توجه چند پرس و جو، دسته بندی پیوسته و رمزگشایی حدسی است. معماری استنتاج بر روی خوشه ای از 128 پردازنده گرافیکی که در مراکز داده متعدد توزیع شده اند، عمل می کند.
نشت اخیر از جزئیات پیرامون GPT-4 موج شوک را در جامعه هوش مصنوعی ایجاد کرده است. اطلاعات فاش شده که از یک منبع نامشخص به دست آمده است، نگاهی اجمالی به قابلیتهای الهامبخش و مقیاس بیسابقه این مدل پیشگامانه ارائه میدهد. ما حقایق را تجزیه خواهیم کرد و جنبه های کلیدی که باعث ایجاد آن می شوند را آشکار خواهیم کرد GPT-4 یک شگفتی واقعی تکنولوژیکی
- GPT-4تعداد پارامترهای عظیم
- مدل ترکیبی کارشناسان (MOE)
- الگوریتم مسیریابی MoE ساده شده
- استنتاج کارآمد
- مجموعه داده های آموزشی گسترده
- اصلاح از طریق تنظیم دقیق از 8K به 32K
- مقیاسبندی با پردازندههای گرافیکی از طریق Parallelism
- هزینه های آموزش و چالش های استفاده
- معاوضه در ترکیبی از کارشناسان
- هزینه استنتاج
- توجه چند پرس و جو
- بچینگ پیوسته
- بینایی
- رمزگشایی گمانه زنی
- معماری استنتاج
- اندازه و ترکیب مجموعه داده
- شایعات و گمانه زنی ها
- نظر خبرنگار
- شیفتگی با GPT-4دانش
- تطبیق پذیری GPT-4
GPT-4تعداد پارامترهای عظیم
یکی از بارزترین افشاگریهای این نشت، وسعت بسیار زیاد آن است GPT-4. این دستگاه دارای اندازه حیرت انگیزی است، با بیش از 10 برابر پارامترهای قبلی خود، GPT-3. تخمین زده می شود که مجموع خیره کننده آن حدود 1.8 باشد تریلیون پارامتر در 120 لایه قابل توجه توزیع شده است. این افزایش قابل توجه در مقیاس بدون شک به GPT-4قابلیت های پیشرفته و پتانسیل پیشرفت های اساسی.
مدل ترکیبی کارشناسان (MOE)
برای اطمینان از هزینه های معقول با حفظ عملکرد استثنایی، OpenAI مدل مخلوطی از خبرگان (MOE) را در GPT-4. با استفاده از 16 متخصص در مدل، که هر کدام از حدود 111 میلیارد پارامتر برای پرسپترون های چند لایه (MLP) تشکیل شده است. OpenAI بهینه سازی موثر تخصیص منابع قابل ذکر است، در طول هر پاس رو به جلو، تنها دو متخصص مسیریابی میشوند و نیازهای محاسباتی را بدون به خطر انداختن نتایج به حداقل میرسانند. این رویکرد نوآورانه نشان می دهد OpenAIتعهد به به حداکثر رساندن کارایی و مقرون به صرفه بودن در مدل های خود.
نشت بسیار جالب و مفصل از GPT-4 معماری، با تجزیه و تحلیل عالی از استدلال پشت آن و مفاهیم آن – توسط @dylan522p :https://t.co/eHE7VlGY5V
- جان پی هریس (@jphme) ژوئیه 11، 2023
خلاصهای بدون پرداخت را میتوانید در اینجا پیدا کنید: https://t.co/rLxw5s9ZDt
الگوریتم مسیریابی MoE ساده شده
در حالی که این مدل اغلب الگوریتم های مسیریابی پیشرفته را برای انتخاب کارشناسانی برای مدیریت هر توکن بررسی می کند. OpenAIرویکرد در حال حاضر GPT-4 مدل ظاهرا ساده تر است. ادعا می شود که الگوریتم مسیریابی به کار گرفته شده توسط هوش مصنوعی نسبتا ساده است، اما با این وجود موثر است. تقریباً 55 میلیارد پارامتر مشترک برای توجه، توزیع کارآمد توکن ها را به متخصصان مناسب در مدل تسهیل می کند.
استنتاج کارآمد
GPT-4فرآیند استنتاج، کارایی و قدرت محاسباتی آن را نشان می دهد. هر پاس رو به جلو که به تولید یک توکن اختصاص داده شده است، تقریباً از 280 میلیارد پارامتر و 560 TFLOP (عملیات ممیز شناور ترا در هر ثانیه) استفاده می کند. این در تضاد کامل با مقیاس عظیم است GPT-4، با 1.8 تریلیون پارامتر و 3,700 TFLOP در هر گذر به جلو در یک مدل کاملا متراکم. استفاده کارآمد از منابع برجسته است OpenAIتعهد به دستیابی به عملکرد بهینه بدون نیازهای محاسباتی بیش از حد.
مجموعه داده های آموزشی گسترده
GPT-4 بر روی یک مجموعه داده عظیم شامل تقریباً 13 تریلیون توکن آموزش دیده است. توجه به این نکته مهم است که این توکنها هم شامل توکنهای منحصربهفرد و هم توکنهایی هستند که اعداد دوره را محاسبه میکنند. را فرآیند آموزش شامل دو دوره برای داده های مبتنی بر متن و چهار دوره برای داده های مبتنی بر کد. OpenAI میلیونها ردیف از دادههای تنظیم دقیق دستورالعمل را که از ScaleAI و به صورت داخلی منبع داده شده بود، برای اصلاح عملکرد مدل استفاده کرد.
اصلاح از طریق تنظیم دقیق از 8K به 32K
مرحله قبل از آموزش GPT-4 از طول زمینه 8K استفاده کرد. متعاقباً، این مدل تحت تنظیمات دقیق قرار گرفت و در نتیجه نسخه 32k ارائه شد. این پیشرفت بر اساس مرحله قبل از آموزش ایجاد می شود و قابلیت های مدل را افزایش می دهد و آن را برای وظایف خاص تنظیم می کند.
مقیاسبندی با پردازندههای گرافیکی از طریق Parallelism
OpenAI از قدرت موازی سازی استفاده کرد GPT-4 تا از پتانسیل کامل پردازنده های گرافیکی A100 خود استفاده کنند. آنها از موازی سازی تانسور 8 طرفه استفاده کردند که پردازش موازی را به حداکثر می رساند، زیرا این حد برای NVLink است. علاوه بر این، موازی سازی خط لوله 15 جهته برای افزایش بیشتر عملکرد مورد استفاده قرار گرفت. در حالی که تکنیکهای خاصی مانند ZeRo Stage 1 احتمالاً به کار گرفته شدهاند، روششناسی دقیق هنوز فاش نشده است.
هزینه های آموزش و چالش های استفاده
آموزش GPT-4 تلاشی گسترده و نیازمند منابع بود. OpenAI تقریباً 25,000 پردازنده گرافیکی A100 را در یک دوره 90 تا 100 روزه اختصاص داد که با نرخ استفاده تقریباً 32٪ تا 36٪ MFU (بیشتر استفاده می شود). روند آموزش با شکستهای متعددی مواجه شد که مستلزم راهاندازی مجدد مکرر از پستهای بازرسی بود. اگر 1 دلار در هر ساعت A100 تخمین زده شود، هزینه های آموزشی برای این اجرا به تنهایی حدود 63 میلیون دلار خواهد بود.
معاوضه در ترکیبی از کارشناسان
پیادهسازی مدل ترکیبی از خبرگان، چندین معاوضه را ارائه میدهد. در شرایطی که GPT-4, OpenAI به جای تعداد بیشتر، 16 متخصص را انتخاب کرد. این تصمیم منعکس کننده تعادل بین دستیابی به نتایج زیان برتر و اطمینان از تعمیم پذیری در بین وظایف مختلف است. کارشناسان بیشتر می توانند چالش هایی را از نظر تعمیم وظایف و همگرایی ارائه دهند. OpenAIانتخاب برای ورزش کردن احتیاط در کارشناس انتخاب با تعهد آنها به عملکرد قابل اعتماد و قوی مطابقت دارد.
هزینه استنتاج
در مقایسه با مدل قبلی خود، مدل داوینچی با پارامتر 175 میلیارد، GPT-4هزینه استنتاج تقریباً سه برابر بیشتر است. این اختلاف را می توان به عوامل متعددی از جمله خوشه های بزرگتر مورد نیاز برای حمایت نسبت داد GPT-4 و استفاده کمتری که در طول استنتاج به دست آمد. برآوردها نشان می دهد که هزینه تقریبی 0.0049 دلار به ازای هر 1,000 توکن برای 128 پردازنده گرافیکی A100 و 0.0021 دلار سنت به ازای هر 1,000 توکن برای 128 پردازنده گرافیکی H100 در هنگام استنباط وجود دارد. GPT-4 با 8k این ارقام استفاده مناسب و اندازه دستهای بالا را فرض میکنند که ملاحظات مهمی برای بهینهسازی هزینه است.
توجه چند پرس و جو
OpenAI از توجه چند پرس و جو (MQA)، تکنیکی که به طور گسترده در این زمینه استفاده می شود، استفاده می کند GPT-4 همچنین. با پیاده سازی MQA، مدل تنها به یک هد نیاز دارد که به طور قابل توجهی ظرفیت حافظه لازم برای حافظه پنهان کلید-مقدار (کش KV) را کاهش می دهد. با وجود این بهینه سازی، باید توجه داشت که دسته 32k GPT-4 نمیتوان آن را روی پردازندههای گرافیکی A40 با ظرفیت 100 گیگابایت جای داد و 8k با حداکثر اندازه دسته محدود میشود.
بچینگ پیوسته
برای ایجاد تعادل بین هزینه تأخیر و استنتاج، OpenAI هم اندازه های متغیر و هم بچینگ پیوسته را در بر می گیرد GPT-4. این رویکرد تطبیقی امکان پردازش انعطافپذیر و کارآمد، بهینهسازی استفاده از منابع و کاهش سربار محاسباتی را فراهم میکند.
بینایی
GPT-4 یک رمزگذار دید مجزا در کنار رمزگذار متن معرفی میکند که دارای توجه متقابل بین این دو است. این معماری که یادآور فلامینگو است، پارامترهای دیگری را به تعداد 1.8 تریلیون پارامتر از قبل چشمگیر اضافه می کند. GPT-4. مدل بینایی با استفاده از تقریباً 2 تریلیون توکن پس از مرحله پیشآموزشی فقط متنی، تحت تنظیم دقیق جداگانه قرار میگیرد. این قابلیت بینایی قدرت می بخشد عوامل خودمختار برای خواندن صفحات وب، رونویسی تصاویر، و تفسیر محتوای ویدیویی - یک دارایی ارزشمند در عصر داده های چند رسانه ای.
رمزگشایی گمانه زنی
یک جنبه جالب از GPT-4استراتژی استنتاج استفاده احتمالی از رمزگشایی حدسی است. این رویکرد شامل به کارگیری کوچکتر و سریعتر است مدل برای ایجاد پیش بینی برای چندین توکن از قبل. سپس این توکنهای پیشبینیشده به صورت یک دسته به یک مدل «اوراکل» بزرگتر وارد میشوند. اگر کوچکتر پیش بینی های مدل مطابق با توافق مدل بزرگتر، چندین توکن را می توان با هم رمزگشایی کرد. با این حال، اگر مدل بزرگتر توکنهای پیشبینیشده توسط مدل پیشنویس را رد کند، بقیه دسته کنار گذاشته میشوند و استنتاج تنها با مدل بزرگتر ادامه مییابد. این رویکرد امکان رمزگشایی کارآمد را فراهم می کند در حالی که به طور بالقوه دنباله های احتمال کمتری را می پذیرد. شایان ذکر است که این گمانه زنی در حال حاضر تایید نشده است.
معماری استنتاج
GPT-4فرآیند استنتاج بر روی خوشهای از 128 پردازنده گرافیکی کار میکند که در چندین مرکز داده در مکانهای مختلف توزیع شدهاند. این زیرساخت از موازی سازی تانسور 8 طرفه و موازی خط لوله 16 طرفه برای به حداکثر رساندن کارایی محاسباتی استفاده می کند. هر گره، متشکل از 8 GPU، تقریباً 130 میلیارد پارامتر را در خود جای می دهد. با سایز مدل 120 لایه GPT-4 می تواند در 15 گره مختلف قرار گیرد، احتمالاً به دلیل نیاز به محاسبه جاسازی ها، لایه های کمتری در گره اول وجود دارد. این انتخابهای معماری استنتاج با کارایی بالا را تسهیل میکنند و نشان میدهند OpenAIتعهد به پیش بردن مرزهای کارایی محاسباتی.
اندازه و ترکیب مجموعه داده
GPT-4 بر روی 13 تریلیون توکن قابل توجه آموزش داده شد و مجموعه گسترده ای از متن را برای یادگیری در اختیار آن قرار داد. با این حال، همه نشانه ها را نمی توان با مجموعه داده های شناخته شده مورد استفاده در طول آموزش به حساب آورد. در حالی که مجموعه داده هایی مانند CommonCrawl و RefinedWeb بخش قابل توجهی از داده های آموزش، بخشی از توکن ها باقی می ماند که نامشخص هستند، که اغلب به عنوان داده های "مخفی" شناخته می شوند.
شایعات و گمانه زنی ها
گمانه زنی هایی در مورد منشاء این داده های فاش نشده ظاهر شده است. یک شایعه حاکی از آن است که شامل محتوایی از پلتفرمهای محبوب مانند توییتر، ردیت و یوتیوب است که تأثیر بالقوه محتوای تولید شده توسط کاربر را در شکلدهی برجسته میکند. GPT-4پایگاه دانش علاوه بر این، حدسهایی درباره گنجاندن مجموعههای گسترده مانند LibGen، مخزن میلیونها کتاب، و Sci-Hub، پلتفرمی که دسترسی به مقالات علمی متعددی را فراهم میکند، وجود دارد. این تصور که GPT-4 در کل GitHub آموزش دیده بود در بین علاقه مندان به هوش مصنوعی نیز منتشر شده است.
نظر خبرنگار
اگرچه شایعات زیادی وجود دارد، اما مهم است که با احتیاط به این شایعات نزدیک شوید. آموزش از GPT-4 ممکن است از مجموعه داده های ویژه ای که از کتاب های درسی کالج تشکیل شده است، بهره زیادی برده باشد. این مجموعه داده، که طیف وسیعی از دروس و موضوعات را پوشش میدهد، میتوانست به سختی با دست جمعآوری شود. کتاب های درسی کالج یک پایگاه دانش ساختاریافته و جامع را ارائه می دهند که می تواند با موفقیت برای آموزش یک مدل زبان مورد استفاده قرار گیرد و به راحتی به فایل های متنی تبدیل می شود. گنجاندن چنین مجموعه داده ای ممکن است این تصور را ایجاد کند که GPT-4 در زمینه های مختلف آگاه است.
شیفتگی با GPT-4دانش
یکی از جنبه های جذاب GPT-4آموزش توانایی آن برای نشان دادن آشنایی با کتاب های خاص و حتی یادآوری شناسه های منحصر به فرد از پلتفرم هایی مانند Project Euler است. محققان سعی کرده اند بخش های حفظ شده کتاب ها را از آن استخراج کنند GPT-4 برای به دست آوردن بینش در مورد آموزش آن، بیشتر کنجکاوی در مورد عملکرد درونی مدل را تحریک می کند. این اکتشافات ظرفیت شگفت انگیز را برجسته می کند GPT-4 برای حفظ اطلاعات و تأکید بر قابلیت های چشمگیر مدل های زبان در مقیاس بزرگ.
تطبیق پذیری GPT-4
طیف گسترده ای از موضوعات و زمینه هایی که GPT-4 به ظاهر می تواند با ویترین ها تطبیق پذیری آن را درگیر کند. خواه پاسخ دادن به سؤالات پیچیده در علوم رایانه باشد یا در بحث های فلسفی، GPT-4آموزش بر روی یک مجموعه داده متنوع، آن را برای تعامل با کاربران از حوزه های مختلف مجهز می کند. این تطبیق پذیری ناشی از قرار گرفتن در معرض مجموعه گسترده ای از منابع متنی است که آن را به ابزاری ارزشمند برای طیف گسترده ای از کاربران تبدیل می کند.
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.