تقرير الأخبار تكنولوجيا
11 تموز، 2023

GPT-4تفاصيل مسربة تسلط الضوء على نطاقها الهائل وهندستها المعمارية الرائعة

في سطور

المعلومات المسربة عن GPT-4 أثار الإثارة بين مجتمع الذكاء الاصطناعي. مع أكثر من 10 أضعاف المعلمات من سابقتها، GPT-3, GPT-4 تشير التقديرات إلى أنها تحتوي على 1.8 تريليون معلمة موزعة على 120 طبقة.

OpenAI نفذت مزيجًا من الخبراء (MoE) ، باستخدام 16 خبيرًا مع 111 مليار متغير لمستقبلات متعددة الطبقات (MLP). تستخدم عملية الاستدلال الفعالة للنموذج 280 مليار معلمة و 560 TFLOPs لكل مسار أمامي ، مما يدل على ذلك OpenAIالتزامنا بتحقيق أقصى قدر من الكفاءة والفعالية من حيث التكلفة. تتضمن مجموعة بيانات التدريب الخاصة بالنموذج 13 تريليون رمز ، مع ضبط دقيق من 8k إلى 32k.

OpenAI تستخدم التوازي في GPT-4 للاستفادة من الإمكانات الكاملة لوحدات معالجة الرسوميات A100 الخاصة بهم، باستخدام توازي موتر 8 اتجاهات وتوازي خطوط أنابيب 15 اتجاهًا. وكانت عملية التدريب واسعة النطاق وكثيفة الموارد، وتراوحت تكاليفها بين 32 مليون دولار و63 مليون دولار.

GPT-4تكلفة الاستدلال الخاصة بـ هي أعلى بثلاث مرات تقريبًا من سابقتها، ولكنها تتضمن أيضًا الاهتمام بالاستعلام المتعدد، والدفع المستمر، وفك التشفير التخميني. تعمل بنية الاستدلال على مجموعة مكونة من 128 وحدة معالجة رسوميات، موزعة عبر مراكز بيانات متعددة.

التسريب الأخير للتفاصيل المحيطة GPT-4 لقد أرسل موجات صادمة عبر مجتمع الذكاء الاصطناعي. توفر المعلومات المسربة، التي تم الحصول عليها من مصدر لم يكشف عنه، لمحة عن القدرات المذهلة والحجم غير المسبوق لهذا النموذج الرائد. سنقوم بتفصيل الحقائق وكشف النقاب عن الجوانب الرئيسية التي تصنعها GPT-4 أعجوبة تكنولوجية حقيقية.

GPT-4تفاصيل مسربة تسلط الضوء على نطاقها الهائل وهندستها المعمارية الرائعة
الائتمان: Metaverse Post (mpost.io)

GPT-4عدد المعلمات الهائل

أحد أبرز ما كشف عنه التسريب هو الحجم الهائل للتسرب GPT-4. إنه يتميز بحجم مذهل، بأكثر من 10 أضعاف معلمات سابقه، GPT-3. ومن المقدر أن يكون إجمالي مذهل حوالي 1.8 تريليون معلمة موزعة عبر 120 طبقة رائعة. هذه الزيادة الكبيرة في الحجم تساهم بلا شك في GPT-4قدراتها المحسنة وإمكانية حدوث تطورات رائدة.

نموذج مزيج الخبراء (MoE)

لضمان التكاليف المعقولة مع الحفاظ على الأداء الاستثنائي ، OpenAI نفذت نموذج مزيج من الخبراء (وزارة التربية والتعليم) في GPT-4. من خلال الاستعانة بـ 16 خبيرًا داخل النموذج، يتكون كل منهم من حوالي 111 مليار معلمة للإدراك الحسي متعدد الطبقات (MLP)، OpenAI تخصيص الموارد الأمثل بشكل فعال. والجدير بالذكر أنه خلال كل تمريرة إلى الأمام ، يتم توجيه خبيرين فقط ، مما يقلل من المتطلبات الحسابية دون المساس بالنتائج. يوضح هذا النهج المبتكر OpenAIالتزامها بتعظيم الكفاءة والفعالية من حيث التكلفة في نماذجها.

خوارزمية توجيه وزارة التربية المبسطة

بينما يستكشف النموذج غالبًا خوارزميات توجيه متقدمة لاختيار الخبراء للتعامل مع كل رمز مميز ، OpenAIنهج في الوقت الحاضر GPT-4 يقال إن النموذج أكثر وضوحًا. يُزعم أن خوارزمية التوجيه التي يستخدمها الذكاء الاصطناعي بسيطة نسبيًا، ولكنها مع ذلك فعالة. ما يقرب من 55 مليار معلمة مشتركة للاهتمام تسهل التوزيع الفعال للرموز إلى الخبراء المناسبين داخل النموذج.

الاستدلال الفعال

GPT-4تعرض عملية الاستدلال الخاصة بـ كفاءتها وبراعتها الحسابية. يستخدم كل تمرير أمامي، مخصص لإنشاء رمز مميز واحد، ما يقرب من 280 مليار معلمة و560 TFLOPs (عمليات الفاصلة العائمة تيرا في الثانية). وهذا يتناقض بشكل صارخ مع الحجم الهائل لل GPT-4، مع 1.8 تريليون معلمة و3,700 TFLOPs لكل تمريرة أمامية في نموذج كثيف تمامًا. ويسلط الضوء على الاستخدام الفعال للموارد OpenAIالتفاني في تحقيق الأداء الأمثل دون الحاجة إلى متطلبات حسابية مفرطة.

مجموعة بيانات تدريب مكثفة

GPT-4 تم تدريبه على مجموعة بيانات ضخمة تضم ما يقرب من 13 تريليون رمز. من المهم ملاحظة أن هذه الرموز المميزة تشمل كلاً من الرموز الفريدة والرموز المميزة التي تمثل أرقام العصر. ال عملية التدريب يتضمن فترتين للبيانات المستندة إلى النصوص وأربع فترات للبيانات المستندة إلى الكود. OpenAI استفاد من ملايين صفوف التعليمات لضبط البيانات التي تم الحصول عليها من ScaleAI وداخليًا لتحسين أداء النموذج.

صقل من خلال الضبط الدقيق من 8K إلى 32K

مرحلة ما قبل التدريب GPT-4 استخدم طول سياق 8K. بعد ذلك، خضع النموذج للضبط الدقيق، مما أدى إلى إصدار 32 كيلو بايت. يعتمد هذا التقدم على مرحلة ما قبل التدريب، مما يعزز قدرات النموذج ويصممه ليناسب مهام محددة.

التحجيم باستخدام وحدات معالجة الرسومات عبر التوازي

OpenAI تسخير قوة التوازي في GPT-4 للاستفادة من الإمكانات الكاملة لوحدات معالجة الرسومات A100 الخاصة بهم. لقد استخدموا توازي موتر ذو 8 اتجاهات، مما يزيد من المعالجة المتوازية إلى الحد الأقصى، حيث إنه الحد الأقصى لـ NVLink. بالإضافة إلى ذلك، تم استخدام توازي خطوط الأنابيب ذات 15 اتجاهًا لتعزيز الأداء بشكل أكبر. في حين أنه من المحتمل استخدام تقنيات محددة مثل ZeRo Stage 1، إلا أن المنهجية الدقيقة لم يتم الكشف عنها.

تكلفة التدريب وتحديات الاستخدام

قادة الإيمان GPT-4 كان مسعى واسع النطاق ومكثف للموارد. OpenAI تم تخصيص ما يقرب من 25,000 وحدة معالجة رسومات A100 على مدار فترة تتراوح من 90 إلى 100 يومًا ، وتعمل بمعدل استخدام يبلغ حوالي 32٪ إلى 36٪ MFU (الأكثر استخدامًا). تسببت عملية التدريب في إخفاقات عديدة ، مما استلزم إعادة التشغيل المتكرر من نقاط التفتيش. إذا تم تقديره بمبلغ 1 دولار لكل 100 ساعة ، فإن تكاليف التدريب لهذا السباق وحده سيصل إلى حوالي 63 مليون دولار.

المفاضلات في مزيج من الخبراء

يقدم تنفيذ مزيج من نموذج الخبراء العديد من المقايضات. في حالة GPT-4, OpenAI اختارت 16 خبيرًا بدلاً من عدد أكبر. يعكس هذا القرار التوازن بين تحقيق نتائج خسارة فائقة وضمان التعميم عبر المهام المختلفة. يمكن لمزيد من الخبراء تقديم تحديات من حيث تعميم المهام والتقارب. OpenAIاختيار ممارسة الحذر في الخبير الاختيار يتوافق مع التزامهم بأداء موثوق وقوي.

تكلفة الاستدلال

بالمقارنة مع سابقتها، نموذج دافينشي ذو 175 مليار معلمة، GPT-4تكلفة الاستدلال أعلى بثلاث مرات تقريبًا. ويمكن أن يعزى هذا التناقض إلى عدة عوامل، بما في ذلك المجموعات الكبيرة المطلوبة للدعم GPT-4 والاستخدام الأقل الذي تم تحقيقه أثناء الاستدلال. تشير التقديرات إلى تكلفة تقريبية تبلغ 0.0049 سنتًا لكل 1,000 رمزًا مميزًا لـ 128 وحدة معالجة رسوميات A100، و0.0021 دولارًا أمريكيًا لكل 1,000 رمزًا مميزًا لـ 128 وحدة معالجة رسوميات H100 عند الاستدلال GPT-4 مع 8K. تفترض هذه الأرقام الاستخدام اللائق وأحجام الدفعات الكبيرة، وهي اعتبارات حاسمة لتحسين التكلفة.

متعدد الاستعلام عن الاهتمام

OpenAI يعزز الاهتمام بالاستعلام المتعدد (MQA)، وهي تقنية مستخدمة على نطاق واسع في هذا المجال GPT-4 أيضًا. من خلال تنفيذ MQA، يتطلب النموذج رأسًا واحدًا فقط، مما يقلل بشكل كبير من سعة الذاكرة اللازمة لذاكرة التخزين المؤقت ذات القيمة الرئيسية (ذاكرة التخزين المؤقت KV). وعلى الرغم من هذا التحسين، تجدر الإشارة إلى أن الدفعة 32 ألفًا GPT-4 لا يمكن استيعابها على وحدات معالجة الرسومات A40 بسعة 100 جيجابايت، كما أن 8k مقيد بالحد الأقصى لحجم الدفعة.

الخلط المستمر

لتحقيق التوازن بين وقت الاستجابة وتكاليف الاستدلال ، OpenAI يتضمن كلا من أحجام الدُفعات المتغيرة والدفعات المستمرة GPT-4. يسمح هذا النهج التكيفي بمعالجة مرنة وفعالة وتحسين استخدام الموارد وتقليل النفقات الحسابية.

متعدد الوسائط للرؤية

GPT-4 يقدم برنامج تشفير رؤية منفصل إلى جانب برنامج تشفير النص، ويتميز بالانتباه المتبادل بين الاثنين. تضيف هذه البنية، التي تذكرنا بفلامينجو، معلمات إضافية إلى عدد المعلمات المثير للإعجاب بالفعل والذي يبلغ 1.8 تريليون GPT-4. يخضع نموذج الرؤية لضبط دقيق منفصل باستخدام ما يقرب من 2 تريليون رمز بعد مرحلة التدريب المسبق للنص فقط. هذه القدرة على الرؤية تمكن وكلاء مستقلون لقراءة صفحات الويب، ونسخ الصور، وتفسير محتوى الفيديو - وهي أصول لا تقدر بثمن في عصر بيانات الوسائط المتعددة.

فك المضاربة

جانب مثير للاهتمام من GPT-4استراتيجية الاستدلال هي الاستخدام المحتمل لفك التشفير التأملي. يتضمن هذا النهج استخدام أصغر وأسرع نموذج لإنشاء تنبؤات لرموز متعددة مسبقًا. يتم بعد ذلك إدخال هذه الرموز المميزة المتوقعة في نموذج "أوراكل" أكبر كدفعة واحدة. إذا كان أصغر توقعات النموذج تتماشى مع اتفاقية النموذج الأكبر ، يمكن فك تشفير العديد من الرموز معًا. ومع ذلك ، إذا رفض النموذج الأكبر الرموز المميزة التي تنبأ بها نموذج المسودة ، فسيتم تجاهل بقية الدُفعة ، ويستمر الاستدلال فقط مع النموذج الأكبر. يسمح هذا النهج بفك التشفير الفعال مع احتمال قبول تسلسل احتمالية أقل. وتجدر الإشارة إلى أن هذه التكهنات لم يتم التحقق منها في الوقت الحالي.

هندسة الاستدلال

GPT-4تعمل عملية الاستدلال على مجموعة مكونة من 128 وحدة معالجة رسوميات، موزعة عبر مراكز بيانات متعددة في مواقع مختلفة. تستخدم هذه البنية التحتية توازيًا موترًا بـ 8 اتجاهات وتوازيًا لخطوط الأنابيب بـ 16 اتجاهًا لتحقيق أقصى قدر من الكفاءة الحسابية. تحتوي كل عقدة، والتي تتكون من 8 وحدات معالجة رسوميات، على ما يقرب من 130 مليار معلمة. مع حجم النموذج من 120 طبقة، GPT-4 يمكن احتواؤها ضمن 15 عقدة مختلفة، وربما مع طبقات أقل في العقدة الأولى بسبب الحاجة إلى حساب التضمينات. تسهل هذه الاختيارات المعمارية الاستدلال والإظهار عالي الأداء OpenAIالالتزام بتخطي حدود الكفاءة الحسابية.

حجم مجموعة البيانات وتكوينها

GPT-4 تم تدريبها على 13 تريليون رمز مميز، مما زودها بمجموعة واسعة من النصوص للتعلم منها. ومع ذلك، لا يمكن حساب جميع الرموز المميزة من خلال مجموعات البيانات المعروفة المستخدمة أثناء التدريب. بينما تساهم مجموعات البيانات مثل CommonCrawl وRefinedWeb بجزء كبير من بيانات التدريب، لا يزال هناك جزء من الرموز المميزة التي لم يتم احتساب مصيرها ، وغالبًا ما يشار إليها بالبيانات "السرية".

شائعات وتكهنات

ظهرت تكهنات بشأن أصل هذه البيانات غير المكشوف عنها. تشير إحدى الشائعات إلى أنها تتضمن محتوى من منصات شائعة مثل Twitter وReddit وYouTube، مما يسلط الضوء على التأثير المحتمل للمحتوى الذي ينشئه المستخدمون في تشكيل GPT-4قاعدة المعرفة. بالإضافة إلى ذلك، هناك تخمينات تحيط بإدراج مجموعات موسعة مثل LibGen، وهو مستودع لملايين الكتب، وSci-Hub، وهي منصة توفر الوصول إلى العديد من الأوراق العلمية. الفكرة أن GPT-4 تم تدريبه على GitHub بالكامل وتم تداوله أيضًا بين المتحمسين للذكاء الاصطناعي.

رأي المراسل

وعلى الرغم من وجود شائعات كثيرة، إلا أنه من المهم التعامل مع هذه الشائعات بحذر. تدريب GPT-4 ربما استفادوا بشكل كبير من مجموعة بيانات خاصة مكونة من الكتب المدرسية الجامعية. من الممكن أن تكون مجموعة البيانات هذه، التي تغطي مجموعة واسعة من الدورات والموضوعات، قد تم تجميعها يدويًا بعناية فائقة. توفر الكتب المدرسية الجامعية قاعدة معرفية منظمة وشاملة يمكن استخدامها بنجاح لتدريب نموذج اللغة ويمكن تحويلها بسهولة إلى ملفات نصية. إن إدراج مجموعة البيانات هذه قد يعطي الانطباع بذلك GPT-4 ذو معرفة في مجموعة متنوعة من المجالات.

الانبهار ب GPT-4المعرفة

جانب واحد مثير للاهتمام من GPT-4تدريب 's هو قدرته على إظهار الإلمام بكتب محددة وحتى استدعاء المعرفات الفريدة من منصات مثل Project Euler. وقد حاول الباحثون استخراج المقاطع المحفوظة من الكتب GPT-4 للحصول على نظرة ثاقبة للتدريب الخاص به، مما يزيد من فضولك حول الأعمال الداخلية للنموذج. تسلط هذه الاكتشافات الضوء على القدرة المذهلة لـ GPT-4 للاحتفاظ بالمعلومات والتأكيد على القدرات الرائعة لنماذج اللغة واسعة النطاق.

براعة GPT-4

مجموعة واسعة من المواضيع والمجالات التي GPT-4 يمكن أن يتعامل على ما يبدو مع يعرض تنوعه. سواء كان ذلك من خلال الإجابة على الأسئلة المعقدة في علوم الكمبيوتر أو الخوض في المناقشات الفلسفية، GPT-4تدريب 's على مجموعة بيانات متنوعة يؤهلها للتفاعل مع مستخدمين من مختلف المجالات. وينبع هذا التنوع من تعرضه لمجموعة واسعة من الموارد النصية، مما يجعله أداة قيمة لمجموعة واسعة من المستخدمين.

اقرأ المزيد عن الذكاء الاصطناعي:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

تنمو الشهية المؤسسية تجاه صناديق الاستثمار المتداولة في البيتكوين وسط التقلبات

تكشف الإفصاحات من خلال ملفات 13F عن مستثمرين مؤسسيين بارزين يشتغلون بصناديق الاستثمار المتداولة في البيتكوين، مما يؤكد القبول المتزايد لـ ...

لمعرفة المزيد

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

لمعرفة المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تحول دونالد ترامب إلى العملات المشفرة: من الخصم إلى المدافع، وماذا يعني ذلك بالنسبة لسوق العملات المشفرة في الولايات المتحدة
باقة الأعمال الأسواق قصص ومراجعات تكنولوجيا
تحول دونالد ترامب إلى العملات المشفرة: من الخصم إلى المدافع، وماذا يعني ذلك بالنسبة لسوق العملات المشفرة في الولايات المتحدة
10 مايو 2024
ستطلق Layer3 رمز L3 هذا الصيف، وتخصص 51% من إجمالي العرض للمجتمع
الأسواق تقرير الأخبار تكنولوجيا
ستطلق Layer3 رمز L3 هذا الصيف، وتخصص 51% من إجمالي العرض للمجتمع
10 مايو 2024
التحذير الأخير من إدوارد سنودن لمطوري البيتكوين: "اجعلوا الخصوصية أولوية على مستوى البروتوكول وإلا خاطروا بفقدانها"
الأسواق حماية Wiki تطبيقات الكمبيوتر قصص ومراجعات تكنولوجيا
التحذير الأخير من إدوارد سنودن لمطوري البيتكوين: "اجعلوا الخصوصية أولوية على مستوى البروتوكول وإلا خاطروا بفقدانها"
10 مايو 2024
شبكة إيثريوم من الطبقة الثانية المدعومة بالتفاؤل ستطلق شبكتها الرئيسية في 2 مايو
تقرير الأخبار تكنولوجيا
شبكة إيثريوم من الطبقة الثانية المدعومة بالتفاؤل ستطلق شبكتها الرئيسية في 2 مايو
10 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.