11 ביולי 2023

GPT-4הפרטים שהודלפו שופכים אור על קנה המידה העצום והארכיטקטורה המרשימה שלו

פורסם: 11 ביולי 2023 בשעה 7:19 בבוקר עודכן: 11 ביולי 2023 בשעה 7:23 בבוקר

נערך ונבדק עובדות: 11 ביולי 2023 בשעה 7:19 בבוקר

בקיצור

המידע שדלף על GPT-4 עורר התרגשות בקרב קהילת הבינה המלאכותית. עם יותר מ-10 פרמטרים מקודמו, GPT-3, GPT-4 מוערך ב-1.8 טריליון פרמטרים המפוזרים על פני 120 שכבות.

OpenAI יישם מודל של תערובת של מומחים (MoE), תוך שימוש ב-16 מומחים עם 111 מיליארד פרמטרים לתפיסת רב-שכבת (MLP). תהליך ההסקה היעיל של המודל משתמש ב-280 מיליארד פרמטרים ו-560 TFLOPs לכל מעבר קדימה, המדגים OpenAIהמחויבות של למקסום היעילות והעלות-תועלת. מערך ההדרכה של המודל כולל 13 טריליון אסימונים, עם כוונון עדין מ-8k ל-32k.

OpenAI השתמש מקביליות ב GPT-4 למנף את מלוא הפוטנציאל של מעבדי ה-A100 שלהם, תוך שימוש מקביליות טנזור 8 כיוונית ומקביליות צנרת 15 כיוונית. תהליך ההכשרה היה נרחב ועתיר משאבים, עם עלויות שנעו בין 32 ל-63 מיליון דולר.

GPT-4עלות ההסקה של ההסקה גבוהה פי שלושה מקודמתה, אך היא משלבת גם תשומת לב מרובת שאילתות, אצווה מתמשכת ופענוח ספקולטיבי. ארכיטקטורת ההסקה פועלת על אשכול של 128 GPUs, המופצים על פני מספר מרכזי נתונים.

דליפת הפרטים האחרונה סביב GPT-4 שלח גלי הלם בקהילת הבינה המלאכותית. המידע שדלף, שהושג ממקור לא ידוע, מספק הצצה ליכולות מעוררות כבוד וקנה מידה חסר תקדים של המודל פורץ הדרך הזה. נפרק את העובדות ונחשוף את ההיבטים המרכזיים שעושים GPT-4 פלא טכנולוגי אמיתי.

GPT-4הפרטים שהודלפו שופכים אור על קנה המידה העצום והארכיטקטורה המרשימה שלו — אשראי: Metaverse Post (mpost.io)

GPT-4ספירת הפרמטרים המסיבית של

אחד הגילויים הבולטים מההדלפה הוא גודלה העצום של GPT-4. הוא מתהדר בגודל מדהים, עם יותר מפי 10 הפרמטרים של קודמו, GPT-3. על פי ההערכות, מדובר בסכום מדהים של כ-1.8 טריליון פרמטרים מופץ על פני 120 שכבות מרשימות. הגידול המשמעותי הזה בקנה מידה תורם ללא ספק GPT-4היכולות המשופרות של ופוטנציאל להתקדמות פורצת דרך.

מודל תערובת של מומחים (MoE)

כדי להבטיח עלויות סבירות תוך שמירה על ביצועים יוצאי דופן, OpenAI יישם מודל של תערובת של מומחים (MoE) ב GPT-4. על ידי שימוש ב-16 מומחים בתוך המודל, שכל אחד מהם מורכב מכ-111 מיליארד פרמטרים לתפיסת רב שכבתית (MLP), OpenAI הקצאת משאבים אופטימלית ביעילות. יש לציין שבמהלך כל מעבר קדימה, רק שני מומחים מנותבים, מה שממזער את דרישות החישוב מבלי לפגוע בתוצאות. גישה חדשנית זו מדגים OpenAIהמחויבות של למקסם את היעילות והעלות-תועלת במודלים שלהם.

הדלפה מאוד מעניינת ומפורטת של GPT-4 ארכיטקטורה, עם ניתוח מצוין של ההיגיון מאחוריה והשלכותיה - על ידי @dylan522p :https://t.co/eHE7VlGY5V

סיכום ללא חומת תשלום ניתן למצוא כאן: https://t.co/rLxw5s9ZDt
- יאן פ. הארי (@jphme) 11 ביולי 2023

אלגוריתם ניתוב MoE פשוט

בעוד שהמודל בוחן לעתים קרובות אלגוריתמי ניתוב מתקדמים לבחירת מומחים לטיפול בכל אסימון, OpenAIהגישה של הנוכחית GPT-4 לפי הדיווח, הדגם פשוט יותר. כביכול, אלגוריתם הניתוב המופעל על ידי ה-AI הוא פשוט יחסית, אך עם זאת יעיל. כ-55 מיליארד פרמטרים משותפים לתשומת לב מאפשרים חלוקה יעילה של אסימונים למומחים המתאימים בתוך המודל.

הסקה יעילה

GPT-4תהליך ההסקה של מסקנות מציג את היעילות והיכולת החישובית שלו. כל מעבר קדימה, המוקדש ליצירת אסימון בודד, משתמש בכ-280 מיליארד פרמטרים ו-560 TFLOPs (פעולות נקודה צפה בשנייה). זה עומד בניגוד מוחלט להיקף העצום של GPT-4, עם 1.8 טריליון הפרמטרים שלו ו-3,700 TFLOPs לכל מעבר קדימה בדגם צפוף בלבד. השימוש היעיל במשאבים מדגיש OpenAIהמסירות של השגת ביצועים מיטביים ללא דרישות חישוביות מוגזמות.

מערך הדרכה נרחב

GPT-4 אומן על מערך נתונים אדיר הכולל כ-13 טריליון אסימונים. חשוב לציין שאסימונים אלו כוללים גם אסימונים ייחודיים וגם אסימונים המייצגים מספרי עידן. ה תהליך אימון כולל שני עידנים עבור נתונים מבוססי טקסט וארבעה עידנים עבור נתונים מבוססי קוד. OpenAI מינפו מיליוני שורות של נתוני כוונון עדין של הוראות שמקורם ב-ScaleAI ובפנים כדי לחדד את ביצועי המודל.

שלב ההכשרה של GPT-4 השתמש באורך הקשר של 8k. לאחר מכן, הדגם עבר כוונון עדין, וכתוצאה מכך גרסת 32k. התקדמות זו מתבססת על שלב ההדרכה, משפרת את יכולות המודל והתאמתו למשימות ספציפיות.

שינוי קנה מידה עם GPUs באמצעות מקביליות

OpenAI רתמה את כוחה של מקביליות ב GPT-4 למנף את מלוא הפוטנציאל של מעבדי ה-A100 שלהם. הם השתמשו בהקבלה של 8 כיוונים, שממקסמת את העיבוד המקביל, מכיוון שהיא הגבול עבור NVLink. בנוסף, נעשה שימוש מקביליות צנרת של 15 כיוונים כדי לשפר עוד יותר את הביצועים. בעוד שסביר להניח שהופעלו טכניקות ספציפיות כמו ZeRo Stage 1, המתודולוגיה המדויקת נותרה בלתי נחשפת.

אתגרי עלות הדרכה וניצול

הדרכה GPT-4 היה מאמץ נרחב ועתיר משאבים. OpenAI הקצתה כ-25,000 GPUs A100 על פני תקופה של 90 עד 100 ימים, הפועלים בקצב ניצול של כ-32% עד 36% MFU (הנמצאים לרוב בשימוש). תהליך האימון גרם לכשלים רבים, מה שהצריך הפעלה מחדש תכופה ממחסומים. אם מוערך ב-$1 לשעה A100, ה עלויות הדרכה עבור ריצה זו בלבד תסתכם בכ-63 מיליון דולר.

פשרות בתערובת של מומחים

יישום מודל תערובת של מומחים מציג מספר פשרות. במקרה של GPT-4, OpenAI בחר ב-16 מומחים במקום מספר גבוה יותר. החלטה זו משקפת איזון בין השגת תוצאות הפסד מעולות לבין הבטחת הכללה בין משימות שונות. מומחים נוספים יכולים להציג אתגרים במונחים של הכללת משימות והתכנסות. OpenAIהבחירה של להתאמן זהירות במומחה הבחירה עולה בקנה אחד עם המחויבות שלהם לביצועים אמינים וחזקים.

עלות מסקנות

בהשוואה לקודמו, דגם Davinci בעל 175 מיליארד פרמטרים, GPT-4עלות ההסקה של ההסקה גבוהה פי שלושה בערך. אי התאמה זו ניתן לייחס למספר גורמים, כולל האשכולות הגדולים יותר הנדרשים לתמיכה GPT-4 והניצול הנמוך יותר שהושג במהלך היסק. הערכות מצביעות על עלות משוערת של $0.0049 סנט לכל 1,000 אסימונים עבור 128 A100 GPUs, ו-$0.0021 סנט לכל 1,000 אסימונים עבור 128 H100 GPUs כאשר מסיקים GPT-4 עם 8k. נתונים אלה מניחים ניצול הגון וגדלים גבוהים של אצווה, שיקולים מכריעים לאופטימיזציה של עלויות.

ריבוי שאילתות תשומת לב

OpenAI ממנפת תשומת לב מרובת שאילתות (MQA), טכניקה המופעלת באופן נרחב בתחום, ב GPT-4 גם כן. על ידי הטמעת MQA, המודל דורש ראש אחד בלבד, מה שמפחית משמעותית את קיבולת הזיכרון הדרושה למטמון מפתח-ערך (KV cache). למרות אופטימיזציה זו, יש לציין כי אצווה 32k GPT-4 לא ניתן להכיל 40GB A100 GPUs, וה-8k מוגבל על ידי גודל האצווה המרבי.

אצווה רציפה

כדי להגיע לאיזון בין חביון ועלויות מסקנות, OpenAI משלב גם גדלי אצווה משתנים וגם אצווה רציפה GPT-4. גישה אדפטיבית זו מאפשרת עיבוד גמיש ויעיל, אופטימיזציה של ניצול המשאבים והפחתת תקורה חישובית.

GPT-4 מציגה מקודד ראייה נפרד לצד מקודד הטקסט, הכולל תשומת לב צולבת בין השניים. ארכיטקטורה זו, המזכירה את פלמינגו, מוסיפה פרמטרים נוספים לספירת הפרמטרים המרשימה ממילא של 1.8 טריליון של GPT-4. מודל הראייה עובר כוונון עדין נפרד באמצעות כ-2 טריליון אסימונים לאחר שלב אימון הטקסט בלבד. יכולת ראייה זו מעצימה סוכנים אוטונומיים לקרוא דפי אינטרנט, לתמלל תמונות ולפרש תוכן וידאו - נכס שלא יסולא בפז בעידן נתוני המולטימדיה.

פענוח ספקולטיבי

היבט מעניין של GPT-4אסטרטגיית ההסקה של ההסקה היא שימוש אפשרי בפענוח ספקולטיבי. גישה זו כוללת שימוש קטן יותר, מהיר יותר מודל כדי ליצור תחזיות עבור מספר אסימונים מראש. האסימונים החזויים האלה מוזנים למודל "אורקל" גדול יותר כאצווה אחת. אם הקטן יותר תחזיות המודל בהתאמה להסכם של הדגם הגדול יותר, ניתן לפענח מספר אסימונים יחד. עם זאת, אם המודל הגדול יותר דוחה את האסימונים שנחזה על ידי המודל הטיוטה, שאר האצווה נמחק, וההסקה ממשיכה אך ורק עם המודל הגדול יותר. גישה זו מאפשרת פענוח יעיל תוך קבלה פוטנציאלית של רצפי הסתברות נמוכה יותר. ראוי לציין כי השערה זו נותרה לא מאומתת בשלב זה.

אדריכלות מסקנות

GPT-4תהליך ההסקה של מסקנות פועל על אשכול של 128 GPUs, המופצים על פני מספר מרכזי נתונים במיקומים שונים. תשתית זו מפעילה מקביליות טנזור עם 8 כיוונים ו-16 כיווני צנרת כדי למקסם את היעילות החישובית. כל צומת, הכולל 8 GPUs, מכיל כ-130 מיליארד פרמטרים. עם גודל דגם של 120 שכבות, GPT-4 יכול להתאים בתוך 15 צמתים שונים, אולי עם פחות שכבות בצומת הראשון בשל הצורך לחשב הטבעות. הבחירות הארכיטקטוניות הללו מאפשרות מסקנות עם ביצועים גבוהים, מדגימות OpenAIהמחויבות של לדחוף את גבולות היעילות החישובית.

גודל והרכב ערכות נתונים

GPT-4 הוכשר על 13 טריליון אסימונים מרשים, וסיפק לו קורפוס נרחב של טקסט שניתן ללמוד ממנו. עם זאת, לא ניתן להסביר את כל האסימונים על ידי מערכי הנתונים הידועים שבהם נעשה שימוש במהלך האימון. בעוד מערכי נתונים כמו CommonCrawl ו-RefinedWeb תורמים חלק ניכר מה- נתוני אימונים, נותר חלק של אסימונים שאינם מטופלים, המכונה לעתים קרובות הנתונים "הסודיים".

שמועות וספקולציות

עלו ספקולציות לגבי מקור הנתונים הסמויים הללו. שמועה אחת מציעה שהוא כולל תוכן מפלטפורמות פופולריות כמו טוויטר, Reddit ו-YouTube, המדגיש את ההשפעה הפוטנציאלית של תוכן שנוצר על ידי משתמשים בעיצוב GPT-4מאגר הידע של. בנוסף, ישנן השערות סביב הכללת אוספים נרחבים כמו LibGen, מאגר של מיליוני ספרים, ו-Sci-Hub, פלטפורמה המספקת גישה למספר רב של מאמרים מדעיים. הרעיון ש GPT-4 הוכשר על כל GitHub, הופץ גם בקרב חובבי AI.

חוות דעתו של הכתב

למרות שישנן שמועות רבות, חשוב להתייחס לשמועות אלו בזהירות. ההכשרה של GPT-4 ייתכן שהפיק תועלת רבה ממערך נתונים מיוחד המורכב מספרי לימוד מכללות. מערך הנתונים הזה, שמכסה מגוון רחב של קורסים ונושאים, היה יכול להיות מורכב בקפידה בעבודת יד. ספרי לימוד במכללה מספקים בסיס ידע מובנה ומקיף שניתן להשתמש בו בהצלחה להכשרת מודל שפה וניתן להמרה בקלות לקבצי טקסט. הכללת מערך נתונים כזה עשוי ליצור את הרושם ש GPT-4 בעל ידע במגוון תחומים.

הקסם עם GPT-4הידע של

היבט אחד מסקרן של GPT-4ההכשרה של זה היא היכולת שלה להפגין היכרות עם ספרים ספציפיים ואפילו לזכור מזהים ייחודיים מפלטפורמות כמו Project Euler. חוקרים ניסו לחלץ מהם קטעי ספרים משוננים GPT-4 כדי לקבל תובנות לגבי הכשרתו, ולעורר עוד יותר את הסקרנות לגבי פעולתו הפנימית של הדגם. תגליות אלו מדגישות את היכולת המדהימה של GPT-4 לשמור מידע ולהדגיש את היכולות המרשימות של מודלים של שפה בקנה מידה גדול.

הרבגוניות של GPT-4

הספקטרום הרחב של נושאים ותחומים ש GPT-4 יכול לכאורה לעסוק בחלונות הראווה הרבגוניות שלו. בין אם זה מענה על שאלות מורכבות במדעי המחשב או התעמקות בוויכוחים פילוסופיים, GPT-4ההכשרה של מערך נתונים מגוון מכשירה אותו לתקשר עם משתמשים מתחומים שונים. הרבגוניות הזו נובעת מהחשיפה שלה למגוון עצום של משאבים טקסטואליים, מה שהופך אותו לכלי בעל ערך עבור מגוון רחב של משתמשים.

קרא עוד על AI:

תגיות:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.

מאמרים נוספים

דמיר יללוב