דיווח חדשות טכנולוגיה
אפריל 05, 2023

8 דברים שכדאי לדעת על דגמי שפה גדולים

בקיצור

דגמי שפה גדולים (לימודי תואר שני) משמשים כדי לחקור את הניואנסים של השפה הטבעית, לשפר את היכולת של מכונות להבין וליצור טקסט, ולהפוך משימות לאוטומטיות כמו זיהוי קול ותרגום מכונה.

אין פתרון קל לניהול LLMs, אבל הם מסוגלים בדיוק כמו בני אדם.

עם עלייה בהתפתחות של עיבוד שפה טבעית והשימוש בה בעסקים, יש עניין גובר במודלים של שפה גדולים. מודלים אלה משמשים כדי לחקור את הניואנסים של השפה הטבעית, לשפר את היכולת של מכונות להבין וליצור טקסט ולהפוך משימות לאוטומטיות כגון זיהוי קול ותרגום מכונה. להלן שמונה דברים חיוניים שכדאי לדעת על מודלים של שפה גדולה (LLM).

10 דברים שכדאי לדעת על דגמי שפה גדולים
@Midjourney / Taka#4076

LLMs "מוכשרים" יותר מכיוון שהעלויות ממשיכות לעלות

תכניות לימודים ללימודי תואר שני הופכים "מוכשרים" יותר עם עלויות גדלות, אפילו ללא חידושים מגניבים. העיקר כאן הוא חיזוי, שהוצגה במאמר על GPT-4: חמישה עד שבעה דגמים קטנים נלמדו עם תקציב של 0.1% מהדגם הסופי, ואז נעשתה חיזוי לדגם ענק המבוסס על זה. להערכה כללית של תמיהה ומדדים על תת-דגימה של משימה ספציפית אחת, תחזית כזו הייתה מדויקת מאוד. יכולת חיזוי זו חשובה לעסקים וארגונים המסתמכים על LLM לפעילותם, שכן הם יכולים לתקצב בהתאם ולתכנן הוצאות עתידיות. עם זאת, חשוב לציין שבעוד שהגדלת העלויות עשויה להוביל לשיפור היכולות, קצב השיפור עשוי בסופו של דבר להגיע לרמה, מה שמחייב להשקיע בחידושים חדשים כדי להמשיך להתקדם.

מבט מהיר על איך GPT מודלים מסתגלים ככל שעלויות ההדרכה עולות

עם זאת, כישורים חשובים ספציפיים נוטים להופיע באופן בלתי צפוי כתוצר לוואי של עלייה עלויות הדרכה (אימון ארוך יותר, יותר נתונים, מודל גדול יותר) - כמעט בלתי אפשרי לחזות מתי מודלים יתחילו לבצע משימות מסוימות. חקרנו את הנושא בצורה מעמיקה יותר מאמר על ההיסטוריה של ההתפתחות של GPT דגמים. התמונה מציגה את התפלגות העלייה באיכות הדגמים על פני משימות שונות. רק הדוגמניות הגדולות יכולות ללמוד לבצע משימות שונות. גרף זה מדגיש את ההשפעה המשמעותית של הגדלת הגודל של GPT מודלים על ביצועיהם במשימות שונות. עם זאת, חשוב לציין שהדבר בא במחיר של משאבי חישוב מוגדלים והשפעה סביבתית.

מבט מהיר על איך GPT מודלים מסתגלים ככל שעלויות ההדרכה עולות

לימודי תואר שני לומדים לשחק משחקי לוח באמצעות ייצוגים של העולם החיצון

לימודי תואר שני לומדים ומשתמשים בייצוגים של העולם החיצון. יש כאן דוגמאות רבות, והנה אחת מהן: דוגמניות אומנו לשחק משחקי לוח המבוססים על תיאורים של מהלכים בודדים, מבלי לראות תמונה של מגרש המשחקים, למד ייצוגים פנימיים של מצב הלוח בכל מהלך. לאחר מכן ניתן להשתמש לייצוגים פנימיים אלה לחזות עתיד מהלכים ותוצאות, המאפשרים לדגם לשחק את המשחק ברמה גבוהה. יכולת זו ללמוד ולהשתמש בייצוגים היא מפתח היבט של למידת מכונה ובינה מלאכותית.

אין פתרון קל לניהול LLM

אין שיטות אמינות לשלוט בהתנהגות LLM. אמנם חלה התקדמות מסוימת בהבנה והפחתת בעיות שונות (כולל ChatGPT ו GPT-4 בעזרת משוב), אין קונצנזוס אם נוכל לפתור אותם. יש חשש גובר שהדבר יהפוך לבעיה ענקית, שעלולה להיות קטסטרופלית בעתיד, כאשר ייווצרו מערכות גדולות עוד יותר. לכן, חוקרים בוחנים שיטות חדשות כדי להבטיח שמערכות בינה מלאכותית מתאימות לערכים ולמטרות האנושיות, כגון יישור ערכים והנדסת תגמול. עם זאת, זו נותרה משימה מאתגרת להבטיח את בטיחות ואמינות של LLMs בתרחישים מורכבים בעולם האמיתי.

קרא עוד: OpenAI מרכיב צוות של 50+ מומחים לשיפור GPT-4הבטיחות של

מומחים מתקשים להסביר כיצד פועל ה-LLM

מומחים עדיין לא יכולים לפרש את פעולתו הפנימית של ה-LLM. שום טכניקה לא תאפשר לנו לציין בצורה משביעת רצון באילו סוגים של ידע, היגיון או מטרות המודל משתמש כאשר הוא מייצר תוצאה כלשהי. חוסר פרשנות זה מעורר חששות לגבי המהימנות וההוגנות של החלטות ה-LLM, במיוחד ביישומים בעלי סיכון גבוה כגון משפט פלילי או ניקוד אשראי. זה גם מדגיש את הצורך במחקר נוסף על פיתוח מודלים של AI שקופים יותר ובעלי אחריות.

LLMs מסוגלים בדיוק כמו בני אדם

למרות שלימודי תואר שני מאומנים בעיקר ל לחקות התנהגות אנושית בעת כתיבת טקסט, יש להם פוטנציאל להתעלות עלינו במשימות רבות. זה כבר ניתן לראות כשמשחקים שחמט או Go. זה נובע מהיכולת שלהם לנתח כמויות אדירות של נתונים ולקבל החלטות על סמך הניתוח הזה במהירות שבני אדם לא יכולים להשתוות. עם זאת, ללימודי תואר שני עדיין חסרים את היצירתיות והאינטואיציה שיש לבני אדם, מה שהופך אותם לפחות מתאימים למשימות רבות.

קרא עוד: OpenAI מרכיב צוות של 50+ מומחים לשיפור GPT-4הבטיחות של

לימודי תואר שני חייבים להיות יותר מסתם "כל הכבוד"

אסור ללימודי תואר שני לבטא את הערכים של יוצריהם או את הערכים המקודדים במבחר מהאינטרנט. אסור להם לחזור על סטריאוטיפים או תיאוריות קונספירציה או לנסות לפגוע באף אחד. במקום זאת, תכניות לימודים לימודיות צריכים להיות מתוכננים לספק מידע חסר פניות ועובדתי למשתמשים שלהם תוך כיבוד ההבדלים התרבותיים והחברתיים. בנוסף, עליהם לעבור בדיקות וניטור קבועים כדי להבטיח שהם ממשיכים לעמוד בתקנים אלה.

דוגמניות 'חכמות' יותר ממה שאנשים חושבים על סמך רושם ראשוני

הערכות ליכולת של דוגמנית המבוססות על רושם ראשוני הן לרוב מטעות. לעתים קרובות מאוד, אתה צריך להמציא את ההנחיה הנכונה, להציע מודל, ואולי להראות דוגמאות, והוא יתחיל להתמודד הרבה יותר טוב. כלומר, זה "חכם" יותר ממה שזה נראה במבט ראשון. לכן, חיוני לתת לדגם הזדמנות הוגנת ולספק לו את המשאבים הדרושים לביצוע במיטבו. עם הגישה הנכונה, אפילו דגמים שלכאורה לא מתאימים יכולים להפתיע אותנו ביכולות שלהם.

אם נתמקד במדגם של 202 משימות ממערך הנתונים של BIG-Bench (התקשו במיוחד לבדיקה מודלים של שפה מ-ואל), אז ככלל (בממוצע), המודלים מראים עלייה באיכות עם הגדלת קנה המידה, אך בנפרד, המדדים במשימות יכולים:

  • להשתפר בהדרגה,
  • להשתפר בצורה דרסטית,
  • נשאר ללא שינוי,
  • לְהַקְטִין,
  • לא מראים מתאם.

כל זה מוביל לחוסר האפשרות לבצע אקסטרפולציה בטוחה של הביצועים של כל מערכת עתידית. החלק הירוק מעניין במיוחד - זה בדיוק המקום שבו מדדי האיכות קופצים בחדות ללא סיבה כלל.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

התיאבון המוסדי גדל לקראת תעודות סל של ביטקוין על רקע תנודתיות

גילויים באמצעות הגשת 13F חושפים משקיעים מוסדיים בולטים שמתעסקים בתעודות סל של ביטקוין, מה שמדגיש הסכמה גוברת של ...

יודע יותר

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
מרפלקס פשוט לסוכני למידה: בדוק את הסוגים השונים של סוכני AI ותפקידיהם באפליקציות מודרניות
סגנון חיים תוכנה סיפורים וסקירות טכנולוגיה
מרפלקס פשוט לסוכני למידה: בדוק את הסוגים השונים של סוכני AI ותפקידיהם באפליקציות מודרניות
מאי 7, 2024
Meson Network מאפשרת לכורי קריפטו להשיג אסימונים באמצעות כרייה. Airdrops ותוכניות רכישה חוזרות מגיעות
שוקי דיווח חדשות טכנולוגיה
Meson Network מאפשרת לכורי קריפטו להשיג אסימונים באמצעות כרייה. Airdrops ותוכניות רכישה חוזרות מגיעות
מאי 7, 2024
פרדיגמה מובילה סבב גיוס מגה של 225 מיליון דולר עבור Monad, פתרון 'סולנה קילר' L1 שניתן להרחיב במיוחד המכוון ל-10,000 TPS
עסקים שוקי תוכנה סיפורים וסקירות טכנולוגיה
פרדיגמה מובילה סבב גיוס מגה של 225 מיליון דולר עבור Monad, פתרון 'סולנה קילר' L1 שניתן להרחיב במיוחד המכוון ל-10,000 TPS
מאי 7, 2024
האם מטבע ביטגרט מוכן לעליית מחירים של +500%? מומחי קריפטו אומרים כן
דיווח חדשות
האם מטבע ביטגרט מוכן לעליית מחירים של +500%? מומחי קריפטו אומרים כן
מאי 7, 2024
CRYPTOMERIA LABS PTE. בע"מ.