FLM-101B: מודל שפה חסכוני במיוחד בקנה מידה 101B מתחרה עם דגמי AI מובילים
בקיצור
ניתן לאמן את ה-LLM הסיני, LM-101B, בתקציב של 100 אלף דולר, ולהשיג ביצועים דומים לדגמים ידועים כמו GPT-3 ו-GLM-130B.
חוקרים סיניים חשפו LLM חדש, ה FLM-101B, LLM מפענח בלבד המתגאה ב-101 מיליארד פרמטרים יוצאי דופן. פיתוח זה מספק חלופה חסכונית הן ליישומים מחקריים והן ליישומים מעשיים.
מידע נוסף: עלויות הדרכה של מודל בינה מלאכותית צפויות לעלות מ-100 מיליון דולר ל-500 מיליון דולר עד 2030 |
מה שמייחד את FLM-101B הוא הביצועים יוצאי הדופן שלו שהושגו בתקציב צנוע יחסית. אמנם זה ידוע שאימון LLM מאפס יכול לדרוש השקעות אסטרונומיות, אבל יוצרי FLM-101B הראו שאפשר לאמן מודל עם 101 מיליארד פרמטרים תוך שימוש בתקציב של 100K$ בלבד.
תוצאות הניסוי הן לא פחות ממרשימות. FLM-101B הוכיח רמות ביצועים הדומות לרמות מבוססות ועתירות משאבים דוגמניות כמו GPT-3 ו-GLM-130B. השוואה זו מדגישה את הפוטנציאל האדיר של מודל חסכוני זה, במיוחד על מדדי IQ עם הקשרים מורכבים שאינם קיימים בנתוני האימון.
בצעד שמדגיש את מחויבותם לקידום מחקר ופיתוח בינה מלאכותית, יוצרי FLM-101B הפכו את המודל הזה לקוד פתוח. חוקרים ומפתחים ברחבי העולם יכולים כעת לגשת ולמנף את LLM זה בקנה מידה 101B עבור יישומים שונים, המשתרעים על השפה הסינית והאנגלית כאחד.
מודל FLM-101B משתמש בגישת הדרכה ייחודית. הוא צובר במהירות ידע ממודל קטן יותר של 16 מיליארד פרמטרים בשלבים הראשונים של ההכשרה ומגדיל בהדרגה עד 101 מיליארד פרמטרים. גישה מצטברת זו מפחיתה משמעותית את עלויות ההכשרה, מה שהופך אותה לכדאית כלכלית עבור מגוון רחב יותר של פרויקטים.
תכונה בולטת של FLM-101B היא התמיכה שלו בהרחבת גודל חלון יעילה במהלך הסקת מסקנות. זה מושג באמצעות שימוש בהטמעת מיקום סיבובי של xPos, המאפשר לדגם להתמודד עם הקשר רחב יותר, מה שמשפר את יכולת ההסתגלות והשימושיות שלו.
FLM-101B הוכשר על אשכול של 24 שרתי DGX-A800 GPU תוך פחות מ-26 ימים. ההישג המרשים הזה מדגיש את יכולת ההרחבה של המודל ואת ניצול המשאבים היעיל. בסיס קוד ההדרכה של המודל, המותאם מ-Megatron-LM, יהיה זמין בקרוב כקוד פתוח, ויספק תובנות חשובות לקהילת הבינה המלאכותית.
היוצרים של FLM-101B מכירים במגבלות פוטנציאליות, כולל חשיפת המודל לדוגמאות לא בטוחות בקורפוס ההדרכה עקב האופי הפתוח של מערך הנתונים. אזהרה זו משמשת כתזכורת לחשיבות השימוש ב-AI אחראי ו התמתנות תוכן.
בעוד FLM-101B השיג תוצאות יוצאות דופן, היוצרים מכירים בתחומים לשיפור. תהליך ההסקה של המודל, למרות שהוא חזק, עדיין לא עבר אופטימיזציה מלאה, מה שמוביל לשימוש גבוה יותר במשאבים ומהירות מופחתת. עם זאת, מתכננים להציג את Flash Attention בהסקה, תוך התייחסות למגבלה זו.
קרא עוד על AI:
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.