דיווח חדשות טכנולוגיה
ספטמבר 12, 2023

FLM-101B: מודל שפה חסכוני במיוחד בקנה מידה 101B מתחרה עם דגמי AI מובילים

בקיצור

ניתן לאמן את ה-LLM הסיני, LM-101B, בתקציב של 100 אלף דולר, ולהשיג ביצועים דומים לדגמים ידועים כמו GPT-3 ו-GLM-130B.

חוקרים סיניים חשפו LLM חדש, ה FLM-101B, LLM מפענח בלבד המתגאה ב-101 מיליארד פרמטרים יוצאי דופן. פיתוח זה מספק חלופה חסכונית הן ליישומים מחקריים והן ליישומים מעשיים.

FLM-101B: מודל שפה חסכוני במיוחד בקנה מידה 101B מתחרה עם דגמי AI מובילים
מידע נוסף: עלויות הדרכה של מודל בינה מלאכותית צפויות לעלות מ-100 מיליון דולר ל-500 מיליון דולר עד 2030

מה שמייחד את FLM-101B הוא הביצועים יוצאי הדופן שלו שהושגו בתקציב צנוע יחסית. אמנם זה ידוע שאימון LLM מאפס יכול לדרוש השקעות אסטרונומיות, אבל יוצרי FLM-101B הראו שאפשר לאמן מודל עם 101 מיליארד פרמטרים תוך שימוש בתקציב של 100K$ בלבד.

תוצאות הניסוי הן לא פחות ממרשימות. FLM-101B הוכיח רמות ביצועים הדומות לרמות מבוססות ועתירות משאבים דוגמניות כמו GPT-3 ו-GLM-130B. השוואה זו מדגישה את הפוטנציאל האדיר של מודל חסכוני זה, במיוחד על מדדי IQ עם הקשרים מורכבים שאינם קיימים בנתוני האימון.

בצעד שמדגיש את מחויבותם לקידום מחקר ופיתוח בינה מלאכותית, יוצרי FLM-101B הפכו את המודל הזה לקוד פתוח. חוקרים ומפתחים ברחבי העולם יכולים כעת לגשת ולמנף את LLM זה בקנה מידה 101B עבור יישומים שונים, המשתרעים על השפה הסינית והאנגלית כאחד.

מודל FLM-101B משתמש בגישת הדרכה ייחודית. הוא צובר במהירות ידע ממודל קטן יותר של 16 מיליארד פרמטרים בשלבים הראשונים של ההכשרה ומגדיל בהדרגה עד 101 מיליארד פרמטרים. גישה מצטברת זו מפחיתה משמעותית את עלויות ההכשרה, מה שהופך אותה לכדאית כלכלית עבור מגוון רחב יותר של פרויקטים.

תכונה בולטת של FLM-101B היא התמיכה שלו בהרחבת גודל חלון יעילה במהלך הסקת מסקנות. זה מושג באמצעות שימוש בהטמעת מיקום סיבובי של xPos, המאפשר לדגם להתמודד עם הקשר רחב יותר, מה שמשפר את יכולת ההסתגלות והשימושיות שלו.

FLM-101B הוכשר על אשכול של 24 שרתי DGX-A800 GPU תוך פחות מ-26 ימים. ההישג המרשים הזה מדגיש את יכולת ההרחבה של המודל ואת ניצול המשאבים היעיל. בסיס קוד ההדרכה של המודל, המותאם מ-Megatron-LM, יהיה זמין בקרוב כקוד פתוח, ויספק תובנות חשובות לקהילת הבינה המלאכותית.

היוצרים של FLM-101B מכירים במגבלות פוטנציאליות, כולל חשיפת המודל לדוגמאות לא בטוחות בקורפוס ההדרכה עקב האופי הפתוח של מערך הנתונים. אזהרה זו משמשת כתזכורת לחשיבות השימוש ב-AI אחראי ו התמתנות תוכן.

בעוד FLM-101B השיג תוצאות יוצאות דופן, היוצרים מכירים בתחומים לשיפור. תהליך ההסקה של המודל, למרות שהוא חזק, עדיין לא עבר אופטימיזציה מלאה, מה שמוביל לשימוש גבוה יותר במשאבים ומהירות מופחתת. עם זאת, מתכננים להציג את Flash Attention בהסקה, תוך התייחסות למגבלה זו.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories

Lisk עובר רשמית ל-Ethereum Layer 2 וחושפת Core v4.0.6

by אליסה דוידסון
מאי 08, 2024
הצטרף לניוזלטר שלנו.
חדשות אחרונות

Lisk עובר רשמית ל-Ethereum Layer 2 וחושפת Core v4.0.6

by אליסה דוידסון
מאי 08, 2024

התיאבון המוסדי גדל לקראת תעודות סל של ביטקוין על רקע תנודתיות

גילויים באמצעות הגשת 13F חושפים משקיעים מוסדיים בולטים שמתעסקים בתעודות סל של ביטקוין, מה שמדגיש הסכמה גוברת של ...

יודע יותר

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
Nexo יוזמת את 'המצוד' כדי לתגמל את המשתמשים באסימוני NEXO של 12 מיליון דולר על כך שהם מעורבים במערכת האקולוגית שלה
שוקי דיווח חדשות טכנולוגיה
Nexo יוזמת את 'המצוד' כדי לתגמל את המשתמשים באסימוני NEXO של 12 מיליון דולר על כך שהם מעורבים במערכת האקולוגית שלה
מאי 8, 2024
Revolut X Exchange של Revolut שוקדת על סוחרי קריפטו עם אפס עמלות יצרן, וניתוח מתקדם
שוקי תוכנה סיפורים וסקירות טכנולוגיה
Revolut X Exchange של Revolut שוקדת על סוחרי קריפטו עם אפס עמלות יצרן, וניתוח מתקדם
מאי 8, 2024
פלטפורמת מסחר קריפטו BitMEX מציגה לראשונה מסחר באופציות עם 0 עמלות ותמריצים במזומן
עסקים שוקי דיווח חדשות
פלטפורמת מסחר קריפטו BitMEX מציגה לראשונה מסחר באופציות עם 0 עמלות ותמריצים במזומן
מאי 8, 2024
Lisk עובר רשמית ל-Ethereum Layer 2 וחושפת Core v4.0.6
דיווח חדשות טכנולוגיה
Lisk עובר רשמית ל-Ethereum Layer 2 וחושפת Core v4.0.6
מאי 8, 2024
CRYPTOMERIA LABS PTE. בע"מ.