Qwen משיקה מודל ראייה-שפה חדש לקידום קידוד, חשיבה ובינה מלאכותית רב-מודאלית
בקיצור
צוות Qwen השיק את דגם Qwen3.5‑397B‑A17B במשקל פתוח, המציג התקדמות משמעותית בביצועים רב-מודאליים, למידת חיזוקים ויעילות אימון כחלק מדחיפה רחבה יותר לעבר סוכני בינה מלאכותית בעלי יכולות כלליות יותר.
צוות Qwen של Alibaba Cloud הציג את הדגם הראשון בסדרת Qwen3.5 החדשה שלו, וחשף את ה-Qwen3.5‑397B‑A17B במשקל פתוח.
המודל, הממוקם כמערכת שפת ראייה מקורית, מספק ביצועים חזקים בתחומי הנמקה, קידוד, משימות סוכן והבנה רב-מודאלית, ומשקף התקדמות משמעותית במאמצי פיתוח הבינה המלאכותית בקנה מידה גדול של החברה.
המודל בנוי על ארכיטקטורה היברידית המשלבת קשב ליניארי דרך רשתות דלתא מגודרות עם תערובת דלילה של מומחים, מה שמאפשר יעילות גבוהה במהלך הסקה. למרות שהמערכת המלאה מכילה 397 מיליארד פרמטרים, רק 17 מיליארד מופעלים עבור כל מעבר קדימה, מה שמאפשר לה לשמור על יכולת גבוהה תוך הפחתת עלויות חישוב. הגרסה הזו גם מרחיבה את כיסוי השפות והדיאלקטים מ-119 ל-201, מה שמרחיב את הנגישות עבור משתמשים ומפתחים ברחבי העולם.
Qwen3.5 מסמן קפיצת מדרגה משמעותית בלמידת חיזוק ויעילות טרום אימון
סדרת Qwen3.5 מציגה יתרונות משמעותיים לעומת Qwen3, המונעים בעיקר על ידי למידה מרחיקת לכת במגוון רחב של סביבות. במקום לבצע אופטימיזציה עבור מדדי ביצועים צרים, הצוות התמקד בהגדלת הקושי של המשימות וההכללה, וכתוצאה מכך שיפור בביצועי הסוכנים בהערכות כגון BFCL-V4, VITA-Bench, DeepPlanning, Tool-Decathlon ו-MCP-Mark. תוצאות נוספות יפורטו בדוח טכני שיתפרסם בקרוב.
שיפורי אימון מקדים משתרעים על פני עוצמה, יעילות וגמישות. Qwen3.5 מאומן על נפח גדול משמעותית של נתוני טקסט ויזואליים עם תוכן רב-לשוני, STEM והיגיון מחוזק, מה שמאפשר לו להתאים לביצועים של מודלים קודמים של טריליון פרמטרים. שדרוגים ארכיטקטוניים - כולל MoE דלילות יותר, קשב היברידי, חידודי יציבות וחיזוי מרובה אסימונים - מספקים שיפורי תפוקה משמעותיים, במיוחד באורכי הקשר מורחבים של אסימונים של 32k ו-256k. היכולות הרב-מודאליות של המודל מתחזקות באמצעות מיזוג מוקדם של ראיית טקסט ומערכי נתונים מורחבים המכסים תמונות, חומרי STEM ווידאו, בעוד שאוצר מילים גדול יותר של 250k משפר את יעילות הקידוד והפענוח ברוב השפות.
התשתית שמאחורי Qwen3.5 תוכננה לאימון רב-מודאלי יעיל. אסטרטגיית מקביליות הטרוגנית מפרידה בין רכיבי ראייה ושפה כדי למנוע צווארי בקבוק, בעוד שהפעלה דלילה מאפשרת תפוקה כמעט מלאה אפילו בעומסי עבודה מעורבים של טקסט-תמונה-וידאו. צינור FP8 מקורי מפחית את זיכרון ההפעלה בכמחצית ומגדיל את מהירות האימון ביותר מ-10 אחוזים, תוך שמירה על יציבות בקנה מידה גדול של אסימונים.
למידת חיזוק נתמכת על ידי מסגרת אסינכרונית לחלוטין המסוגלת לטפל במודלים מכל הגדלים, לשפר את ניצול החומרה, איזון עומסים ושחזור תקלות. טכניקות כגון אימון מקצה לקצה של FP8, פענוח ספקולטיבי, משחק חוזר של נתב פריסה ונעילת פריסה מרובת תורות מסייעות לשמור על עקביות ולהפחית קיפאון גרדיאנט. המערכת בנויה לתמוך בזרימות עבודה של סוכנים בקנה מידה גדול, המאפשרת אינטראקציות חלקות מרובות תורות והכללה רחבה על פני סביבות.
משתמשים יכולים לתקשר עם Qwen3.5 דרך Qwen Chat, המציע מצבים אוטומטיים, חשיבה ומהירים בהתאם למשימה. המודל זמין גם דרך ModelStudio של Alibaba Cloud, שם ניתן להפעיל תכונות מתקדמות כגון חשיבה, חיפוש באינטרנט וביצוע קוד באמצעות פרמטרים פשוטים. שילוב עם כלי קידוד של צד שלישי מאפשר למפתחים לאמץ את Qwen3.5 בזרימות עבודה קיימות עם חיכוך מינימלי.
על פי צוות Qwen, Qwen3.5 יוצר בסיס לסוכנים דיגיטליים אוניברסליים באמצעות הארכיטקטורה ההיברידית שלו והיגיון רב-מודאלי טבעי. פיתוח עתידי יתמקד באינטגרציה ברמת המערכת, כולל זיכרון מתמשך ללמידה בין-מפגשים, ממשקים מגולמים לאינטראקציה בעולם האמיתי, מנגנוני שיפור עצמי ומודעות כלכלית לפעולה אוטונומית לטווח ארוך. המטרה היא להתקדם מעבר לעוזרים ספציפיים למשימה לעבר סוכנים קוהרנטיים ומתמשכים המסוגלים לנהל יעדים מורכבים ורב-יומיים עם שיקול דעת אמין ומותאם לבני אדם.
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
אליסה, עיתונאית מסורה ב- MPost, מתמחה במטבעות קריפטוגרפיים, הוכחות אפס ידע, השקעות ותחום הרחבה של Web3. עם עין חדה לטרנדים וטכנולוגיות מתפתחות, היא מספקת סיקור מקיף כדי ליידע ולערב את הקוראים בנוף ההולך ומתפתח של מימון דיגיטלי.
מאמרים נוספים
אליסה, עיתונאית מסורה ב- MPost, מתמחה במטבעות קריפטוגרפיים, הוכחות אפס ידע, השקעות ותחום הרחבה של Web3. עם עין חדה לטרנדים וטכנולוגיות מתפתחות, היא מספקת סיקור מקיף כדי ליידע ולערב את הקוראים בנוף ההולך ומתפתח של מימון דיגיטלי.