Qwen เปิดตัวโมเดลภาพและภาษาใหม่เพื่อพัฒนาประสิทธิภาพการเขียนโค้ด การให้เหตุผล และปัญญาประดิษฐ์แบบหลายโมดอลให้ดียิ่งขึ้น
ในบทสรุป
ทีม Qwen ได้เปิดตัวโมเดล Qwen3.5‑397B‑A17B ที่รองรับน้ำหนักแบบเปิด ซึ่งนำเสนอความก้าวหน้าครั้งสำคัญในด้านประสิทธิภาพการทำงานแบบหลายโมดอล การเรียนรู้แบบเสริมแรง และประสิทธิภาพการฝึกฝน ซึ่งเป็นส่วนหนึ่งของความพยายามที่กว้างขึ้นในการสร้างเอเจนต์ AI ที่มีความสามารถและใช้งานได้หลากหลายยิ่งขึ้น
ทีม Qwen ของ Alibaba Cloud ได้เปิดตัวรุ่นแรกในซีรีส์ Qwen3.5 ใหม่ โดยเผยโฉม Qwen3.5‑397B‑A17B ซึ่งเป็นนาฬิกาแบบเปิดน้ำหนักเบา
โมเดลนี้ถูกวางตำแหน่งให้เป็นระบบประมวลผลภาพและภาษาโดยธรรมชาติ และมีประสิทธิภาพสูงในด้านการให้เหตุผล การเขียนโค้ด งานของเอเจนต์ และความเข้าใจแบบหลายรูปแบบ ซึ่งสะท้อนให้เห็นถึงความก้าวหน้าอย่างมีนัยสำคัญในความพยายามพัฒนา AI ขนาดใหญ่ของบริษัท
โมเดลนี้สร้างขึ้นบนสถาปัตยกรรมแบบไฮบริดที่ผสมผสานกลไกความสนใจเชิงเส้นผ่านเครือข่าย Gated Delta Networks เข้ากับการออกแบบแบบผสมผสานผู้เชี่ยวชาญแบบเบาบาง ทำให้มีประสิทธิภาพสูงในระหว่างการอนุมาน แม้ว่าระบบทั้งหมดจะมีพารามิเตอร์ 397 พันล้านตัว แต่จะมีเพียง 17 พันล้านตัวเท่านั้นที่ถูกเปิดใช้งานในแต่ละรอบการประมวลผล ทำให้สามารถรักษาความสามารถสูงไว้ได้ในขณะที่ลดต้นทุนการคำนวณ การเปิดตัวครั้งนี้ยังขยายการครอบคลุมภาษาและสำเนียงจาก 119 เป็น 201 ทำให้ผู้ใช้และนักพัฒนาทั่วโลกเข้าถึงได้ง่ายขึ้น
Qwen3.5 ถือเป็นก้าวสำคัญในการเรียนรู้แบบเสริมแรงและประสิทธิภาพการฝึกฝนล่วงหน้า
ซีรีส์ Qwen3.5 นำเสนอความก้าวหน้าอย่างมากเมื่อเทียบกับ Qwen3 โดยส่วนใหญ่เกิดจากการปรับขนาดการเรียนรู้แบบเสริมแรงอย่างครอบคลุมในสภาพแวดล้อมที่หลากหลาย แทนที่จะปรับให้เหมาะสมกับเกณฑ์มาตรฐานที่แคบ ทีมงานมุ่งเน้นไปที่การเพิ่มความยากของงานและความสามารถในการใช้งานทั่วไป ส่งผลให้ประสิทธิภาพของเอเจนต์ดีขึ้นในการประเมินต่างๆ เช่น BFCL‑V4, VITA‑Bench, DeepPlanning, Tool‑Decathlon และ MCP‑Mark ผลลัพธ์เพิ่มเติมจะได้รับการอธิบายอย่างละเอียดในรายงานทางเทคนิคที่จะออกในอนาคต
การปรับปรุงก่อนการฝึกฝนครอบคลุมทั้งด้านพลัง ประสิทธิภาพ และความหลากหลายในการใช้งาน Qwen3.5 ได้รับการฝึกฝนด้วยข้อมูลภาพและข้อความที่มีปริมาณมากขึ้นอย่างมีนัยสำคัญ พร้อมด้วยเนื้อหาหลายภาษา STEM และการให้เหตุผลที่แข็งแกร่งขึ้น ทำให้สามารถเทียบเท่ากับประสิทธิภาพของโมเดลรุ่นก่อนๆ ที่มีพารามิเตอร์นับล้านล้านตัว การอัปเกรดทางสถาปัตยกรรม—รวมถึง MoE ที่มีความเบาบางสูงขึ้น กลไกความสนใจแบบไฮบริด การปรับปรุงเสถียรภาพ และการทำนายหลายโทเค็น—ให้ผลลัพธ์ที่เพิ่มขึ้นอย่างมากในด้านปริมาณงาน โดยเฉพาะอย่างยิ่งที่ความยาวบริบทที่ขยายออกไปเป็น 32 และ 256 โทเค็น ความสามารถแบบหลายรูปแบบของโมเดลได้รับการเสริมความแข็งแกร่งผ่านการผสมผสานข้อความและภาพในระยะเริ่มต้น และชุดข้อมูลที่ขยายออกไปซึ่งครอบคลุมรูปภาพ สื่อ STEM และวิดีโอ ในขณะที่คำศัพท์ที่ใหญ่ขึ้น 250 คำช่วยปรับปรุงประสิทธิภาพการเข้ารหัสและการถอดรหัสในภาษาต่างๆ ส่วนใหญ่
โครงสร้างพื้นฐานของ Qwen3.5 ได้รับการออกแบบมาเพื่อการฝึกอบรมแบบมัลติโมดอลที่มีประสิทธิภาพ กลยุทธ์การประมวลผลแบบขนานที่ไม่เป็นเนื้อเดียวกันจะแยกส่วนประกอบด้านภาพและภาษาเพื่อหลีกเลี่ยงปัญหาคอขวด ในขณะที่การเปิดใช้งานแบบเบาบางช่วยให้ได้ปริมาณงานเกือบเต็มประสิทธิภาพแม้ในงานที่มีทั้งข้อความ รูปภาพ และวิดีโอ การประมวลผลแบบ FP8 ดั้งเดิมช่วยลดหน่วยความจำในการเปิดใช้งานลงประมาณครึ่งหนึ่งและเพิ่มความเร็วในการฝึกอบรมมากกว่า 10 เปอร์เซ็นต์ พร้อมรักษาเสถียรภาพที่ระดับโทเค็นขนาดใหญ่
การเรียนรู้แบบเสริมแรงได้รับการสนับสนุนโดยเฟรมเวิร์กแบบอะซิงโครนัสอย่างสมบูรณ์ ซึ่งสามารถจัดการกับโมเดลทุกขนาด ปรับปรุงการใช้ฮาร์ดแวร์ การกระจายโหลด และการกู้คืนข้อผิดพลาด เทคนิคต่างๆ เช่น การฝึกอบรมแบบครบวงจร FP8 การถอดรหัสแบบคาดการณ์ การเล่นซ้ำเราเตอร์แบบโรลเอาต์ และการล็อกโรลเอาต์แบบหลายรอบ ช่วยรักษาความสม่ำเสมอและลดความล้าสมัยของเกรเดียนต์ ระบบนี้สร้างขึ้นเพื่อรองรับเวิร์กโฟลว์เอเจนต์ขนาดใหญ่ ช่วยให้การโต้ตอบแบบหลายรอบเป็นไปอย่างราบรื่นและสามารถสรุปผลได้ในวงกว้างในสภาพแวดล้อมต่างๆ
ผู้ใช้สามารถโต้ตอบกับ Qwen3.5 ผ่าน Qwen Chat ซึ่งมีโหมดการทำงานแบบอัตโนมัติ แบบคิด และแบบเร็ว ขึ้นอยู่กับงานที่ทำ นอกจากนี้ โมเดลนี้ยังสามารถใช้งานได้ผ่าน ModelStudio ของ Alibaba Cloud ซึ่งสามารถเปิดใช้งานคุณสมบัติขั้นสูง เช่น การให้เหตุผล การค้นหาเว็บ และการเรียกใช้โค้ดได้ผ่านพารามิเตอร์ที่ใช้งานง่าย การผสานรวมกับเครื่องมือเขียนโค้ดของบุคคลที่สามช่วยให้นักพัฒนาสามารถนำ Qwen3.5 ไปใช้ในเวิร์กโฟลว์ที่มีอยู่ได้อย่างราบรื่น
ทีมงาน Qwen ระบุว่า Qwen3.5 สร้างรากฐานสำหรับตัวแทนดิจิทัลสากลผ่านสถาปัตยกรรมแบบไฮบริดและการให้เหตุผลแบบหลายรูปแบบโดยธรรมชาติ การพัฒนาในอนาคตจะมุ่งเน้นไปที่การบูรณาการในระดับระบบ รวมถึงหน่วยความจำถาวรสำหรับการเรียนรู้ข้ามเซสชัน อินเทอร์เฟซที่เชื่อมโยงกับโลกแห่งความเป็นจริง กลไกการปรับปรุงตนเอง และการรับรู้ทางเศรษฐกิจสำหรับการทำงานอัตโนมัติในระยะยาว เป้าหมายคือการก้าวข้ามผู้ช่วยเฉพาะงานไปสู่ตัวแทนที่สอดคล้องกันและคงอยู่ถาวร ซึ่งสามารถจัดการเป้าหมายที่ซับซ้อนและยาวนานได้หลายวันด้วยการตัดสินใจที่น่าเชื่อถือและสอดคล้องกับมนุษย์
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านสกุลเงินดิจิทัล การพิสูจน์ความรู้เป็นศูนย์ การลงทุน และขอบเขตที่กว้างขวางของ Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา
บทความอื่น ๆ
อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านสกุลเงินดิจิทัล การพิสูจน์ความรู้เป็นศูนย์ การลงทุน และขอบเขตที่กว้างขวางของ Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา