รายงานข่าว เทคโนโลยี
May 08, 2026

ใหม่ OpenAI โมเดลเสียงช่วยเสริมศักยภาพผู้ช่วยเสียงแบบเรียลไทม์ พร้อมความสามารถในการแปลหลายภาษาและระบบประมวลผลข้อมูลแบบสตรีมมิ่ง

ในบทสรุป

OpenAI การเผยแพร่ GPT-โมเดล Realtime-2, Translate และ Whisper ขยายขีดความสามารถของ AI เสียงแบบเรียลไทม์ด้วยการให้เหตุผล การแปล และการถอดเสียง สำหรับแอปพลิเคชันการสนทนาขั้นสูง

ใหม่ OpenAI โมเดลเสียงช่วยเสริมศักยภาพผู้ช่วยเสียงแบบเรียลไทม์ พร้อมความสามารถในการแปลหลายภาษาและระบบประมวลผลข้อมูลแบบสตรีมมิ่ง

OpenAI ได้ประกาศชุดโมเดลเสียงใหม่ภายในระบบ API ของตน ซึ่งเป็นการขยายขีดความสามารถด้านเสียงแบบเรียลไทม์สำหรับนักพัฒนาและแอปพลิเคชันที่ขับเคลื่อนด้วย AI การเปิดตัวครั้งนี้ประกอบด้วย GPT-เรียลไทม์-2, GPT-การแปลแบบเรียลไทม์ และ GPT-Realtime-Whisper ซึ่งแต่ละแอปพลิเคชันได้รับการออกแบบมาเพื่อช่วยให้การโต้ตอบด้วยเสียงมีความล้ำหน้า ตอบสนองได้ดี และสอดคล้องกับบริบทมากขึ้นในหลากหลายกรณีการใช้งาน

GPT-Realtime-2 ถูกวางตำแหน่งให้เป็นโมเดลเสียงที่ล้ำหน้าที่สุดของบริษัทในปัจจุบัน โดยมีการแนะนำ... GPT-5- การนำเหตุผลเชิงคลาสมาใช้ในการสนทนาด้วยเสียงแบบเรียลไทม์ โมเดลนี้ได้รับการออกแบบมาเพื่อจัดการกับคำขอของผู้ใช้ที่ซับซ้อน รักษาความต่อเนื่องของบริบท และสนับสนุนการให้เหตุผลหลายขั้นตอนในขณะที่โต้ตอบแบบเรียลไทม์ มีจุดประสงค์สำหรับแอปพลิเคชันที่ตัวแทนเสียงต้องไม่เพียงแต่ตอบสนองอย่างรวดเร็วเท่านั้น แต่ยังต้องตีความเจตนา จัดการกับการขัดจังหวะ และดำเนินการงานต่างๆ ผ่านการใช้เครื่องมือแบบบูรณาการด้วย

ควบคู่ไปกับมัน GPT-RealtimeTranslate ช่วยให้สามารถแปลคำพูดแบบเรียลไทม์จากภาษาอินพุตมากกว่า 70 ภาษา ไปเป็น 13 ภาษาเอาต์พุต ระบบนี้ถูกสร้างขึ้นเพื่อรักษาความต่อเนื่องของการสนทนา พร้อมทั้งรักษาความหมายและจังหวะเวลา ทำให้ผู้พูดสามารถสื่อสารในภาษาต่างๆ ได้โดยไม่เกิดความล่าช้าที่สังเกตได้ ความสามารถนี้มุ่งเป้าไปที่การสนับสนุนลูกค้าทั่วโลก การศึกษา การท่องเที่ยว และบริการสื่อสารข้ามพรมแดน

รุ่นที่สาม GPT-Realtime-Whisper เน้นการถอดเสียงพูดเป็นข้อความแบบเรียลไทม์ ให้การถอดเสียงอย่างต่อเนื่องด้วยความหน่วงต่ำขณะที่ผู้ใช้พูด ทำให้สามารถสร้างคำบรรยายแบบเรียลไทม์ เอกสารสด และประมวลผลเนื้อหาที่พูดได้ทันที โมเดลนี้ออกแบบมาสำหรับสภาพแวดล้อมที่ต้องการการแปลงเสียงพูดเป็นข้อความอย่างรวดเร็ว เช่น การประชุม การออกอากาศทางสื่อ และเวิร์กโฟลว์ขององค์กร

OpenAI มีการอธิบายว่าการเปิดตัวร่วมกันนี้เป็นก้าวสำคัญไปสู่ระบบอินเทอร์เฟซเสียงที่ก้าวข้ามระบบสั่งการและตอบสนองขั้นพื้นฐาน แทนที่จะเพียงแค่จดจำเสียงและสร้างคำตอบ โมเดลเหล่านี้ได้รับการออกแบบมาเพื่อรองรับการให้เหตุผล การแปล การถอดเสียง และการดำเนินการอย่างต่อเนื่องภายในบทสนทนาเดียว เป้าหมายคือการสร้างระบบที่ใช้เสียงให้สามารถทำงานได้เหมือนผู้ช่วยแบบโต้ตอบที่สามารถทำงานต่างๆ ได้ในขณะที่ยังคงรักษาบทสนทนาที่เป็นธรรมชาติ

GPT-Realtime-2 ยกระดับสถาปัตยกรรม AI ด้านเสียงด้วยระบบแปลงเสียงเป็นคำสั่งและหน้าต่างบริบทที่ขยายกว้างขึ้น

บริษัทได้เน้นย้ำถึงรูปแบบการออกแบบใหม่ๆ ที่เกิดขึ้นจากเทคโนโลยีนี้ ซึ่งรวมถึงระบบแปลงเสียงเป็นคำสั่ง (voice-to-action systems) ที่ผู้ใช้สามารถอธิบายงานต่างๆ ที่จะถูกดำเนินการผ่านการใช้เหตุผลอัตโนมัติและการบูรณาการเครื่องมือ ระบบแปลงเสียงเป็นคำแนะนำ (systems-to-voice applications) ที่ซอฟต์แวร์สร้างคำแนะนำด้วยเสียงโดยอิงจากข้อมูลบริบท และระบบแปลเสียงเป็นเสียง (voice-to-voice translation systems) ซึ่งช่วยให้การสื่อสารหลายภาษาแบบเรียลไทม์ระหว่างผู้พูดเป็นไปได้

GPT-Realtime-2 นำเสนอการปรับปรุงทางสถาปัตยกรรมเพิ่มเติมสำหรับการใช้งานจริง ซึ่งรวมถึงหน้าต่างบริบทที่ยาวขึ้นขยายเป็น 128 โทเค็น พฤติกรรมการกู้คืนที่ดีขึ้นระหว่างการขัดจังหวะหรือข้อผิดพลาด การทำงานของเครื่องมือแบบขนานพร้อมการตอบรับที่โปร่งใส และการปรับโทนเสียงที่ควบคุมได้มากขึ้นตามบริบทการสนทนา นักพัฒนาสามารถปรับแต่งระดับการให้เหตุผลเพื่อสร้างสมดุลระหว่างความเร็วและความซับซ้อนตามความต้องการของแอปพลิเคชันได้

เกณฑ์วัดประสิทธิภาพที่อ้างถึงโดย OpenAI ระบบแสดงให้เห็นถึงผลลัพธ์ที่ดีขึ้นในงานการให้เหตุผลโดยใช้เสียงและการปฏิบัติตามคำสั่ง เมื่อเทียบกับรุ่นก่อนหน้าของโมเดลแบบเรียลไทม์ นอกจากนี้ ระบบยังแสดงให้เห็นถึงการจัดการคำศัพท์เฉพาะทางที่ดีขึ้น และพฤติกรรมที่เสถียรยิ่งขึ้นในการสนทนาแบบหลายรอบ

เวอร์ชันนี้ยังรวมถึงกลไกด้านความปลอดภัย เช่น การตรวจสอบแบบเรียลไทม์และการจำแนกประเภทเนื้อหาภายในเซสชันที่ใช้งานอยู่ พร้อมกับการควบคุมระดับนักพัฒนาเพื่อเพิ่มความปลอดภัยยิ่งขึ้น โมเดลเหล่านี้สามารถใช้งานได้ผ่าน Realtime API และพร้อมสำหรับการใช้งานในแอปพลิเคชันระดับองค์กร ผู้บริโภค และนักพัฒนา โดยมีโครงสร้างราคาตามเมตริกการประมวลผลเสียงตามการใช้งาน

การแนะนำของ GPT-Realtime-2 และรุ่นที่เกี่ยวข้อง สะท้อนให้เห็นถึงการเปลี่ยนแปลงในวงกว้างไปสู่ระบบคอมพิวเตอร์ที่ใช้เสียง ซึ่งสามารถให้เหตุผล แปล และถอดเสียงได้แบบเรียลไทม์ โดยมีเป้าหมายเพื่อทำให้การโต้ตอบด้วยเสียงกับซอฟต์แวร์มีประสิทธิภาพ ปรับตัวได้ และมีความสามารถในการปฏิบัติงานมากขึ้น

คีย์เวิร์ด:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา

บทความอื่น ๆ
อลิสา เดวิดสัน
อลิสา เดวิดสัน

อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

Minmax กำลังสร้างเทอร์มินัลการซื้อขาย AI ระดับมืออาชีพอย่างไร ตลาดการคาดการณ์ยังคงขาดแคลนในปี 2026

Minmax ดำเนินการธุรกรรมมูลค่าประมาณ 100,000 ดอลลาร์สหรัฐในช่วงสามวันแรกของเดือนมิถุนายน โดยส่วนใหญ่เป็นการทำธุรกรรมผ่าน...

รู้เพิ่มเติม

ความสงบก่อนพายุโซลานา: แผนภูมิ วาฬ และสัญญาณบนเชนบอกอะไรเราบ้างในตอนนี้

Solana ได้แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่ง ซึ่งขับเคลื่อนโดยการเพิ่มขึ้นของการนำไปใช้ ความสนใจของสถาบัน และความร่วมมือที่สำคัญ ในขณะที่เผชิญกับศักยภาพ ...

รู้เพิ่มเติม
อ่านเพิ่มเติม
อ่านเพิ่มเติม
การถกเถียงเรื่องจุดต่ำสุดของ Bitcoin: Galaxy, NYDIG และ Standard Chartered มีความเห็นแตกต่างกัน แต่ Bitwise กล่าวว่า ศักยภาพในการพุ่งขึ้นต่างหากคือคำถามที่แท้จริง
ตลาด รายงานข่าว เทคโนโลยี
การถกเถียงเรื่องจุดต่ำสุดของ Bitcoin: Galaxy, NYDIG และ Standard Chartered มีความเห็นแตกต่างกัน แต่ Bitwise กล่าวว่า ศักยภาพในการพุ่งขึ้นต่างหากคือคำถามที่แท้จริง
มิถุนายน 16, 2026
ผู้ถือครอง Bitcoin ระยะยาวมีสัดส่วนการถือครองสูงสุดเป็นประวัติการณ์ ขณะที่ตลาดกำลังรอการตัดสินใจครั้งแรกของวอร์ชในการประชุม FOMC
ตลาด รายงานข่าว เทคโนโลยี
ผู้ถือครอง Bitcoin ระยะยาวมีสัดส่วนการถือครองสูงสุดเป็นประวัติการณ์ ขณะที่ตลาดกำลังรอการตัดสินใจครั้งแรกของวอร์ชในการประชุม FOMC
มิถุนายน 16, 2026
Inveniam เตรียมเข้าซื้อกิจการ MANTRA เพื่อขยายธุรกิจด้าน AI, RWA และโครงสร้างพื้นฐานบล็อกเชนสำหรับสถาบัน
รายงานข่าว เทคโนโลยี
Inveniam เตรียมเข้าซื้อกิจการ MANTRA เพื่อขยายธุรกิจด้าน AI, RWA และโครงสร้างพื้นฐานบล็อกเชนสำหรับสถาบัน
มิถุนายน 16, 2026
Inco Lightning เปิดตัวบน Base ขยายขอบเขตความเป็นส่วนตัวของสัญญาอัจฉริยะด้วยการคำนวณแบบเข้ารหัสและการปกป้องข้อมูล
รายงานข่าว เทคโนโลยี
Inco Lightning เปิดตัวบน Base ขยายขอบเขตความเป็นส่วนตัวของสัญญาอัจฉริยะด้วยการคำนวณแบบเข้ารหัสและการปกป้องข้อมูล
มิถุนายน 16, 2026
CRYPTOMERIA LABS PTE. บจก.