ERNIE-ViLG 2.0: โมเดลข้อความเป็นรูปภาพใหม่จาก Baidu มีประสิทธิภาพเหนือกว่า Dalle-2 และ Stable Diffusion
ในบทสรุป
ทั้งดัลล์-2และ Stable Diffusion มีประสิทธิภาพดีกว่า ERNIE-ViLG 2.0 อย่างมีนัยสำคัญ
เออร์นี่-ViLG 2.0 เป็นโมเดลแปลงข้อความเป็นรูปภาพที่มีประสิทธิภาพดีกว่า Dalle-2 และ Stable Diffusionซึ่งเป็นรูปแบบข้อความเป็นรูปภาพที่ได้รับความนิยมมากที่สุดสองรูปแบบในปัจจุบัน โมเดลใหม่ได้รับการออกแบบและฝึกฝนโดยทีมนักวิจัยจาก Baidu และผลลัพธ์ที่ได้ก็น่าทึ่ง
ผลลัพธ์แสดงให้เห็นว่า ERNIE-ViLG 2.0 มีประสิทธิภาพเหนือกว่า Dalle-2 และ Stable Diffusion. นี่เป็นความสำเร็จครั้งสำคัญและแสดงให้เห็นถึงพลังของกรอบการทำงานของ ENNIE ที่ Metaverse Post ทีมงานเปรียบเทียบ ERNIE-ViLG 2.0 กับ Stable Diffusion ด้านล่าง:
ผลลัพธ์เหล่านี้ให้การสนับสนุนอย่างมากสำหรับสมมติฐานที่ว่า ERNIE-ViLG 2.0 มีประสิทธิภาพมากกว่า ระบบแปลงข้อความเป็นรูปภาพมากกว่าทั้ง Dalle-2 และ Stable Diffusion.
สถาปัตยกรรม Unet จาก Stable Diffusion ถือเป็นพื้นฐาน แต่มีการเปลี่ยนแปลง:
- ส่วนผสมของผู้เชี่ยวชาญด้านการขจัดนอยส์: มีโครงข่ายประสาทเทียม 10 แห่งแทนที่จะเป็นเพียงแห่งเดียว โดยแต่ละแห่งมีหน้าที่รับผิดชอบเฉพาะขั้นตอนการแพร่ที่แน่นอนเท่านั้น
- ความรู้ทางข้อความ: ปรับน้ำหนักคำในข้อความค้นหาใหม่โดยอัตโนมัติเพื่อให้คำหลักมีน้ำหนักมากขึ้น
- ความรู้ด้านภาพ: ระหว่างการฝึก วัตถุถูกตรวจพบในผลลัพธ์การสร้างระดับกลาง และน้ำหนักของฟังก์ชันการสูญเสียในบริเวณที่มีวัตถุเพิ่มขึ้น
เป็นผลให้ใหญ่ที่สุดในโลก โมเดลข้อความเป็นรูปภาพ ออกมาพร้อมกับพารามิเตอร์ 24 พันล้านตัว (มากกว่า SD ถึง 10 เท่า) เพื่อฝึกโมเดล
ข้อความแจ้งจะถูกแปลจากภาษาจีนเป็นภาษาอังกฤษโดยอัตโนมัติใน กอดใบหน้า การสาธิตสาธารณะก่อนที่จะส่งไปยัง AI คุณสมบัติมากมายมาจากสิ่งนี้
- ERNIE ไม่รู้จักบุคคลสาธารณะระหว่างประเทศ ตัวอย่างเช่น ERNIE ไม่รู้จัก Arnold Schwarzenegger แน่นอนว่ามีรายการโปรดของท้องถิ่นในประเทศจีน
- ด้วยเหตุนี้วิธีการใช้ชื่อคนดังจึงช่วยเพิ่มคุณภาพได้อย่างมาก ใบหน้า ล้มเหลว
- คุณสามารถคาดหวังได้ว่าผิดเพี้ยนไปบ้างเนื่องจากการแปลจากภาษาจีน ดังนั้นอาจมีเซอร์ไพรส์รอคุณอยู่หากคุณไม่พูดภาษาจีน
- มันไม่รู้อะไรเลยเกี่ยวกับ Greg Rutkowski
อ่านบทความที่เกี่ยวข้อง:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต