รายงานข่าว เทคโนโลยี
March 15, 2023

GPT-4 สามารถจัดการคำขอรูปภาพ เอกสาร ไดอะแกรม และภาพหน้าจอของคุณได้

ในบทสรุป

GPT-4 สามารถจัดการคำขอรูปภาพ เอกสาร ไดอะแกรม และภาพหน้าจอได้ มันเป็นการปรับปรุงมากกว่า GPT-3ซึ่งจัดการเฉพาะข้อความเท่านั้น

GPT-4 มีประสิทธิภาพเหนือกว่าในการสอบและการทดสอบต่างๆ และสามารถเข้าถึงข้อมูลและรายละเอียดเพิ่มเติมผ่านรูปภาพที่อาจไม่มีรูปแบบเป็นลายลักษณ์อักษร

gpt-4 ภาพหน้าจอเอกสารรูปภาพ

OpenAIก้าวล่าสุดของโมเดลใหม่ GPT-4สามารถยอมรับคำขอที่มีรูปภาพ เอกสารที่มีข้อความ ไดอะแกรม หรือภาพหน้าจอเป็นอินพุตได้ นี่แสดงถึงการปรับปรุงที่สำคัญกว่าเวอร์ชันก่อนหน้า GPT-3ซึ่งสามารถเข้าใจและส่งออกข้อความได้เท่านั้น ด้วยฟีเจอร์ใหม่นี้ GPT-4 สร้างเอาต์พุตข้อความที่กำหนดอินพุตซึ่งประกอบด้วยข้อความและรูปภาพที่กระจายอยู่

“ในหลากหลายโดเมน—รวมถึงเอกสารที่มีข้อความและรูปถ่าย ไดอะแกรม หรือภาพหน้าจอ—GPT-4 แสดงความสามารถที่คล้ายคลึงกันกับอินพุตแบบข้อความเท่านั้น”

OpenAI เขียน

ChatGPT-4 มีขนาดที่ใหญ่กว่ารุ่นก่อน บ่งชี้ว่าได้ผ่านการฝึกอบรมเกี่ยวกับข้อมูลจำนวนมากขึ้น และมีน้ำหนักในไฟล์โมเดลมากกว่า ส่งผลให้ต้นทุนการดำเนินงานสูงขึ้น ภาษา AI ใหม่ล่าสุดสามารถสร้างข้อความที่เหมือนมนุษย์ได้โดยใช้ การเรียนรู้ลึก ๆ และได้รับการฝึกอบรมล่วงหน้าในชุดข้อมูลขนาดใหญ่

GPT-4 มี แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าภาษา AI อื่นๆ ในการสอบและแบบทดสอบต่างๆ เนื่องจากส่วนหนึ่งของความสามารถในการเข้าถึงข้อมูลและรายละเอียดเพิ่มเติมผ่านภาพที่อาจไม่มีอยู่ในรูปแบบที่เป็นลายลักษณ์อักษร

ใหม่ GPT-4 โมเดลสามารถบอกคุณได้ว่าอะไรคือสิ่งที่ปรากฎในภาพประกอบ วิเคราะห์ และแม้แต่อธิบายความหมายของมัน ในการสาธิต GPT-4 อธิบายเรื่องตลกเกี่ยวกับภาพที่เชื่อมต่อสาย VGA เข้ากับ iPhone นอกจากนี้ยังสามารถอธิบายสิ่งผิดปกติในภาพที่นำเสนอ "การรีดผ้าขั้นรุนแรง" ซึ่งคุณสามารถดูได้ด้านล่าง

gpt-4 ภาพ
ที่มา: OpenAI

อย่างไรก็ตาม ยังมีผลที่เป็นประโยชน์มากกว่าอีกด้วย GPT-4ความรู้ที่เพิ่งค้นพบ ในการนำเสนอแสดงให้เห็นว่า PGT-4 สามารถบอกได้ว่าส่วนผสมที่แสดงในภาพสามารถปรุงอะไรได้บ้าง ซึ่งหมายความว่าแบบจำลองนี้สามารถช่วยคุณทำอาหารได้หากคุณมีผลิตภัณฑ์อาหารและไม่รู้ว่าจะทำอย่างไรกับผลิตภัณฑ์เหล่านั้น ถ่ายภาพอาหารที่คุณมีและ Chat-GPT สามารถบอกคุณได้ว่าคุณสามารถเตรียมอะไรได้บ้างจากวัตถุดิบที่คุณมีอยู่ที่บ้าน

ความสามารถในการทำความเข้าใจและตีความข้อมูลภาพนี้ทำให้ GPT-4 เครื่องมืออันทรงพลังสำหรับงานต่างๆ เช่น คำบรรยายภาพ การตอบคำถามด้วยภาพ และแม้แต่การสร้างเนื้อหา ด้วยการบูรณาการทั้งความเข้าใจข้อความและภาพ GPT-4 มีศักยภาพในการปฏิวัติอุตสาหกรรมต่างๆ เช่น การโฆษณา การออกแบบ และอีคอมเมิร์ซ และช่วยให้ผู้คนทำงานที่น่าเบื่อและธรรมดาให้พวกเขาได้

ขั้นสูง แบบจำลองภาษา ยัง 'เข้าใจ' ภาพหน้าจอและเอกสารที่มีข้อความ ตาราง ไดอะแกรม หรือการแสดงภาพอื่น ๆ ตัวอย่างเช่น หากคุณอัปโหลดรายงานการวิจัยสามหน้าและต้องการสรุปและอธิบาย GPT-4 สามารถทำเช่นนั้นได้ 

Jon Erlichman ผู้ประกาศข่าวของ Bloomberg แสดงให้เห็นว่าเขาสามารถเปลี่ยนการออกแบบที่ร่างด้วยมือให้กลายเป็นเว็บไซต์ที่ใช้งานได้ได้อย่างไร

เทคโนโลยีใหม่นี้ยังสามารถใช้เป็นอุปกรณ์ช่วยในการเคลื่อนที่ เนื่องจากสามารถใช้เพื่ออธิบายสภาพแวดล้อมสำหรับผู้มีความบกพร่องทางการมองเห็น ด้วยเหตุนี้ Open AI จึงร่วมมือกับแอปพลิเคชันที่เรียกว่า เป็นตาของฉัน ซึ่งออกแบบมาเพื่อช่วยคนตาบอดเมื่อพวกเขาต้องการดูบางอย่าง เช่น ในขณะที่ซื้อของชำ แอปนี้ช่วยให้ “อาสาสมัครและมืออาชีพที่มีสายตาสั้นสามารถแก้ปัญหางานเล็กและใหญ่เพื่อช่วยคนตาบอดและสายตาเลือนรางให้มีชีวิตที่เป็นอิสระมากขึ้น” ตอนนี้ยังมีเครื่องมืออาสาสมัครเสมือนจริงที่ขับเคลื่อนโดย OpenAI's GPT-4.

แม้ว่า OpenAI's GPT-4 ขณะนี้มีความสามารถในการประมวลผลข้อความและรูปภาพเป็นอินพุต แต่โมเดลยังไม่พร้อมที่จะรองรับอินพุตเสียงและวิดีโอ อย่างไรก็ตาม มีข้อบ่งชี้ว่ารูปแบบเหล่านี้อาจรวมอยู่ในเทคโนโลยีครั้งถัดไป

อ่านเพิ่มเติม:

คีย์เวิร์ด:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Agne เป็นนักข่าวที่รายงานข่าวเกี่ยวกับแนวโน้มล่าสุดและการพัฒนาใน metaverse, AI และ Web3 อุตสาหกรรมสำหรับ Metaverse Post. ความหลงใหลในการเล่าเรื่องของเธอทำให้เธอต้องสัมภาษณ์ผู้เชี่ยวชาญในสาขาเหล่านี้หลายครั้ง โดยพยายามค้นหาเรื่องราวที่น่าตื่นเต้นและมีส่วนร่วมอยู่เสมอ แอกเน่สำเร็จการศึกษาระดับปริญญาตรีสาขาวรรณคดีและมีพื้นฐานกว้างขวางในการเขียนเกี่ยวกับหัวข้อต่างๆ มากมาย รวมถึงการท่องเที่ยว ศิลปะ และวัฒนธรรม เธอยังได้อาสาเป็นบรรณาธิการให้กับองค์กรสิทธิสัตว์ ซึ่งเธอช่วยสร้างความตระหนักรู้เกี่ยวกับปัญหาสวัสดิภาพสัตว์ ติดต่อเธอได้ที่ [ป้องกันอีเมล].

บทความอื่น ๆ
แอกเน่ ซิเมอร์แมน
แอกเน่ ซิเมอร์แมน

Agne เป็นนักข่าวที่รายงานข่าวเกี่ยวกับแนวโน้มล่าสุดและการพัฒนาใน metaverse, AI และ Web3 อุตสาหกรรมสำหรับ Metaverse Post. ความหลงใหลในการเล่าเรื่องของเธอทำให้เธอต้องสัมภาษณ์ผู้เชี่ยวชาญในสาขาเหล่านี้หลายครั้ง โดยพยายามค้นหาเรื่องราวที่น่าตื่นเต้นและมีส่วนร่วมอยู่เสมอ แอกเน่สำเร็จการศึกษาระดับปริญญาตรีสาขาวรรณคดีและมีพื้นฐานกว้างขวางในการเขียนเกี่ยวกับหัวข้อต่างๆ มากมาย รวมถึงการท่องเที่ยว ศิลปะ และวัฒนธรรม เธอยังได้อาสาเป็นบรรณาธิการให้กับองค์กรสิทธิสัตว์ ซึ่งเธอช่วยสร้างความตระหนักรู้เกี่ยวกับปัญหาสวัสดิภาพสัตว์ ติดต่อเธอได้ที่ [ป้องกันอีเมล].

Hot Stories

BRICS Nations Eye โซลูชันการค้า Stablecoin

by วิคทอเรีย ปาลชิค
May 01, 2024
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม

ผู้ก่อตั้ง Samourai Wallet ถูกกล่าวหาว่าอำนวยความสะดวกมูลค่า 2 พันล้านดอลลาร์ในข้อเสนอ Darknet

การจับกุมผู้ก่อตั้ง Samourai Wallet แสดงให้เห็นถึงความพ่ายแพ้ที่โดดเด่นของอุตสาหกรรม โดยเน้นย้ำถึงความต่อเนื่อง ...

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Ankr ร่วมมือกับแพลตฟอร์ม Talus Network ของ AI Blockchain เพื่อปลดล็อกสภาพคล่องของ Bitcoin สำหรับ AI
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Ankr ร่วมมือกับแพลตฟอร์ม Talus Network ของ AI Blockchain เพื่อปลดล็อกสภาพคล่องของ Bitcoin สำหรับ AI
May 1, 2024
Binance Labs สนับสนุน Movement Labs เพื่ออำนวยความสะดวกในการบูรณาการการเคลื่อนไหวของ Facebook ข้ามบล็อกเชน
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Binance Labs สนับสนุน Movement Labs เพื่ออำนวยความสะดวกในการบูรณาการการเคลื่อนไหวของ Facebook ข้ามบล็อกเชน
May 1, 2024
BRICS Nations Eye โซลูชันการค้า Stablecoin
บัญชีธุรกิจ ตลาด เรื่องราวและบทวิจารณ์ เทคโนโลยี
BRICS Nations Eye โซลูชันการค้า Stablecoin
May 1, 2024
BOB เครือข่าย Bitcoin L2 ผสานรวมกับ LayerZero เพื่อการทำงานที่ได้รับการปรับปรุง
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
BOB เครือข่าย Bitcoin L2 ผสานรวมกับ LayerZero เพื่อการทำงานที่ได้รับการปรับปรุง
May 1, 2024
CRYPTOMERIA LABS PTE. บจก.