DALL-E 3 Release ขยายเสียง OpenAIอิทธิพลของการจากไป Midjourney และ Stable Diffusion หลัง
ในบทสรุป
DALL-E 3 ได้รับการตั้งค่าให้ผสานรวมได้อย่างราบรื่น GPT-4ออกแบบมาโดยเฉพาะสำหรับ ChatGPT+ สมาชิก
DALL-E 3 งดการสร้างภาพบุคคลสาธารณะขึ้นมาใหม่เมื่อมีการเอ่ยชื่ออย่างชัดเจน
ไทม์ไลน์สำหรับการเข้าถึง DALL-E 3 มีกำหนดไว้ในเดือนตุลาคม
OpenAI ได้เปิดตัวผลงานล่าสุด: DALL-E3. ต่างจากรุ่นก่อน DALL-E 3 มุ่งเน้นไปที่การปรับปรุงรายละเอียดเล็กๆ น้อยๆ โดยจัดการกับปัญหาต่างๆ เช่น ตัวอักษรและรายละเอียดของร่างกายที่ซับซ้อน เช่น นิ้วมือ ผลลัพธ์? อาร์เรย์ของรูปภาพที่สวยงามน่าพึงพอใจโดยไม่ต้องอาศัยข้อความแจ้งหรือวิธีแก้ปัญหาที่ซับซ้อน
โปรดทราบว่ารุ่นนี้ไม่มีชุดรายละเอียดการใช้งาน บทความ หรือ API ที่ครอบคลุม แต่ DALL-E 3 กลับถูกตั้งค่าให้บูรณาการเข้ากับระบบได้อย่างราบรื่น GPT-4ออกแบบมาโดยเฉพาะสำหรับ ChatGPT+ สมาชิก
การพัฒนานี้อาจไม่ใช่การเปลี่ยนแปลงครั้งใหญ่ในภูมิทัศน์ของ AI แต่เป็นก้าวไปข้างหน้าในการทำงานร่วมกันระหว่างโมเดลต่างๆ หลายคนคาดหวังว่าต่อไป Stable Diffusion แบบ จะนำเสนอความซับซ้อนและความน่าดึงดูดทางศิลปะมากยิ่งขึ้น
เพื่อนำไปใช้ในบริบท OpenAIการเดินทางของการสร้างภาพ AI ค่อนข้างจะยุ่งยาก:
- 2021: DALL-E 1 ซึ่งเป็นโมเดลพารามิเตอร์มูลค่า 12 พันล้านถูกนำมาใช้โดยมีข้อมูลที่จำกัด
- 2021: GLIDE ซึ่งเป็นโมเดลพารามิเตอร์มูลค่า 2 พันล้านได้รับการเปิดเผยพร้อมกับโมเดลพารามิเตอร์โอเพ่นซอร์สมูลค่า 300 ล้าน
- 2022: DALL-E 2 มาถึงแล้ว โดยมีพารามิเตอร์ถึง 2 พันล้านพารามิเตอร์ พร้อมด้วยกระดาษ unCLIP และ API
- 2023: DALL-E 3 เปิดตัวแล้ว และแม้ว่ารายละเอียดอาจจะค่อนข้างคลุมเครือ แต่มีสิ่งหนึ่งที่ชัดเจน—มันจะรวมเข้ากับ GPT-4 for ChatGPT+ สมาชิก
ณ ตอนนี้ ภาพของ DALL-E 3 ยังค่อนข้างหายาก ไม่มีฐานโค้ด โพสต์ในบล็อก หรือการเปรียบเทียบโดยละเอียดกับเทคโนโลยีล้ำสมัย (SOTA) OpenAI ดูเหมือนจะเก็บไพ่ไว้ใกล้หน้าอก
นาฬิการุ่นนี้ได้รับการขนานนามว่ามีความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับความแตกต่างและรายละเอียดต่างๆ เมื่อเทียบกับรุ่นก่อน ซึ่งหมายความว่าการแปลแนวคิดเชิงสร้างสรรค์ของคุณให้เป็นภาพที่มีความแม่นยำสูงนั้นคาดว่าจะเป็นกระบวนการที่ราบรื่นยิ่งขึ้น
คำมั่นสัญญาที่น่าสนใจประการหนึ่งของ DALL-E 3 คือการบูรณาการเข้ากับ ChatGPT. นี่ก็หมายความว่าผู้ใช้ไม่จำเป็นต้องต่อสู้กับการประดิษฐ์ข้อความแจ้งที่ซับซ้อน คำอธิบายสั้น ๆ ก็เพียงพอแล้วด้วย ChatGPT สร้างการแจ้งเตือนโดยละเอียดในนามของคุณอย่างเชี่ยวชาญ
OpenAI ยังเน้นย้ำถึงความสำคัญของบริบทในข้อความที่ยืดยาวอีกด้วย DALL-E 3 ได้รับการออกแบบมาเพื่อรองรับการใช้คำฟุ่มเฟือย ทำให้ปรับให้เข้ากับบริบทที่อธิบายไว้ในข้อความแจ้งที่ครอบคลุมมากขึ้น
อย่างไรก็ตาม เช่นเดียวกับโมเดล AI ใหม่อื่นๆ มีองค์ประกอบของสิ่งที่ไม่รู้อยู่ แม้ว่าการมองแวบแรกจะดูดี แต่การทดสอบสารสีน้ำเงินที่แท้จริงจะมาพร้อมกับการใช้งานที่ยาวนานขึ้น คำถามยังคงอยู่เกี่ยวกับประสิทธิภาพและความเร็วในการดำเนินการ
มีแนวโน้มว่า DALL-E 3 จะเป็นกระบวนการแพร่แบบหลายขั้นตอนด้วย GPT-4 ทำหน้าที่เป็นตัวเข้ารหัสข้อความ กลไกที่ซับซ้อนของการตั้งค่านี้อาจยังคงเป็นความลับ
ไทม์ไลน์สำหรับการเข้าถึง DALL-E 3 ถูกกำหนดไว้ในเดือนตุลาคม โดยเริ่มแรกคือ ChatGPT บวกและ ChatGPT ผู้ใช้ระดับองค์กรs โดยมีความเป็นไปได้ที่จะเข้าถึงนักวิจัยในวงกว้างมากขึ้นหลังจากนั้น
ความแตกต่าง และ เซ็นเซอร์ ของ DALL-E 3
จุดสนใจหลักของการพัฒนา DALL-E 3 คือกระบวนการที่พิถีพิถันในการลดขีดความสามารถของ DALL-E XNUMX ซึ่งเกี่ยวข้องกับการจัดแนวและตัวกรองที่เข้มงวดซึ่งออกแบบมาเพื่อยกเว้นเนื้อหาบางประเภท ตัวอย่างเช่น โมเดลปฏิเสธที่จะสร้างภาพบุคคลที่มีชื่อเสียง ทำซ้ำงานศิลปะในรูปแบบของศิลปินที่มีชื่อเสียง หรือสร้างเนื้อหาใด ๆ ที่ถือว่าไม่ปลอดภัยโดย OpenAIมาตรฐานอันชาญฉลาดของ แนวทางเชิงกลยุทธ์นี้ไม่ใช่แค่เกี่ยวกับข้อจำกัดเท่านั้น เป็นมาตรการเชิงรุกที่มีจุดมุ่งหมายเพื่อปกป้องบริษัทจากปัญหาทางกฎหมายที่อาจเกิดขึ้น
นอกเหนือจากตัวกรองและการจัดตำแหน่งเหล่านี้แล้ว ยังมีการสังเกตที่น่าสนใจบางประการอีกด้วย DALL-E 3 ดูเหมือนจะแสดงจุดอ่อนบางประการในการสร้างเนื้อหาที่สมจริงเหมือนภาพถ่าย แทนที่จะสร้างภาพที่เลียนแบบภาพถ่ายจริงได้อย่างไร้ที่ติ ผลลัพธ์ที่ได้กลับมีคุณภาพที่มีสไตล์โดดเด่น รูปภาพที่สร้างขึ้นโดย AI เหล่านี้ทำให้ดูเหมือนเกือบจะถูกเรนเดอร์และมีลักษณะเป็นพลาสติกเล็กน้อย แม้ว่าจะได้รับแจ้งอย่างชัดเจนด้วยคำว่า "ภาพถ่าย" แต่ผลลัพธ์ก็ยังคงยึดมั่นในสไตล์อันเป็นเอกลักษณ์เฉพาะตัว
เป็นที่น่าสังเกตว่า แม้จะมีลักษณะเฉพาะเหล่านี้ DALL-E 3 ก็ยังนำเสนอศักยภาพที่น่าทึ่งอีกด้วย ในบรรดาผลงานสร้างสรรค์ บางกรณีมีความคล้ายคลึงกับภาพถ่ายอย่างน่าทึ่ง โปรดทราบว่าความสมจริงจำลองของภาพเหล่านี้ไม่จำเป็นต้องสอดคล้องกับลักษณะที่ปรากฏของภาพถ่ายจริงของตัวแบบเดียวกัน โดยเฉพาะอย่างยิ่งหากอยู่ใต้น้ำ
ที่เกี่ยวข้อง: Microsoft เปิดตัว Designer ซึ่งเป็นเครื่องมือ Text-to-Image ระดับมืออาชีพตัวแรกที่ใช้ DALL-E 2 |
คุณสมบัติและรายละเอียด DALL-E 3
เราใช้เวลาสักครู่เพื่อกรองพิกเซลและอ่านระหว่างบรรทัดเพื่อทำความเข้าใจว่ารุ่นใหม่นี้นำเสนออะไรอย่างแท้จริง
ศิลปะแห่งสไตล์: มองผ่านไป. OpenAIบัญชีอินสตาแกรมของคุณจะสังเกตเห็นงานศิลปะมากมายที่โดดเด่นด้วยสไตล์อันประณีต แม้ว่าจะมีการจัดองค์ประกอบและการออกแบบเชิงนามธรรมที่น่าประทับใจมากมาย แต่แบบจำลองนี้ดูเหมือนจะหลีกเลี่ยงในการผลิตเนื้อหาที่เหมือนจริง การเน้นที่นี่คือสุนทรียศาสตร์และความคิดสร้างสรรค์ ไม่ใช่การเลียนแบบความเป็นจริง
ข้อจำกัดทางศิลปะ: DALL-E 3 มีเส้นทางที่แตกต่างจากรุ่นก่อน ปฏิเสธอย่างแน่วแน่ที่จะสร้างภาพในสไตล์ของศิลปินที่มีชีวิต ซึ่งแตกต่างอย่างสิ้นเชิงจาก DALL-E 2 ซึ่งสามารถเลียนแบบสไตล์ของศิลปินบางประเภทได้ สิ่งนี้อาจทำให้เลิกคิ้วในชุมชนสร้างสรรค์ คล้ายกับการต้อนรับที่อบอุ่นของ Stable Diffusion 2.0.
เพิ่มขีดความสามารถของศิลปิน: ในการเคารพสิทธิของศิลปิน OpenAI อนุญาตให้ศิลปินแยกงานของพวกเขาออกจากเวอร์ชัน DALL-E ในอนาคต การส่งภาพที่ตนเป็นเจ้าของสิทธิ์ ศิลปินสามารถขอแยกภาพออกจากผลงานของโมเดลได้ การทำซ้ำในอนาคตของ DALL-E จะหลีกเลี่ยงการสร้างเนื้อหาที่คล้ายกับ สไตล์ของศิลปิน.
การรักษาความปลอดภัยและการเซ็นเซอร์: OpenAIความหวาดระแวงเกี่ยวกับความปลอดภัยเป็นที่เห็นได้ชัด พวกเขาร่วมมือกับ “ทีมสีแดง” ภายนอกเพื่อทดสอบความปลอดภัยของโมเดล และใช้ตัวแยกประเภทอินพุตเพื่อสอนโมเดลให้ละเว้นคำเฉพาะที่อาจนำไปสู่เนื้อหาที่โจ่งแจ้งหรือเป็นอันตราย DALL-E 3 งดการสร้างภาพขึ้นมาใหม่ บุคคลสาธารณะ เมื่อมีการเอ่ยชื่ออย่างชัดแจ้ง การที่คนดังจัดอยู่ในหมวดหมู่นี้หรือไม่นั้นยังคงไม่แน่นอน ซึ่งอาจส่งผลกระทบต่อคุณภาพของใบหน้าที่สร้างขึ้น
ลายน้ำและการติดตาม: มีคำแนะนำในการฝังแท็กเพื่อติดตาม "รูปภาพที่สร้างโดย AI" ซึ่งบ่งชี้ถึงการก้าวไปสู่การตรวจสอบที่ดีขึ้นและเนื้อหาที่สร้างด้วยลายน้ำที่อาจเกิดขึ้น
ปรับปรุงข้อความและมือ: OpenAI โน้มน้าวการปรับปรุงการสร้างข้อความและการเรนเดอร์มือ ซึ่งเป็นข้อเรียกร้องทั่วไปในหมู่คู่แข่ง การทดสอบจริงอยู่ที่ผลลัพธ์จริงนอกเหนือจากตัวอย่างที่เลือกมา
ความเข้าใจเชิงพื้นที่: DALL-E 3 เป็นเลิศในการทำความเข้าใจความสัมพันธ์เชิงพื้นที่ที่อธิบายไว้ในข้อความแจ้ง สิ่งนี้ช่วยเพิ่มความสามารถของโมเดลในการสร้างมุมและองค์ประกอบที่ซับซ้อน แม้ว่าผู้ใช้จะรอหลักฐานที่เป็นรูปธรรมมากขึ้นเกี่ยวกับคำมั่นสัญญานี้
พลังแห่งการแจ้งเตือน: จุดสำคัญของ DALL-E3 อยู่ในความสามารถที่รวดเร็วและการบูรณาการด้วย ChatGPT. สัญญาว่าจะมีระบบอัตโนมัติ ความเร็ว และลดความซับซ้อนของการออกแบบที่รวดเร็ว แนวโน้มที่นี่ไปทาง chatGPT สร้างการแจ้งเตือนการแปลความคิดที่คลุมเครือหรือคำแนะนำเบื้องต้นให้เป็นคำพูดที่มีคารมคมคาย ความเข้าใจตามบริบทที่ได้รับการปรับปรุงของ DALL-E 3 ช่วยเพิ่มความคล่องตัวให้กับกระบวนการ ทำให้ผู้ใช้สามารถมุ่งเน้นไปที่ความตั้งใจมากกว่าการใช้คำฟุ่มเฟือย
ดินแดนที่ไม่จดที่แผนที่: สิ่งที่ขาดหายไปจากการอภิปรายคือประเด็นต่างๆ เช่น การลงสี การลงสีภายนอก การเติมแบบกำเนิด และการสร้างแบบจำลอง 3 มิติ การไม่มีคุณสมบัติเหล่านี้อาจเป็นข้อจำกัด โดยเฉพาะอย่างยิ่งสำหรับผู้ใช้ที่คุ้นเคยกับโมเดลที่หลากหลายมากขึ้น
รายละเอียดการเข้าถึง: DALL-E 3 ได้รับการตั้งค่าให้พร้อมใช้งานแล้ว ChatGPT ลูกค้า Plus และ Enterprise ในช่วงต้นเดือนตุลาคม อย่างไรก็ตาม ลักษณะเฉพาะเกี่ยวกับการจัดสรรสินเชื่อให้ ChatGPT ผู้ใช้บวกและค่าใช้จ่ายที่เกี่ยวข้องยังไม่ชัดเจน การเข้าถึงจะได้รับผ่านทาง API และ OpenAI แพลตฟอร์ม Labs “ในช่วงฤดูใบไม้ร่วง”
ความสามารถในการบูรณาการ: DALL-E ได้รับการตั้งค่าให้บูรณาการเข้ากับคู่ค้าและผลิตภัณฑ์ของ Microsoft ได้อย่างราบรื่น คาดว่าจะได้เห็นการนำเสนอ ภาพประกอบ การออกแบบ โลโก้ ทั้งหมดในบริบทและขยายความด้วยความช่วยเหลือจาก ChatGPT. การบูรณาการนี้จะกลายเป็นกระแสหลัก ก่อให้เกิดความท้าทายที่สำคัญต่อคู่แข่งเช่น Google พร้อม Bard และอุดมการณ์
การบรรจบกันของ LLM และเนื้อหาภาพ: ลักษณะที่น่าสนใจที่สุดอยู่ที่การบรรจบกันของโมเดลภาษาขนาดใหญ่ (LLM) และโมเดลการสร้างเนื้อหาภาพ มันบ่งบอกถึงการเปลี่ยนแปลงจากวิศวกรรมที่ซับซ้อนไปสู่การแสดงความคิดเห็นในภาษาที่เข้าถึงได้ง่ายขึ้น AI จะรวบรวมบริบทและแนวคิดจากการแสดงออกเหล่านี้ โดยนำเสนอความเป็นไปได้เชิงสร้างสรรค์ที่ยากจะต้านทาน
ที่เกี่ยวข้อง: ข้อความแสดงข้อความเป็นรูปภาพ 50 อันดับแรกสำหรับ AI Art Generator Midjourney และ DALL-E |
DALL-E 3: เป็นผู้นำคนใหม่ในการสร้างภาพ AI
OpenAIการตัดสินใจของการรวม DALL-E 3 เข้ากับ ChatGPT ระบบนิเวศเป็นการเคลื่อนไหวเชิงกลยุทธ์ การบูรณาการนี้ทำให้ DALL-E 3 สามารถเข้าถึงฐานข้อมูลผู้ใช้จำนวนมหาศาลที่มีผู้ใช้งานอยู่ 100 ล้านคน ขั้นตอนนี้ช่วยเพิ่มความสามารถในการเข้าถึงของ DALL-E 3 ได้อย่างมาก และมีศักยภาพที่จะกระตุ้นความนิยม
ปัจจุบัน Midjourney และ Stable Diffusion โม้ไปรอบ ๆ 15 ล้านคนที่ลงทะเบียนแล้ว. อย่างไรก็ตาม ด้วยการผสานรวมนี้ DALL-E 3 ได้รับการตั้งค่าให้สามารถเข้าถึงฐานผู้ใช้ที่ใหญ่กว่าสิบเท่า หรือผู้ใช้ 100 ล้านคน สิ่งนี้ทำให้ ChatGPT บวกกับการสมัครสมาชิก วางแผนให้น่าดึงดูดยิ่งขึ้น เนื่องจากให้การเข้าถึงแชทบอท เครื่องมือวิเคราะห์ และการสร้างภาพ ทั้งหมดนี้ในราคาที่เอื้อมถึง
การบูรณาการไม่เพียงแต่เป็นประโยชน์สำหรับผู้ใช้ปัจจุบันเท่านั้น แต่ยังทำหน้าที่เป็นแม่เหล็กดึงดูดอันทรงพลังสำหรับผู้ใช้ใหม่อีกด้วย มันขยาย OpenAI การเข้าถึงและความนิยมของระบบนิเวศ ดึงดูดบุคคลที่แสวงหาโซลูชันเนื้อหาที่สร้างโดย AI
การเคลื่อนไหวเชิงกลยุทธ์นี้พร้อมที่จะส่งเสริม OpenAIรายได้และตัวชี้วัดหลักอื่นๆ นักลงทุนของบริษัทมีแนวโน้มที่จะมองการพัฒนานี้ในแง่ดี โดยเฉพาะอย่างยิ่งในช่วงที่ผ่านมา ปริมาณจราจรลดลง 20% ในช่วงฤดูร้อน
อ่านหัวข้อที่เกี่ยวข้องเพิ่มเติม:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต