นักวิจัยค้นพบวิธีใหม่ในการตรวจจับข้อความที่สร้างโดย AI
ในบทสรุป
นักวิจัยได้พัฒนาวิธีการตรวจหาข้อความที่สร้างขึ้นโดย AI โดยใช้แบบจำลอง RoBERTa ซึ่งแยกการฝังโทเค็นข้อความและแสดงภาพเป็นจุดในพื้นที่หลายมิติ
พวกเขาค้นพบข้อความที่สร้างขึ้นโดย GPT-3.5 รุ่น เช่น ChatGPT และ Davinci มีขนาดเฉลี่ยต่ำกว่าข้อความที่มนุษย์เขียนอย่างมีนัยสำคัญ
นักวิจัยได้สร้างเครื่องตรวจจับตามมิติที่แข็งแกร่งซึ่งทนทานต่อเทคนิคการหลบเลี่ยงทั่วไป
ความแม่นยำของเครื่องตรวจจับยังคงสูงอย่างต่อเนื่องเมื่อโดเมนและรุ่นมีการเปลี่ยนแปลง โดยมีเกณฑ์คงที่และความแม่นยำลดลง 40% เมื่อทดสอบด้วยเทคนิค DIPPER
นักวิจัยได้ตรวจสอบฟิลด์ของข้อความที่สร้างขึ้นโดย AI และ พัฒนาวิธีการตรวจจับเนื้อหาที่สร้างโดย AI รุ่นเช่น GPT และ Llama. พวกเขาค้นพบข้อมูลเชิงลึกที่น่าสนใจเกี่ยวกับธรรมชาติของข้อความที่สร้างขึ้นโดยใช้แนวคิดของมิติเศษส่วน การค้นพบของพวกเขาชี้ให้เห็นถึงความแตกต่างโดยธรรมชาติระหว่างข้อความที่เขียนโดยมนุษย์และข้อความที่สร้างขึ้นโดยโมเดล AI
มิติของพอยต์คลาวด์ที่ได้มาจากข้อความภาษาธรรมชาติสามารถให้ข้อมูลที่เป็นประโยชน์เกี่ยวกับที่มาของมันได้หรือไม่ นักวิจัยใช้แบบจำลอง RoBERTa เพื่อแยกการฝังโทเค็นข้อความและแสดงภาพเป็นจุดในพื้นที่หลายมิติเพื่อตรวจสอบสิ่งนี้ พวกเขาประมาณขนาดเศษส่วนของพอยต์คลาวด์เหล่านี้โดยใช้เทคนิคที่ซับซ้อนซึ่งได้รับแรงบันดาลใจจากผลงานก่อนหน้านี้
นักวิจัยรู้สึกประหลาดใจเมื่อพบว่าข้อความดังกล่าวสร้างขึ้นโดย GPT-3.5 รุ่น เช่น ChatGPT และ Davinci มีขนาดเฉลี่ยต่ำกว่าข้อความที่มนุษย์เขียนอย่างมีนัยสำคัญ รูปแบบที่น่าสนใจนี้ยังคงมีอยู่ในโดเมนต่างๆ และแม้กระทั่งในรูปแบบอื่นๆ เช่น GPT-2 หรือใช้ OPT ที่น่าสังเกตคือ แม้ว่าจะใช้คำถอดความของ DIPPER ซึ่งได้รับการออกแบบมาโดยเฉพาะเพื่อหลีกเลี่ยงการตรวจจับ มิติข้อมูลก็เปลี่ยนไปเพียงประมาณ 3% เท่านั้น การค้นพบเหล่านี้ช่วยให้นักวิจัยสามารถสร้างเครื่องตรวจจับตามขนาดที่แข็งแกร่ง ซึ่งทนทานต่อเทคนิคการหลบหลีกทั่วไป
โดยเฉพาะอย่างยิ่ง ความแม่นยำของอุปกรณ์ตรวจจับยังคงสูงอย่างต่อเนื่องเมื่อมีการเปลี่ยนแปลงโดเมนและรุ่น ด้วยเกณฑ์คงที่ ความแม่นยำในการตรวจจับ (อัตราบวกจริง) ยังคงสูงกว่า 75% ในขณะที่อัตราผลบวกลวง (FPR) ยังคงน้อยกว่า 1% แม้ว่าระบบตรวจจับจะถูกท้าทายด้วยเทคนิค DIPPER ความแม่นยำก็ลดลงถึง 40% ซึ่งมีประสิทธิภาพดีกว่าเครื่องตรวจจับที่มีอยู่ รวมถึงระบบที่พัฒนาโดย OpenAI.
นอกจากนี้ นักวิจัยยังได้สำรวจการประยุกต์ใช้แบบจำลองหลายภาษา เช่น RoBERTa หลายภาษา สิ่งนี้ทำให้พวกเขาพัฒนาเครื่องมือตรวจจับที่คล้ายกันสำหรับภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ แม้ว่าขนาดภายในโดยเฉลี่ยของการฝังจะแตกต่างกันไปตามภาษาต่างๆ แต่ขนาดของข้อความที่สร้างขึ้นยังคงต่ำกว่าของข้อความที่เขียนโดยมนุษย์สำหรับแต่ละภาษา
อย่างไรก็ตาม เครื่องตรวจจับแสดงจุดอ่อนบางอย่าง โดยเฉพาะอย่างยิ่งเมื่อเผชิญกับอุณหภูมิการสร้างที่สูงและแบบดั้งเดิม รุ่นเครื่องกำเนิดไฟฟ้า. ที่อุณหภูมิสูงขึ้น ขนาดภายในของข้อความที่สร้างขึ้นอาจเกินขนาดข้อความที่มนุษย์เขียนขึ้น ทำให้เครื่องตรวจจับไม่มีประสิทธิภาพ โชคดีที่โมเดลเครื่องกำเนิดไฟฟ้าดังกล่าวตรวจพบได้โดยใช้วิธีอื่น นอกจากนี้ นักวิจัยยอมรับว่ายังมีที่ว่างสำหรับการสำรวจโมเดลทางเลือกสำหรับการแยกการฝังข้อความนอกเหนือจาก RoBERTa
ความแตกต่างระหว่างข้อความที่เขียนโดยมนุษย์และ AI
ในเดือนมกราคม OpenAI ประกาศ การเปิดตัวตัวแยกประเภทใหม่ที่ออกแบบมาเพื่อแยกความแตกต่างระหว่างข้อความที่เขียนโดยมนุษย์และข้อความที่สร้างขึ้นโดยระบบ AI ลักษณนามนี้มีจุดมุ่งหมายเพื่อจัดการกับความท้าทายที่เกิดจากเนื้อหาที่สร้างโดย AI ที่แพร่หลายมากขึ้น เช่น แคมเปญการให้ข้อมูลที่ผิดและความไม่ซื่อสัตย์ทางวิชาการ
แม้ว่าการตรวจจับข้อความที่เขียนโดย AI ทั้งหมดนั้นเป็นงานที่ซับซ้อน แต่ตัวแยกประเภทนี้ทำหน้าที่เป็นเครื่องมืออันทรงคุณค่าในการลดการกล่าวอ้างที่เป็นเท็จของ การประพันธ์โดยมนุษย์ในข้อความที่สร้างโดย AI. จากการประเมินที่เข้มงวดเกี่ยวกับชุดข้อความภาษาอังกฤษ นักพัฒนาพบว่าตัวแยกประเภทระบุ 26% ของข้อความที่เขียนโดย AI ได้อย่างแม่นยำว่า “น่าจะเขียนโดย AI” (ผลบวกที่แท้จริง) ในขณะที่บางครั้งติดป้ายข้อความที่เขียนโดยมนุษย์ผิดว่าสร้างขึ้นโดย AI (เท็จ บวก) 9% สิ่งสำคัญคือต้องทราบว่าความน่าเชื่อถือของตัวแยกประเภทจะดีขึ้นเมื่อความยาวของข้อความที่ป้อนเพิ่มขึ้น เมื่อเปรียบเทียบกับตัวแยกประเภทก่อนหน้านี้ เวอร์ชันใหม่นี้แสดงให้เห็นถึงความน่าเชื่อถือที่สูงขึ้นอย่างมากในข้อความที่สร้างโดยระบบ AI ล่าสุด
เพื่อรวบรวมข้อเสนอแนะที่มีค่าเกี่ยวกับประโยชน์ของเครื่องมือที่ไม่สมบูรณ์แบบเช่นตัวแยกประเภทนี้ นักพัฒนาได้จัดทำขึ้น ที่เปิดเผยต่อสาธารณชน. คุณสามารถลองใช้ตัวแยกประเภทที่กำลังดำเนินการของเราได้ฟรี อย่างไรก็ตาม สิ่งสำคัญคือต้องเข้าใจข้อจำกัดของมัน ควรใช้ตัวแยกประเภทเป็นเครื่องมือเสริม แทนที่จะเป็นแหล่งข้อมูลหลักในการตัดสินใจ เพื่อระบุแหล่งที่มาของข้อความ มันแสดงถึงความไม่น่าเชื่อถือสูงในข้อความสั้น และมีกรณีที่ข้อความที่มนุษย์เขียนอาจถูกระบุอย่างไม่ถูกต้องว่าสร้างขึ้นโดย AI
เป็นที่น่าสังเกตว่าข้อความที่สามารถคาดเดาได้สูงนั้นไม่สามารถระบุได้อย่างสม่ำเสมอ เช่น รายการของจำนวนเฉพาะ 1,000 รายการแรก การแก้ไขข้อความที่สร้างโดย AI ยังสามารถช่วยหลบเลี่ยงตัวแยกประเภท และในขณะที่เราสามารถอัปเดตและฝึกตัวแยกประเภทใหม่ตามการโจมตีที่ประสบความสำเร็จ ข้อได้เปรียบในระยะยาวของการตรวจจับยังคงไม่แน่นอน นอกจากนี้ ตัวแยกประเภทตาม เครือข่ายประสาทเทียม มักจะได้รับการปรับเทียบคุณภาพต่ำนอกข้อมูลการฝึก ซึ่งนำไปสู่ความมั่นใจอย่างมากในการคาดคะเนที่ไม่ถูกต้องสำหรับอินพุตที่แตกต่างจากชุดการฝึกอย่างมาก
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต