โมเดลหม้อแปลง 30 อันดับแรกใน AI: คืออะไรและทำงานอย่างไร
ในช่วงหลายเดือนที่ผ่านมา โมเดล Transformer จำนวนมากได้ถือกำเนิดขึ้นใน AI ซึ่งแต่ละโมเดลก็มีชื่อที่ไม่เหมือนใครและบางครั้งก็น่าขบขัน อย่างไรก็ตาม ชื่อเหล่านี้อาจไม่ได้ให้ข้อมูลเชิงลึกมากนักว่าโมเดลเหล่านี้ทำอะไรได้บ้าง บทความนี้มีวัตถุประสงค์เพื่อนำเสนอรายการ Transformer ยอดนิยมที่ครอบคลุมและตรงไปตรงมา โดยจะจัดประเภทโมเดลเหล่านี้ และยังแนะนำประเด็นสำคัญและนวัตกรรมภายในตระกูล Transformer รายการด้านบนจะครอบคลุม โมเดลที่ได้รับการฝึกฝน ผ่านการเรียนรู้ด้วยตนเอง เช่น BERT หรือ GPT-3รวมถึงโมเดลที่ได้รับการฝึกอบรมเพิ่มเติมโดยมีส่วนร่วมของมนุษย์ เช่น InstructGPT รุ่นที่ใช้โดย ChatGPT.
Pro Tips |
---|
คู่มือนี้ ได้รับการออกแบบมาเพื่อให้ความรู้ที่ครอบคลุมและทักษะเชิงปฏิบัติในด้านวิศวกรรมที่รวดเร็วสำหรับผู้เริ่มต้นจนถึงผู้เรียนขั้นสูง |
มีหลายหลักสูตร มีให้สำหรับผู้ที่ต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ AI และเทคโนโลยีที่เกี่ยวข้อง |
ลองดูที่ ตัวเร่งความเร็ว AI มากกว่า 10 ตัว ที่คาดว่าจะนำตลาดในแง่ของประสิทธิภาพ |
- Transformers ใน AI คืออะไร?
- ตัวเข้ารหัสและตัวถอดรหัสใน AI คืออะไร
- Attention Layers ใน AI คืออะไร?
- โมเดลที่ปรับแต่งอย่างละเอียดใน AI คืออะไร
- ทำไม Transformers ถึงเป็นอนาคตของ AI
- 3 ประเภทของสถาปัตยกรรมก่อนการฝึกอบรม
- 8 ประเภทของงานสำหรับโมเดลที่ผ่านการฝึกอบรมล่วงหน้า
- Transformers 30+ อันดับแรกใน AI
- คำถามที่พบบ่อย
Transformers ใน AI คืออะไร?
Transformers เป็นรูปแบบการเรียนรู้เชิงลึกประเภทหนึ่งที่ได้รับการแนะนำในเอกสารการวิจัยที่ชื่อว่า “ความสนใจคือสิ่งที่คุณต้องการ” โดยนักวิจัยของ Google ในปี 2017 บทความนี้ได้รับการยอมรับอย่างล้นหลาม โดยมีการอ้างอิงมากกว่า 38,000 ครั้งในเวลาเพียงห้าปี
สถาปัตยกรรม Transformer ดั้งเดิมเป็นรูปแบบเฉพาะของโมเดลตัวเข้ารหัส-ตัวถอดรหัสที่ได้รับความนิยมก่อนที่จะเปิดตัว โมเดลเหล่านี้อาศัยเป็นหลัก แอลเอสทีเอ็ม และรูปแบบอื่นๆ ของ Recurrent Neural Networks (RNN) โดยให้ความสนใจเป็นเพียงหนึ่งในกลไกที่ใช้ อย่างไรก็ตาม กระดาษ Transformer ได้เสนอแนวคิดปฏิวัติที่ว่าความสนใจสามารถใช้เป็นกลไกเดียวในการสร้างการพึ่งพาระหว่างอินพุตและเอาต์พุต
ในบริบทของ Transformers อินพุตประกอบด้วยลำดับของโทเค็น ซึ่งอาจเป็นคำหรือคำย่อยในการประมวลผลภาษาธรรมชาติ (NLP). คำย่อยมักใช้ในแบบจำลอง NLP เพื่อแก้ไขปัญหาของคำที่ไม่อยู่ในคำศัพท์ เอาต์พุตของตัวเข้ารหัสสร้างการแสดงมิติคงที่สำหรับแต่ละโทเค็น พร้อมกับการฝังแยกต่างหากสำหรับลำดับทั้งหมด ตัวถอดรหัสใช้เอาต์พุตของตัวเข้ารหัสและสร้างลำดับของโทเค็นเป็นเอาต์พุต
ตั้งแต่การตีพิมพ์กระดาษ Transformer โมเดลยอดนิยมเช่น BERT และ GPT ได้นำลักษณะต่างๆ ของสถาปัตยกรรมดั้งเดิมมาใช้ ไม่ว่าจะใช้ตัวเข้ารหัสหรือส่วนประกอบตัวถอดรหัส ความคล้ายคลึงกันที่สำคัญระหว่างแบบจำลองเหล่านี้อยู่ที่สถาปัตยกรรมเลเยอร์ ซึ่งประกอบด้วยกลไกการเอาใจใส่ตนเองและเลเยอร์การป้อนไปข้างหน้า ใน Transformers โทเค็นอินพุตแต่ละตัวจะเดินทางผ่านเส้นทางของตัวเองผ่านเลเยอร์ต่างๆ ในขณะที่ยังคงรักษาการขึ้นต่อกันโดยตรงกับโทเค็นอื่นๆ ในลำดับอินพุต คุณลักษณะเฉพาะนี้ช่วยให้สามารถคำนวณการแสดงโทเค็นตามบริบทแบบขนานและมีประสิทธิภาพ ซึ่งเป็นความสามารถที่ไม่สามารถทำได้กับโมเดลตามลำดับเช่น RNN
แม้ว่าบทความนี้จะเป็นเพียงการขีดข่วนพื้นผิวของสถาปัตยกรรม Transformer เท่านั้น แต่ก็ให้ข้อมูลคร่าวๆ เกี่ยวกับแง่มุมพื้นฐาน เพื่อความเข้าใจที่ครอบคลุมยิ่งขึ้น เราขอแนะนำให้อ้างอิงเอกสารการวิจัยต้นฉบับหรือโพสต์ The Illustrated Transformer
ตัวเข้ารหัสและตัวถอดรหัสใน AI คืออะไร
ลองนึกภาพว่าคุณมีสองรุ่น ตัวเข้ารหัสและตัวถอดรหัส ทำงานร่วมกัน เหมือนทีม ตัวเข้ารหัสรับอินพุตและเปลี่ยนให้เป็นเวกเตอร์ที่มีความยาวคงที่ จากนั้นตัวถอดรหัสจะใช้เวกเตอร์นั้นและแปลงเป็นลำดับเอาต์พุต โมเดลเหล่านี้ได้รับการฝึกฝนร่วมกันเพื่อให้แน่ใจว่าเอาต์พุตตรงกับอินพุตมากที่สุด
ทั้งตัวเข้ารหัสและตัวถอดรหัสมีหลายเลเยอร์ แต่ละเลเยอร์ในเอ็นโค้ดเดอร์มีสองเลเยอร์ย่อย: เลเยอร์ความสนใจในตัวเองแบบหลายหัวและเครือข่ายฟีดฟอร์เวิร์ดอย่างง่าย เลเยอร์การเอาใจใส่ตนเองช่วยให้แต่ละโทเค็นในอินพุตเข้าใจความสัมพันธ์กับโทเค็นอื่นๆ ทั้งหมด เลเยอร์ย่อยเหล่านี้ยังมีการเชื่อมต่อที่เหลือและการทำให้เป็นมาตรฐานของเลเยอร์เพื่อทำให้กระบวนการเรียนรู้ราบรื่นขึ้น
หลายหัวของตัวถอดรหัส ชั้นความสนใจในตนเอง ทำงานแตกต่างจากตัวเข้ารหัสเล็กน้อย มันปิดบังโทเค็นทางด้านขวาของโทเค็นที่โฟกัสอยู่ สิ่งนี้ทำให้มั่นใจได้ว่าตัวถอดรหัสจะดูเฉพาะโทเค็นที่มาก่อนโทเค็นที่พยายามทำนายเท่านั้น ความสนใจหลายหัวที่สวมหน้ากากนี้ช่วยให้ตัวถอดรหัสสร้างการคาดการณ์ที่แม่นยำ นอกจากนี้ ตัวถอดรหัสยังมีชั้นย่อยอีกชั้นหนึ่ง ซึ่งเป็นชั้นความสนใจแบบหลายหัวเหนือเอาต์พุตทั้งหมดจากตัวเข้ารหัส
โปรดทราบว่ารายละเอียดเฉพาะเหล่านี้ได้รับการแก้ไขในรูปแบบต่างๆ ของรุ่น Transformer โมเดลอย่าง BERT และ GPTตัวอย่างเช่น อิงตามลักษณะตัวเข้ารหัสหรือตัวถอดรหัสของสถาปัตยกรรมดั้งเดิม
Attention Layers ใน AI คืออะไร?
ในสถาปัตยกรรมแบบจำลองที่เราพูดถึงก่อนหน้านี้ เลเยอร์ความสนใจแบบหลายหัวเป็นองค์ประกอบพิเศษที่ทำให้มีประสิทธิภาพ แต่ความสนใจคืออะไรกันแน่? คิดว่าเป็นฟังก์ชันที่จับคู่คำถามกับชุดข้อมูลและให้ผลลัพธ์ โทเค็นแต่ละรายการในอินพุตมีคิวรี คีย์ และค่าที่เกี่ยวข้อง การแทนเอาต์พุตของโทเค็นแต่ละรายการจะคำนวณโดยการหาผลรวมถ่วงน้ำหนักของค่า โดยที่น้ำหนักสำหรับแต่ละค่าจะพิจารณาจากความพอดีของค่าที่ตรงกับข้อความค้นหา
Transformers ใช้ฟังก์ชันความเข้ากันได้ที่เรียกว่า Scaled Dot Product เพื่อคำนวณน้ำหนักเหล่านี้ สิ่งที่น่าสนใจเกี่ยวกับความสนใจใน Transformers คือแต่ละโทเค็นต้องผ่านเส้นทางการคำนวณของตัวเอง ทำให้สามารถคำนวณโทเค็นทั้งหมดในลำดับอินพุตแบบขนานได้ เป็นเพียงบล็อกความสนใจหลายรายการที่คำนวณการแทนค่าสำหรับแต่ละโทเค็นโดยอิสระ การเป็นตัวแทนเหล่านี้จะถูกรวมเข้าด้วยกันเพื่อสร้างการเป็นตัวแทนขั้นสุดท้ายของโทเค็น
เมื่อเทียบกับเครือข่ายประเภทอื่น เช่น เครือข่ายที่เกิดซ้ำและ เครือข่ายโค้งชั้นความสนใจมีข้อดีบางประการ มีประสิทธิภาพในการคำนวณ ซึ่งหมายความว่าสามารถประมวลผลข้อมูลได้อย่างรวดเร็ว พวกเขายังมีการเชื่อมต่อที่สูงขึ้นซึ่งเป็นประโยชน์สำหรับการบันทึกความสัมพันธ์ระยะยาวในลำดับ
โมเดลที่ปรับแต่งอย่างละเอียดใน AI คืออะไร
โมเดลรองพื้น เป็นโมเดลที่มีประสิทธิภาพซึ่งได้รับการฝึกฝนจากข้อมูลทั่วไปจำนวนมาก จากนั้นสามารถนำไปปรับใช้หรือปรับแต่งให้เหมาะกับงานเฉพาะเจาะจงได้โดยการฝึกอบรมในชุดที่เล็กกว่า ข้อมูลเฉพาะเป้าหมาย. วิธีการนี้เป็นที่นิยมโดย กระดาษ BERTได้นำไปสู่การครอบงำของโมเดลที่ใช้ Transformer ในงานแมชชีนเลิร์นนิงที่เกี่ยวข้องกับภาษา
ในกรณีของโมเดลเช่น BERT พวกเขาสร้างการแทนโทเค็นอินพุต แต่ไม่ได้ทำงานเฉพาะให้สำเร็จด้วยตัวมันเอง เพื่อให้เป็นประโยชน์เพิ่มเติม ชั้นประสาท ถูกเพิ่มไว้ด้านบนและโมเดลได้รับการฝึกฝนแบบ end-to-end ซึ่งเป็นกระบวนการที่เรียกว่าการปรับแต่งอย่างละเอียด อย่างไรก็ตามด้วย รุ่นกำเนิด กดไลก์ GPTแนวทางจะแตกต่างออกไปเล็กน้อย GPT เป็นรูปแบบภาษาถอดรหัสที่ได้รับการฝึกให้คาดเดาคำถัดไปในประโยค ด้วยการฝึกอบรมเกี่ยวกับข้อมูลเว็บจำนวนมหาศาล GPT สามารถสร้างผลลัพธ์ที่เหมาะสมตามคำสั่งอินพุตหรือพร้อมท์
ที่จะทำให้ GPT มีประโยชน์มากขึ้น OpenAI นักวิจัยพัฒนาขึ้น คำแนะนำGPTซึ่งได้รับการฝึกฝนให้ปฏิบัติตามคำสั่งของมนุษย์ สามารถทำได้โดยการปรับแต่งอย่างละเอียด GPT โดยใช้ข้อมูลที่มนุษย์ระบุจากงานต่างๆ สั่งสอนGPT สามารถปฏิบัติงานได้หลากหลายและถูกใช้โดยเครื่องมือยอดนิยมเช่น ChatGPT.
นอกจากนี้ยังสามารถใช้การปรับแต่งแบบละเอียดเพื่อสร้างรูปแบบต่างๆ ของรุ่นรองพื้นที่ปรับให้เหมาะสมสำหรับ วัตถุประสงค์เฉพาะ นอกเหนือจากการสร้างแบบจำลองทางภาษา ตัวอย่างเช่น มีโมเดลที่ปรับแต่งสำหรับงานที่เกี่ยวข้องกับความหมาย เช่น การจัดหมวดหมู่ข้อความและการดึงข้อมูลการค้นหา นอกจากนี้ ทรานสฟอร์เมอร์เอนโค้ดเดอร์ยังได้รับการปรับแต่งอย่างละเอียดภายในมัลติทาสก์ได้สำเร็จ กรอบการเรียนรู้ เพื่อทำงานเชิงความหมายหลายอย่างโดยใช้แบบจำลองที่ใช้ร่วมกันเดียว
ทุกวันนี้ การปรับละเอียดถูกใช้เพื่อสร้างรุ่นของรุ่นรองพื้นที่ผู้ใช้จำนวนมากสามารถใช้ได้ กระบวนการนี้เกี่ยวข้องกับการสร้างการตอบสนองต่ออินพุต แจ้งและให้มนุษย์จัดอันดับผลลัพธ์. การจัดอันดับนี้ใช้ในการฝึกก แบบรางวัลซึ่งกำหนดคะแนนให้กับแต่ละเอาต์พุต เสริมการเรียนรู้ด้วยความคิดเห็นของมนุษย์ จากนั้นจึงนำไปฝึกโมเดลต่อไป
ทำไม Transformers ถึงเป็นอนาคตของ AI
ทรานส์ฟอร์เมอร์สซึ่งเป็นโมเดลที่ทรงพลังประเภทหนึ่ง ได้รับการสาธิตครั้งแรกในด้านการแปลภาษา อย่างไรก็ตาม นักวิจัยตระหนักได้อย่างรวดเร็วว่า Transformers สามารถใช้กับงานที่เกี่ยวข้องกับภาษาต่างๆ ได้ โดยฝึกให้พวกเขาใช้ข้อความที่ไม่มีป้ายกำกับจำนวนมาก จากนั้นจึงปรับแต่งให้เหมาะกับชุดข้อมูลที่มีป้ายกำกับที่มีขนาดเล็กลง วิธีการนี้ทำให้ Transformers สามารถรวบรวมความรู้ที่สำคัญเกี่ยวกับภาษาได้
สถาปัตยกรรม Transformer ซึ่งแต่เดิมออกแบบมาสำหรับงานด้านภาษา ยังถูกนำไปใช้กับแอปพลิเคชันอื่นๆ เช่น สร้างภาพเสียง เพลง และแม้กระทั่งการกระทำ สิ่งนี้ทำให้ Transformers เป็นองค์ประกอบหลักในด้าน Generative AI ซึ่งเปลี่ยนแปลงด้านต่างๆ ของสังคม
ความพร้อมใช้งานของเครื่องมือและเฟรมเวิร์กเช่น ไพทอร์ช และ TensorFlow มีบทบาทสำคัญในการยอมรับโมเดล Transformer อย่างแพร่หลาย บริษัทอย่าง Huggingface ได้สร้างพวกเขาขึ้นมา ธุรกิจรอบความคิด ของไลบรารี่ Transformer แบบโอเพ่นซอร์สในเชิงพาณิชย์ และฮาร์ดแวร์พิเศษ เช่น Hopper Tensor Cores ของ NVIDIA ได้เร่งความเร็วการฝึกอบรมและการอนุมานของโมเดลเหล่านี้ให้เร็วขึ้นไปอีก
แอปพลิเคชั่นที่โดดเด่นอย่างหนึ่งของ Transformers คือ ChatGPT, แชทบอทที่เผยแพร่โดย OpenAI. กลายเป็นที่นิยมอย่างเหลือเชื่อ เข้าถึงผู้ใช้หลายล้านคนในช่วงเวลาสั้นๆ OpenAI ได้ประกาศเปิดตัวของ GPT-4ซึ่งเป็นเวอร์ชันที่ทรงพลังกว่าซึ่งสามารถบรรลุประสิทธิภาพที่เหมือนมนุษย์ในงานต่างๆ เช่น การสอบทางการแพทย์และกฎหมาย.
ผลกระทบของ Transformers ในด้าน AI และการใช้งานที่หลากหลายเป็นสิ่งที่ไม่อาจปฏิเสธได้ พวกเขามี เปลี่ยนวิธีการ เราเข้าใกล้งานที่เกี่ยวข้องกับภาษาและกำลังปูทางไปสู่ความก้าวหน้าใหม่ๆ ใน generative AI
3 ประเภทของสถาปัตยกรรมก่อนการฝึกอบรม
สถาปัตยกรรมของ Transformer ซึ่งแต่เดิมประกอบด้วยตัวเข้ารหัสและตัวถอดรหัส ได้มีการพัฒนาให้มีความหลากหลายตามความต้องการเฉพาะ เรามาแจกแจงความแตกต่างเหล่านี้ด้วยคำง่ายๆ
- การเตรียมการเข้ารหัส: โมเดลเหล่านี้เน้นที่การทำความเข้าใจประโยคหรือข้อความที่สมบูรณ์ ในระหว่างการเตรียมการล่วงหน้า ตัวเข้ารหัสจะใช้เพื่อสร้างโทเค็นที่ปิดบังขึ้นใหม่ในประโยคอินพุต สิ่งนี้ช่วยให้โมเดลเรียนรู้ที่จะเข้าใจบริบทโดยรวม โมเดลดังกล่าวมีประโยชน์สำหรับงานต่างๆ เช่น การจัดประเภทข้อความ การจัดรายละเอียด และการตอบคำถามแบบแยกส่วน
- การเตรียมการถอดรหัส: โมเดลตัวถอดรหัสได้รับการฝึกฝนเพื่อสร้างโทเค็นถัดไปตามลำดับก่อนหน้าของโทเค็น สิ่งเหล่านี้เรียกว่าโมเดลภาษาแบบถดถอยอัตโนมัติ เลเยอร์การเอาใจใส่ตนเองในตัวถอดรหัสสามารถเข้าถึงโทเค็นก่อนโทเค็นที่กำหนดในประโยคเท่านั้น โมเดลเหล่านี้เหมาะสำหรับงานที่เกี่ยวข้องกับการสร้างข้อความ
- การเตรียมหม้อแปลง (ตัวเข้ารหัส-ตัวถอดรหัส): รูปแบบนี้รวมทั้งส่วนประกอบตัวเข้ารหัสและตัวถอดรหัส เลเยอร์ความสนใจในตัวเองของตัวเข้ารหัสสามารถเข้าถึงโทเค็นอินพุตทั้งหมด ในขณะที่เลเยอร์ความสนใจในตัวเองของตัวถอดรหัสสามารถเข้าถึงโทเค็นก่อนโทเค็นที่กำหนดเท่านั้น สถาปัตยกรรมนี้ทำให้ตัวถอดรหัสสามารถใช้การแทนค่าที่ตัวเข้ารหัสเรียนรู้ได้ โมเดลตัวเข้ารหัส-ตัวถอดรหัสเหมาะสำหรับงานต่างๆ เช่น การสรุป การแปล หรือการตอบคำถามเชิงกำเนิด
วัตถุประสงค์ในการฝึกอบรมอาจเกี่ยวข้องกับการสร้างแบบจำลองทางภาษาเชิงสาเหตุหรือเชิงสาเหตุ วัตถุประสงค์เหล่านี้ซับซ้อนกว่าสำหรับรุ่นที่มีตัวเข้ารหัส-ตัวถอดรหัส เมื่อเทียบกับรุ่นที่มีตัวเข้ารหัสอย่างเดียวหรือตัวถอดรหัสเท่านั้น สถาปัตยกรรม Transformer มีรูปแบบที่แตกต่างกันขึ้นอยู่กับจุดเน้นของโมเดล ไม่ว่าจะเป็นการทำความเข้าใจประโยคที่สมบูรณ์ การสร้างข้อความ หรือการรวมทั้งสองอย่างสำหรับงานต่างๆ Transformers มอบความยืดหยุ่นในการจัดการกับความท้าทายที่เกี่ยวข้องกับภาษาต่างๆ
8 ประเภทของงานสำหรับโมเดลที่ผ่านการฝึกอบรมล่วงหน้า
เมื่อฝึกโมเดล เราต้องมอบหมายงานหรือวัตถุประสงค์ให้โมเดลเรียนรู้ มีงานหลายอย่างในการประมวลผลภาษาธรรมชาติ (NLP) ที่สามารถใช้สำหรับแบบจำลองการฝึกล่วงหน้าได้ เรามาแบ่งงานเหล่านี้ออกเป็นคำศัพท์ง่ายๆ:
- การสร้างแบบจำลองภาษา (LM): โมเดลคาดการณ์โทเค็นถัดไปในประโยค เรียนรู้ที่จะเข้าใจบริบทและสร้างประโยคที่สอดคล้องกัน
- การสร้างแบบจำลองภาษาเชิงสาเหตุ: โมเดลคาดการณ์โทเค็นถัดไปในลำดับข้อความ ตามลำดับจากซ้ายไปขวา มันเหมือนกับรูปแบบการเล่าเรื่องที่สร้างประโยคทีละคำ
- การสร้างแบบจำลองภาษาคำนำหน้า: แบบจำลองจะแยกส่วน 'คำนำหน้า' ออกจากลำดับหลัก สามารถเข้าร่วมกับโทเค็นใดๆ ภายในคำนำหน้า จากนั้นสร้างลำดับที่เหลือโดยอัตโนมัติ
- Masked Language Modeling (MLM): โทเค็นบางส่วนในประโยคอินพุตถูกปิดบัง และโมเดลคาดการณ์โทเค็นที่หายไปตามบริบทโดยรอบ มันเรียนรู้ที่จะเติมในช่องว่าง
- Permuted Language Modeling (PLM): โมเดลคาดการณ์โทเค็นถัดไปโดยอิงตามการเปลี่ยนลำดับแบบสุ่มของลำดับอินพุต มันเรียนรู้ที่จะจัดการกับคำสั่งซื้อโทเค็นที่แตกต่างกัน
- Denoising Autoencoder (DAE): โมเดลใช้อินพุตที่เสียหายบางส่วนและมีเป้าหมายเพื่อกู้คืนอินพุตดั้งเดิมที่ไม่ถูกบิดเบือน เรียนรู้ที่จะจัดการกับเสียงรบกวนหรือส่วนที่ขาดหายไปของข้อความ
- การตรวจจับโทเค็นที่ถูกแทนที่ (RTD): โมเดลจะตรวจจับว่าโทเค็นมาจากข้อความต้นฉบับหรือเวอร์ชันที่สร้างขึ้น เรียนรู้ที่จะระบุโทเค็นที่ถูกแทนที่หรือจัดการ
- Next Sentence Prediction (NSP): โมเดลเรียนรู้ที่จะแยกแยะว่าประโยคอินพุตสองประโยคเป็นส่วนต่อเนื่องจากข้อมูลการฝึกอบรมหรือไม่ มันเข้าใจความสัมพันธ์ระหว่างประโยค
งานเหล่านี้ช่วยให้โมเดลเรียนรู้โครงสร้างและความหมายของภาษา ด้วยการฝึกอบรมล่วงหน้าเกี่ยวกับงานเหล่านี้ โมเดลจะได้รับความเข้าใจที่ดีเกี่ยวกับภาษาก่อนที่จะทำการปรับแต่งอย่างละเอียดสำหรับแอปพลิเคชันเฉพาะ
Transformers 30+ อันดับแรกใน AI
Name | พรีเทรนนิ่งสถาปัตย์ | งาน | การใช้งาน | พัฒนาโดย |
---|---|---|---|---|
ALBERT | Encoder | MLM/นสพ | เช่นเดียวกับเบิร์ต | |
สัตว์ขนยาวในอเมริกาคล้ายแกะ | ถอดรหัส | LM | งานสร้างข้อความและการจำแนกประเภท | Stanford |
อัลฟ่าโฟลด์ | Encoder | การทำนายการพับโปรตีน | การพับโปรตีน | ใจลึก |
ผู้ช่วยมานุษยวิทยา (ดูเพิ่มเติม) | ถอดรหัส | LM | ตั้งแต่ไดอะล็อกทั่วไปไปจนถึงตัวช่วยโค้ด | มานุษยวิทยา |
BART | ตัวเข้ารหัส/ตัวถอดรหัส | DAE | งานสร้างข้อความและการทำความเข้าใจข้อความ | |
BERT | Encoder | MLM/นสพ | ความเข้าใจภาษาและการตอบคำถาม | |
เบลนเดอร์บอท 3 | ถอดรหัส | LM | งานสร้างข้อความและการทำความเข้าใจข้อความ | |
BLOOM | ถอดรหัส | LM | งานสร้างข้อความและการทำความเข้าใจข้อความ | วิทยาศาสตร์ขนาดใหญ่ / Huggingface |
ChatGPT | ถอดรหัส | LM | ตัวแทนโต้ตอบ | OpenAI |
สัตว์ชนิดหนึ่ง | ถอดรหัส | LM | งานสร้างข้อความและการทำความเข้าใจข้อความ | ใจลึก |
CLIP | Encoder | การจำแนกรูปภาพ/วัตถุ | OpenAI | |
CTRL | ถอดรหัส | การสร้างข้อความที่ควบคุมได้ | Salesforce | |
DALL-E | ถอดรหัส | การคาดการณ์คำบรรยาย | ข้อความเป็นรูปภาพ | OpenAI |
ดัล-อี-2 | ตัวเข้ารหัส/ตัวถอดรหัส | การคาดการณ์คำบรรยาย | ข้อความเป็นรูปภาพ | OpenAI |
เดเบอร์ทา | ถอดรหัส | MLM | เช่นเดียวกับเบิร์ต | ไมโครซอฟท์ |
การตัดสินใจ Transformers | ถอดรหัส | การทำนายการกระทำต่อไป | RL ทั่วไป (งานการเรียนรู้การเสริมแรง) | Google/UC เบิร์กลีย์/FAIR |
ไดอาโลGPT | ถอดรหัส | LM | การสร้างข้อความในการตั้งค่ากล่องโต้ตอบ | ไมโครซอฟท์ |
DitilBERT | Encoder | MLM/นสพ | ความเข้าใจภาษาและการตอบคำถาม | กอด |
ดีคิว-บาร์ท | ตัวเข้ารหัส/ตัวถอดรหัส | DAE | การสร้างข้อความและความเข้าใจ | อเมซอน |
ตุ๊กตา | ถอดรหัส | LM | งานสร้างข้อความและการจำแนกประเภท | ดาต้าบริคส์ อิงค์ |
เออร์นี่ | Encoder | MLM | งานที่เกี่ยวข้องกับความรู้เข้มข้น | สถาบันภาษาจีนต่างๆ |
นกกระเรียน | ถอดรหัส | การคาดการณ์คำบรรยาย | ข้อความเป็นรูปภาพ | ใจลึก |
Galactica | ถอดรหัส | LM | QA ทางวิทยาศาสตร์ การให้เหตุผลทางคณิตศาสตร์ การสรุป การสร้างเอกสาร การทำนายคุณสมบัติโมเลกุล และการสกัดเอนทิตี | Meta |
ร่อน | Encoder | การคาดการณ์คำบรรยาย | ข้อความเป็นรูปภาพ | OpenAI |
GPT-3.5 | ถอดรหัส | LM | บทสนทนาและภาษาทั่วไป | OpenAI |
GPTคำแนะนำ | ถอดรหัส | LM | บทสนทนาหรืองานภาษาที่เน้นความรู้ | OpenAI |
HTML | ตัวเข้ารหัส/ตัวถอดรหัส | DAE | โมเดลภาษาที่อนุญาตการแจ้ง HTML ที่มีโครงสร้าง | |
ภาพ | T5 | การคาดการณ์คำบรรยาย | ข้อความเป็นรูปภาพ | |
แลมดา | ถอดรหัส | LM | การสร้างแบบจำลองภาษาทั่วไป | |
LLaMA | ถอดรหัส | LM | การใช้เหตุผลร่วมกัน การตอบคำถาม การสร้างรหัส และความเข้าใจในการอ่าน | Meta |
Minerva | ถอดรหัส | LM | การให้เหตุผลทางคณิตศาสตร์ | |
ปาล์ม | ถอดรหัส | LM | ความเข้าใจภาษาและการสร้าง | |
โรเบอร์ต้า | Encoder | MLM | ความเข้าใจภาษาและการตอบคำถาม | UW/กูเกิล |
กระจอก | ถอดรหัส | LM | ตัวแทนโต้ตอบและแอปพลิเคชันการสร้างภาษาทั่วไป เช่น ถามตอบ | ใจลึก |
การแพร่กระจายที่เสถียร | ตัวเข้ารหัส/ตัวถอดรหัส | ทำนายคำบรรยาย | ข้อความเป็นรูปภาพ | LMU มิวนิก + Stability.ai + Eleuther.ai |
วิคูนา | ถอดรหัส | LM | ตัวแทนโต้ตอบ | UC Berkeley, CMU, Stanford, UC San Diego และ MBZUAI |
คำถามที่พบบ่อย
Transformers ใน AI เป็นประเภทหนึ่งของ สถาปัตยกรรมการเรียนรู้เชิงลึก ที่ได้เปลี่ยนแปลงการประมวลผลภาษาธรรมชาติและงานอื่นๆ พวกเขาใช้กลไกการเอาใจใส่ตัวเองเพื่อจับความสัมพันธ์ระหว่างคำในประโยค ทำให้เข้าใจและสร้างข้อความที่เหมือนมนุษย์ได้
ตัวเข้ารหัสและตัวถอดรหัสเป็นส่วนประกอบที่ใช้กันทั่วไปในแบบจำลองลำดับต่อลำดับ ตัวเข้ารหัสจะประมวลผลข้อมูลอินพุต เช่น ข้อความหรือรูปภาพ และแปลงเป็นภาพแทนที่ถูกบีบอัด ขณะที่ตัวถอดรหัสจะสร้างข้อมูลเอาต์พุตตามการแทนค่าที่เข้ารหัส เปิดใช้งานงานต่างๆ เช่น การแปลภาษาหรือคำบรรยายภาพ
Attention Layer เป็นส่วนประกอบที่ใช้ใน เครือข่ายประสาทเทียมโดยเฉพาะในรุ่น Transformer ช่วยให้โมเดลสามารถเลือกโฟกัสไปที่ส่วนต่าง ๆ ของลำดับอินพุต กำหนดน้ำหนักให้กับแต่ละองค์ประกอบตามความเกี่ยวข้อง ทำให้สามารถจับการพึ่งพาและความสัมพันธ์ระหว่างองค์ประกอบต่าง ๆ ได้อย่างมีประสิทธิภาพ
โมเดลที่ปรับแต่งอย่างละเอียดหมายถึงโมเดลที่ได้รับการฝึกอบรมล่วงหน้าซึ่งได้รับการฝึกอบรมเพิ่มเติมเกี่ยวกับงานหรือชุดข้อมูลเฉพาะเพื่อปรับปรุงประสิทธิภาพและปรับให้เข้ากับข้อกำหนดเฉพาะของงานนั้น กระบวนการปรับแต่งอย่างละเอียดนี้เกี่ยวข้องกับการปรับพารามิเตอร์ของโมเดลเพื่อเพิ่มประสิทธิภาพการคาดคะเนและทำให้เฉพาะเจาะจงยิ่งขึ้นสำหรับงานเป้าหมาย
Transformers ถือเป็นอนาคตของ AI เนื่องจากได้แสดงให้เห็นประสิทธิภาพอันยอดเยี่ยมในงานที่หลากหลาย รวมถึงการประมวลผลภาษาธรรมชาติ การสร้างภาพ และอื่นๆ ความสามารถในการจับภาพการพึ่งพาระยะไกลและประมวลผลข้อมูลตามลำดับอย่างมีประสิทธิภาพทำให้สามารถปรับได้สูงและมีประสิทธิภาพสำหรับแอปพลิเคชันต่างๆ ปูทางไปสู่ความก้าวหน้าใน AI เชิงกำเนิดและปฏิวัติหลายแง่มุมของสังคม
โมเดลหม้อแปลงที่มีชื่อเสียงที่สุดใน AI ได้แก่ BERT (BiDirectional Encoder Representations from Transformers) GPT (หม้อแปลงไฟฟ้าที่ได้รับการฝึกอบรมล่วงหน้าแบบเจนเนอเรชั่น) และ T5 (หม้อแปลงถ่ายโอนข้อความเป็นข้อความ) โมเดลเหล่านี้ได้รับผลลัพธ์ที่น่าทึ่งในงานประมวลผลภาษาธรรมชาติต่างๆ และได้รับความนิยมอย่างมากในชุมชนการวิจัย AI
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต