AI Wiki เทคโนโลยี
มิถุนายน 12, 2023

โมเดลหม้อแปลง 30 อันดับแรกใน AI: คืออะไรและทำงานอย่างไร

ในช่วงหลายเดือนที่ผ่านมา โมเดล Transformer จำนวนมากได้ถือกำเนิดขึ้นใน AI ซึ่งแต่ละโมเดลก็มีชื่อที่ไม่เหมือนใครและบางครั้งก็น่าขบขัน อย่างไรก็ตาม ชื่อเหล่านี้อาจไม่ได้ให้ข้อมูลเชิงลึกมากนักว่าโมเดลเหล่านี้ทำอะไรได้บ้าง บทความนี้มีวัตถุประสงค์เพื่อนำเสนอรายการ Transformer ยอดนิยมที่ครอบคลุมและตรงไปตรงมา โดยจะจัดประเภทโมเดลเหล่านี้ และยังแนะนำประเด็นสำคัญและนวัตกรรมภายในตระกูล Transformer รายการด้านบนจะครอบคลุม โมเดลที่ได้รับการฝึกฝน ผ่านการเรียนรู้ด้วยตนเอง เช่น BERT หรือ GPT-3รวมถึงโมเดลที่ได้รับการฝึกอบรมเพิ่มเติมโดยมีส่วนร่วมของมนุษย์ เช่น InstructGPT รุ่นที่ใช้โดย ChatGPT.

เครดิต: Metaverse Post (mpost.io)
Pro Tips
คู่มือนี้ ได้รับการออกแบบมาเพื่อให้ความรู้ที่ครอบคลุมและทักษะเชิงปฏิบัติในด้านวิศวกรรมที่รวดเร็วสำหรับผู้เริ่มต้นจนถึงผู้เรียนขั้นสูง
มีหลายหลักสูตร มีให้สำหรับผู้ที่ต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ AI และเทคโนโลยีที่เกี่ยวข้อง
ลองดูที่ ตัวเร่งความเร็ว AI มากกว่า 10 ตัว ที่คาดว่าจะนำตลาดในแง่ของประสิทธิภาพ

Transformers ใน AI คืออะไร?

Transformers เป็นรูปแบบการเรียนรู้เชิงลึกประเภทหนึ่งที่ได้รับการแนะนำในเอกสารการวิจัยที่ชื่อว่า “ความสนใจคือสิ่งที่คุณต้องการ” โดยนักวิจัยของ Google ในปี 2017 บทความนี้ได้รับการยอมรับอย่างล้นหลาม โดยมีการอ้างอิงมากกว่า 38,000 ครั้งในเวลาเพียงห้าปี

สถาปัตยกรรม Transformer ดั้งเดิมเป็นรูปแบบเฉพาะของโมเดลตัวเข้ารหัส-ตัวถอดรหัสที่ได้รับความนิยมก่อนที่จะเปิดตัว โมเดลเหล่านี้อาศัยเป็นหลัก แอลเอสทีเอ็ม และรูปแบบอื่นๆ ของ Recurrent Neural Networks (RNN) โดยให้ความสนใจเป็นเพียงหนึ่งในกลไกที่ใช้ อย่างไรก็ตาม กระดาษ Transformer ได้เสนอแนวคิดปฏิวัติที่ว่าความสนใจสามารถใช้เป็นกลไกเดียวในการสร้างการพึ่งพาระหว่างอินพุตและเอาต์พุต

Transformers ใน AI คืออะไร?
เครดิต: dominodatalab.com

ในบริบทของ Transformers อินพุตประกอบด้วยลำดับของโทเค็น ซึ่งอาจเป็นคำหรือคำย่อยในการประมวลผลภาษาธรรมชาติ (NLP). คำย่อยมักใช้ในแบบจำลอง NLP เพื่อแก้ไขปัญหาของคำที่ไม่อยู่ในคำศัพท์ เอาต์พุตของตัวเข้ารหัสสร้างการแสดงมิติคงที่สำหรับแต่ละโทเค็น พร้อมกับการฝังแยกต่างหากสำหรับลำดับทั้งหมด ตัวถอดรหัสใช้เอาต์พุตของตัวเข้ารหัสและสร้างลำดับของโทเค็นเป็นเอาต์พุต

ตั้งแต่การตีพิมพ์กระดาษ Transformer โมเดลยอดนิยมเช่น BERT และ GPT ได้นำลักษณะต่างๆ ของสถาปัตยกรรมดั้งเดิมมาใช้ ไม่ว่าจะใช้ตัวเข้ารหัสหรือส่วนประกอบตัวถอดรหัส ความคล้ายคลึงกันที่สำคัญระหว่างแบบจำลองเหล่านี้อยู่ที่สถาปัตยกรรมเลเยอร์ ซึ่งประกอบด้วยกลไกการเอาใจใส่ตนเองและเลเยอร์การป้อนไปข้างหน้า ใน Transformers โทเค็นอินพุตแต่ละตัวจะเดินทางผ่านเส้นทางของตัวเองผ่านเลเยอร์ต่างๆ ในขณะที่ยังคงรักษาการขึ้นต่อกันโดยตรงกับโทเค็นอื่นๆ ในลำดับอินพุต คุณลักษณะเฉพาะนี้ช่วยให้สามารถคำนวณการแสดงโทเค็นตามบริบทแบบขนานและมีประสิทธิภาพ ซึ่งเป็นความสามารถที่ไม่สามารถทำได้กับโมเดลตามลำดับเช่น RNN

แม้ว่าบทความนี้จะเป็นเพียงการขีดข่วนพื้นผิวของสถาปัตยกรรม Transformer เท่านั้น แต่ก็ให้ข้อมูลคร่าวๆ เกี่ยวกับแง่มุมพื้นฐาน เพื่อความเข้าใจที่ครอบคลุมยิ่งขึ้น เราขอแนะนำให้อ้างอิงเอกสารการวิจัยต้นฉบับหรือโพสต์ The Illustrated Transformer

ตัวเข้ารหัสและตัวถอดรหัสใน AI คืออะไร

ลองนึกภาพว่าคุณมีสองรุ่น ตัวเข้ารหัสและตัวถอดรหัส ทำงานร่วมกัน เหมือนทีม ตัวเข้ารหัสรับอินพุตและเปลี่ยนให้เป็นเวกเตอร์ที่มีความยาวคงที่ จากนั้นตัวถอดรหัสจะใช้เวกเตอร์นั้นและแปลงเป็นลำดับเอาต์พุต โมเดลเหล่านี้ได้รับการฝึกฝนร่วมกันเพื่อให้แน่ใจว่าเอาต์พุตตรงกับอินพุตมากที่สุด

ทั้งตัวเข้ารหัสและตัวถอดรหัสมีหลายเลเยอร์ แต่ละเลเยอร์ในเอ็นโค้ดเดอร์มีสองเลเยอร์ย่อย: เลเยอร์ความสนใจในตัวเองแบบหลายหัวและเครือข่ายฟีดฟอร์เวิร์ดอย่างง่าย เลเยอร์การเอาใจใส่ตนเองช่วยให้แต่ละโทเค็นในอินพุตเข้าใจความสัมพันธ์กับโทเค็นอื่นๆ ทั้งหมด เลเยอร์ย่อยเหล่านี้ยังมีการเชื่อมต่อที่เหลือและการทำให้เป็นมาตรฐานของเลเยอร์เพื่อทำให้กระบวนการเรียนรู้ราบรื่นขึ้น

หลายหัวของตัวถอดรหัส ชั้นความสนใจในตนเอง ทำงานแตกต่างจากตัวเข้ารหัสเล็กน้อย มันปิดบังโทเค็นทางด้านขวาของโทเค็นที่โฟกัสอยู่ สิ่งนี้ทำให้มั่นใจได้ว่าตัวถอดรหัสจะดูเฉพาะโทเค็นที่มาก่อนโทเค็นที่พยายามทำนายเท่านั้น ความสนใจหลายหัวที่สวมหน้ากากนี้ช่วยให้ตัวถอดรหัสสร้างการคาดการณ์ที่แม่นยำ นอกจากนี้ ตัวถอดรหัสยังมีชั้นย่อยอีกชั้นหนึ่ง ซึ่งเป็นชั้นความสนใจแบบหลายหัวเหนือเอาต์พุตทั้งหมดจากตัวเข้ารหัส

โปรดทราบว่ารายละเอียดเฉพาะเหล่านี้ได้รับการแก้ไขในรูปแบบต่างๆ ของรุ่น Transformer โมเดลอย่าง BERT และ GPTตัวอย่างเช่น อิงตามลักษณะตัวเข้ารหัสหรือตัวถอดรหัสของสถาปัตยกรรมดั้งเดิม

Attention Layers ใน AI คืออะไร?

ในสถาปัตยกรรมแบบจำลองที่เราพูดถึงก่อนหน้านี้ เลเยอร์ความสนใจแบบหลายหัวเป็นองค์ประกอบพิเศษที่ทำให้มีประสิทธิภาพ แต่ความสนใจคืออะไรกันแน่? คิดว่าเป็นฟังก์ชันที่จับคู่คำถามกับชุดข้อมูลและให้ผลลัพธ์ โทเค็นแต่ละรายการในอินพุตมีคิวรี คีย์ และค่าที่เกี่ยวข้อง การแทนเอาต์พุตของโทเค็นแต่ละรายการจะคำนวณโดยการหาผลรวมถ่วงน้ำหนักของค่า โดยที่น้ำหนักสำหรับแต่ละค่าจะพิจารณาจากความพอดีของค่าที่ตรงกับข้อความค้นหา

Transformers ใช้ฟังก์ชันความเข้ากันได้ที่เรียกว่า Scaled Dot Product เพื่อคำนวณน้ำหนักเหล่านี้ สิ่งที่น่าสนใจเกี่ยวกับความสนใจใน Transformers คือแต่ละโทเค็นต้องผ่านเส้นทางการคำนวณของตัวเอง ทำให้สามารถคำนวณโทเค็นทั้งหมดในลำดับอินพุตแบบขนานได้ เป็นเพียงบล็อกความสนใจหลายรายการที่คำนวณการแทนค่าสำหรับแต่ละโทเค็นโดยอิสระ การเป็นตัวแทนเหล่านี้จะถูกรวมเข้าด้วยกันเพื่อสร้างการเป็นตัวแทนขั้นสุดท้ายของโทเค็น

เมื่อเทียบกับเครือข่ายประเภทอื่น เช่น เครือข่ายที่เกิดซ้ำและ เครือข่ายโค้งชั้นความสนใจมีข้อดีบางประการ มีประสิทธิภาพในการคำนวณ ซึ่งหมายความว่าสามารถประมวลผลข้อมูลได้อย่างรวดเร็ว พวกเขายังมีการเชื่อมต่อที่สูงขึ้นซึ่งเป็นประโยชน์สำหรับการบันทึกความสัมพันธ์ระยะยาวในลำดับ

โมเดลที่ปรับแต่งอย่างละเอียดใน AI คืออะไร

โมเดลรองพื้น เป็นโมเดลที่มีประสิทธิภาพซึ่งได้รับการฝึกฝนจากข้อมูลทั่วไปจำนวนมาก จากนั้นสามารถนำไปปรับใช้หรือปรับแต่งให้เหมาะกับงานเฉพาะเจาะจงได้โดยการฝึกอบรมในชุดที่เล็กกว่า ข้อมูลเฉพาะเป้าหมาย. วิธีการนี้เป็นที่นิยมโดย กระดาษ BERTได้นำไปสู่การครอบงำของโมเดลที่ใช้ Transformer ในงานแมชชีนเลิร์นนิงที่เกี่ยวข้องกับภาษา

ในกรณีของโมเดลเช่น BERT พวกเขาสร้างการแทนโทเค็นอินพุต แต่ไม่ได้ทำงานเฉพาะให้สำเร็จด้วยตัวมันเอง เพื่อให้เป็นประโยชน์เพิ่มเติม ชั้นประสาท ถูกเพิ่มไว้ด้านบนและโมเดลได้รับการฝึกฝนแบบ end-to-end ซึ่งเป็นกระบวนการที่เรียกว่าการปรับแต่งอย่างละเอียด อย่างไรก็ตามด้วย รุ่นกำเนิด กดไลก์ GPTแนวทางจะแตกต่างออกไปเล็กน้อย GPT เป็นรูปแบบภาษาถอดรหัสที่ได้รับการฝึกให้คาดเดาคำถัดไปในประโยค ด้วยการฝึกอบรมเกี่ยวกับข้อมูลเว็บจำนวนมหาศาล GPT สามารถสร้างผลลัพธ์ที่เหมาะสมตามคำสั่งอินพุตหรือพร้อมท์

ที่จะทำให้ GPT มีประโยชน์มากขึ้น OpenAI นักวิจัยพัฒนาขึ้น คำแนะนำGPTซึ่งได้รับการฝึกฝนให้ปฏิบัติตามคำสั่งของมนุษย์ สามารถทำได้โดยการปรับแต่งอย่างละเอียด GPT โดยใช้ข้อมูลที่มนุษย์ระบุจากงานต่างๆ สั่งสอนGPT สามารถปฏิบัติงานได้หลากหลายและถูกใช้โดยเครื่องมือยอดนิยมเช่น ChatGPT.

นอกจากนี้ยังสามารถใช้การปรับแต่งแบบละเอียดเพื่อสร้างรูปแบบต่างๆ ของรุ่นรองพื้นที่ปรับให้เหมาะสมสำหรับ วัตถุประสงค์เฉพาะ นอกเหนือจากการสร้างแบบจำลองทางภาษา ตัวอย่างเช่น มีโมเดลที่ปรับแต่งสำหรับงานที่เกี่ยวข้องกับความหมาย เช่น การจัดหมวดหมู่ข้อความและการดึงข้อมูลการค้นหา นอกจากนี้ ทรานสฟอร์เมอร์เอนโค้ดเดอร์ยังได้รับการปรับแต่งอย่างละเอียดภายในมัลติทาสก์ได้สำเร็จ กรอบการเรียนรู้ เพื่อทำงานเชิงความหมายหลายอย่างโดยใช้แบบจำลองที่ใช้ร่วมกันเดียว

ทุกวันนี้ การปรับละเอียดถูกใช้เพื่อสร้างรุ่นของรุ่นรองพื้นที่ผู้ใช้จำนวนมากสามารถใช้ได้ กระบวนการนี้เกี่ยวข้องกับการสร้างการตอบสนองต่ออินพุต แจ้งและให้มนุษย์จัดอันดับผลลัพธ์. การจัดอันดับนี้ใช้ในการฝึกก แบบรางวัลซึ่งกำหนดคะแนนให้กับแต่ละเอาต์พุต เสริมการเรียนรู้ด้วยความคิดเห็นของมนุษย์ จากนั้นจึงนำไปฝึกโมเดลต่อไป

ทำไม Transformers ถึงเป็นอนาคตของ AI

ทรานส์ฟอร์เมอร์สซึ่งเป็นโมเดลที่ทรงพลังประเภทหนึ่ง ได้รับการสาธิตครั้งแรกในด้านการแปลภาษา อย่างไรก็ตาม นักวิจัยตระหนักได้อย่างรวดเร็วว่า Transformers สามารถใช้กับงานที่เกี่ยวข้องกับภาษาต่างๆ ได้ โดยฝึกให้พวกเขาใช้ข้อความที่ไม่มีป้ายกำกับจำนวนมาก จากนั้นจึงปรับแต่งให้เหมาะกับชุดข้อมูลที่มีป้ายกำกับที่มีขนาดเล็กลง วิธีการนี้ทำให้ Transformers สามารถรวบรวมความรู้ที่สำคัญเกี่ยวกับภาษาได้

สถาปัตยกรรม Transformer ซึ่งแต่เดิมออกแบบมาสำหรับงานด้านภาษา ยังถูกนำไปใช้กับแอปพลิเคชันอื่นๆ เช่น สร้างภาพเสียง เพลง และแม้กระทั่งการกระทำ สิ่งนี้ทำให้ Transformers เป็นองค์ประกอบหลักในด้าน Generative AI ซึ่งเปลี่ยนแปลงด้านต่างๆ ของสังคม

ความพร้อมใช้งานของเครื่องมือและเฟรมเวิร์กเช่น ไพทอร์ช และ TensorFlow มีบทบาทสำคัญในการยอมรับโมเดล Transformer อย่างแพร่หลาย บริษัทอย่าง Huggingface ได้สร้างพวกเขาขึ้นมา ธุรกิจรอบความคิด ของไลบรารี่ Transformer แบบโอเพ่นซอร์สในเชิงพาณิชย์ และฮาร์ดแวร์พิเศษ เช่น Hopper Tensor Cores ของ NVIDIA ได้เร่งความเร็วการฝึกอบรมและการอนุมานของโมเดลเหล่านี้ให้เร็วขึ้นไปอีก

แอปพลิเคชั่นที่โดดเด่นอย่างหนึ่งของ Transformers คือ ChatGPT, แชทบอทที่เผยแพร่โดย OpenAI. กลายเป็นที่นิยมอย่างเหลือเชื่อ เข้าถึงผู้ใช้หลายล้านคนในช่วงเวลาสั้นๆ OpenAI ได้ประกาศเปิดตัวของ GPT-4ซึ่งเป็นเวอร์ชันที่ทรงพลังกว่าซึ่งสามารถบรรลุประสิทธิภาพที่เหมือนมนุษย์ในงานต่างๆ เช่น การสอบทางการแพทย์และกฎหมาย.

ผลกระทบของ Transformers ในด้าน AI และการใช้งานที่หลากหลายเป็นสิ่งที่ไม่อาจปฏิเสธได้ พวกเขามี เปลี่ยนวิธีการ เราเข้าใกล้งานที่เกี่ยวข้องกับภาษาและกำลังปูทางไปสู่ความก้าวหน้าใหม่ๆ ใน generative AI

3 ประเภทของสถาปัตยกรรมก่อนการฝึกอบรม

สถาปัตยกรรมของ Transformer ซึ่งแต่เดิมประกอบด้วยตัวเข้ารหัสและตัวถอดรหัส ได้มีการพัฒนาให้มีความหลากหลายตามความต้องการเฉพาะ เรามาแจกแจงความแตกต่างเหล่านี้ด้วยคำง่ายๆ

  1. การเตรียมการเข้ารหัส: โมเดลเหล่านี้เน้นที่การทำความเข้าใจประโยคหรือข้อความที่สมบูรณ์ ในระหว่างการเตรียมการล่วงหน้า ตัวเข้ารหัสจะใช้เพื่อสร้างโทเค็นที่ปิดบังขึ้นใหม่ในประโยคอินพุต สิ่งนี้ช่วยให้โมเดลเรียนรู้ที่จะเข้าใจบริบทโดยรวม โมเดลดังกล่าวมีประโยชน์สำหรับงานต่างๆ เช่น การจัดประเภทข้อความ การจัดรายละเอียด และการตอบคำถามแบบแยกส่วน
  2. การเตรียมการถอดรหัส: โมเดลตัวถอดรหัสได้รับการฝึกฝนเพื่อสร้างโทเค็นถัดไปตามลำดับก่อนหน้าของโทเค็น สิ่งเหล่านี้เรียกว่าโมเดลภาษาแบบถดถอยอัตโนมัติ เลเยอร์การเอาใจใส่ตนเองในตัวถอดรหัสสามารถเข้าถึงโทเค็นก่อนโทเค็นที่กำหนดในประโยคเท่านั้น โมเดลเหล่านี้เหมาะสำหรับงานที่เกี่ยวข้องกับการสร้างข้อความ
  3. การเตรียมหม้อแปลง (ตัวเข้ารหัส-ตัวถอดรหัส): รูปแบบนี้รวมทั้งส่วนประกอบตัวเข้ารหัสและตัวถอดรหัส เลเยอร์ความสนใจในตัวเองของตัวเข้ารหัสสามารถเข้าถึงโทเค็นอินพุตทั้งหมด ในขณะที่เลเยอร์ความสนใจในตัวเองของตัวถอดรหัสสามารถเข้าถึงโทเค็นก่อนโทเค็นที่กำหนดเท่านั้น สถาปัตยกรรมนี้ทำให้ตัวถอดรหัสสามารถใช้การแทนค่าที่ตัวเข้ารหัสเรียนรู้ได้ โมเดลตัวเข้ารหัส-ตัวถอดรหัสเหมาะสำหรับงานต่างๆ เช่น การสรุป การแปล หรือการตอบคำถามเชิงกำเนิด

วัตถุประสงค์ในการฝึกอบรมอาจเกี่ยวข้องกับการสร้างแบบจำลองทางภาษาเชิงสาเหตุหรือเชิงสาเหตุ วัตถุประสงค์เหล่านี้ซับซ้อนกว่าสำหรับรุ่นที่มีตัวเข้ารหัส-ตัวถอดรหัส เมื่อเทียบกับรุ่นที่มีตัวเข้ารหัสอย่างเดียวหรือตัวถอดรหัสเท่านั้น สถาปัตยกรรม Transformer มีรูปแบบที่แตกต่างกันขึ้นอยู่กับจุดเน้นของโมเดล ไม่ว่าจะเป็นการทำความเข้าใจประโยคที่สมบูรณ์ การสร้างข้อความ หรือการรวมทั้งสองอย่างสำหรับงานต่างๆ Transformers มอบความยืดหยุ่นในการจัดการกับความท้าทายที่เกี่ยวข้องกับภาษาต่างๆ

8 ประเภทของงานสำหรับโมเดลที่ผ่านการฝึกอบรมล่วงหน้า

เมื่อฝึกโมเดล เราต้องมอบหมายงานหรือวัตถุประสงค์ให้โมเดลเรียนรู้ มีงานหลายอย่างในการประมวลผลภาษาธรรมชาติ (NLP) ที่สามารถใช้สำหรับแบบจำลองการฝึกล่วงหน้าได้ เรามาแบ่งงานเหล่านี้ออกเป็นคำศัพท์ง่ายๆ:

  1. การสร้างแบบจำลองภาษา (LM): โมเดลคาดการณ์โทเค็นถัดไปในประโยค เรียนรู้ที่จะเข้าใจบริบทและสร้างประโยคที่สอดคล้องกัน
  2. การสร้างแบบจำลองภาษาเชิงสาเหตุ: โมเดลคาดการณ์โทเค็นถัดไปในลำดับข้อความ ตามลำดับจากซ้ายไปขวา มันเหมือนกับรูปแบบการเล่าเรื่องที่สร้างประโยคทีละคำ
  3. การสร้างแบบจำลองภาษาคำนำหน้า: แบบจำลองจะแยกส่วน 'คำนำหน้า' ออกจากลำดับหลัก สามารถเข้าร่วมกับโทเค็นใดๆ ภายในคำนำหน้า จากนั้นสร้างลำดับที่เหลือโดยอัตโนมัติ
  4. Masked Language Modeling (MLM): โทเค็นบางส่วนในประโยคอินพุตถูกปิดบัง และโมเดลคาดการณ์โทเค็นที่หายไปตามบริบทโดยรอบ มันเรียนรู้ที่จะเติมในช่องว่าง
  5. Permuted Language Modeling (PLM): โมเดลคาดการณ์โทเค็นถัดไปโดยอิงตามการเปลี่ยนลำดับแบบสุ่มของลำดับอินพุต มันเรียนรู้ที่จะจัดการกับคำสั่งซื้อโทเค็นที่แตกต่างกัน
  6. Denoising Autoencoder (DAE): โมเดลใช้อินพุตที่เสียหายบางส่วนและมีเป้าหมายเพื่อกู้คืนอินพุตดั้งเดิมที่ไม่ถูกบิดเบือน เรียนรู้ที่จะจัดการกับเสียงรบกวนหรือส่วนที่ขาดหายไปของข้อความ
  7. การตรวจจับโทเค็นที่ถูกแทนที่ (RTD): โมเดลจะตรวจจับว่าโทเค็นมาจากข้อความต้นฉบับหรือเวอร์ชันที่สร้างขึ้น เรียนรู้ที่จะระบุโทเค็นที่ถูกแทนที่หรือจัดการ
  8. Next Sentence Prediction (NSP): โมเดลเรียนรู้ที่จะแยกแยะว่าประโยคอินพุตสองประโยคเป็นส่วนต่อเนื่องจากข้อมูลการฝึกอบรมหรือไม่ มันเข้าใจความสัมพันธ์ระหว่างประโยค

งานเหล่านี้ช่วยให้โมเดลเรียนรู้โครงสร้างและความหมายของภาษา ด้วยการฝึกอบรมล่วงหน้าเกี่ยวกับงานเหล่านี้ โมเดลจะได้รับความเข้าใจที่ดีเกี่ยวกับภาษาก่อนที่จะทำการปรับแต่งอย่างละเอียดสำหรับแอปพลิเคชันเฉพาะ

Transformers 30+ อันดับแรกใน AI

Nameพรีเทรนนิ่งสถาปัตย์งานการใช้งานพัฒนาโดย
ALBERTEncoderMLM/นสพเช่นเดียวกับเบิร์ตGoogle
สัตว์ขนยาวในอเมริกาคล้ายแกะถอดรหัสLMงานสร้างข้อความและการจำแนกประเภทStanford
อัลฟ่าโฟลด์Encoderการทำนายการพับโปรตีนการพับโปรตีนใจลึก
ผู้ช่วยมานุษยวิทยา (ดูเพิ่มเติม)ถอดรหัสLMตั้งแต่ไดอะล็อกทั่วไปไปจนถึงตัวช่วยโค้ดมานุษยวิทยา
BARTตัวเข้ารหัส/ตัวถอดรหัสDAEงานสร้างข้อความและการทำความเข้าใจข้อความFacebook
BERTEncoderMLM/นสพความเข้าใจภาษาและการตอบคำถามGoogle
เบลนเดอร์บอท 3ถอดรหัสLMงานสร้างข้อความและการทำความเข้าใจข้อความFacebook
BLOOMถอดรหัสLMงานสร้างข้อความและการทำความเข้าใจข้อความวิทยาศาสตร์ขนาดใหญ่ / Huggingface
ChatGPTถอดรหัสLMตัวแทนโต้ตอบOpenAI
สัตว์ชนิดหนึ่งถอดรหัสLMงานสร้างข้อความและการทำความเข้าใจข้อความใจลึก
CLIPEncoderการจำแนกรูปภาพ/วัตถุOpenAI
CTRLถอดรหัสการสร้างข้อความที่ควบคุมได้Salesforce
DALL-Eถอดรหัสการคาดการณ์คำบรรยายข้อความเป็นรูปภาพOpenAI
ดัล-อี-2ตัวเข้ารหัส/ตัวถอดรหัสการคาดการณ์คำบรรยายข้อความเป็นรูปภาพOpenAI
เดเบอร์ทาถอดรหัสMLMเช่นเดียวกับเบิร์ตไมโครซอฟท์
การตัดสินใจ Transformersถอดรหัสการทำนายการกระทำต่อไปRL ทั่วไป (งานการเรียนรู้การเสริมแรง)Google/UC เบิร์กลีย์/FAIR
ไดอาโลGPTถอดรหัสLMการสร้างข้อความในการตั้งค่ากล่องโต้ตอบไมโครซอฟท์
DitilBERTEncoderMLM/นสพความเข้าใจภาษาและการตอบคำถามกอด
ดีคิว-บาร์ทตัวเข้ารหัส/ตัวถอดรหัสDAEการสร้างข้อความและความเข้าใจอเมซอน
ตุ๊กตาถอดรหัสLMงานสร้างข้อความและการจำแนกประเภทดาต้าบริคส์ อิงค์
เออร์นี่EncoderMLMงานที่เกี่ยวข้องกับความรู้เข้มข้นสถาบันภาษาจีนต่างๆ
นกกระเรียนถอดรหัสการคาดการณ์คำบรรยายข้อความเป็นรูปภาพใจลึก
GalacticaถอดรหัสLMQA ทางวิทยาศาสตร์ การให้เหตุผลทางคณิตศาสตร์ การสรุป การสร้างเอกสาร การทำนายคุณสมบัติโมเลกุล และการสกัดเอนทิตีMeta
ร่อนEncoderการคาดการณ์คำบรรยายข้อความเป็นรูปภาพOpenAI
GPT-3.5ถอดรหัสLMบทสนทนาและภาษาทั่วไปOpenAI
GPTคำแนะนำถอดรหัสLMบทสนทนาหรืองานภาษาที่เน้นความรู้OpenAI
HTMLตัวเข้ารหัส/ตัวถอดรหัสDAEโมเดลภาษาที่อนุญาตการแจ้ง HTML ที่มีโครงสร้างFacebook
ภาพT5การคาดการณ์คำบรรยายข้อความเป็นรูปภาพGoogle
แลมดาถอดรหัสLMการสร้างแบบจำลองภาษาทั่วไปGoogle
LLaMAถอดรหัสLMการใช้เหตุผลร่วมกัน การตอบคำถาม การสร้างรหัส และความเข้าใจในการอ่านMeta
MinervaถอดรหัสLMการให้เหตุผลทางคณิตศาสตร์Google
ปาล์มถอดรหัสLMความเข้าใจภาษาและการสร้างGoogle
โรเบอร์ต้าEncoderMLMความเข้าใจภาษาและการตอบคำถามUW/กูเกิล
กระจอกถอดรหัสLMตัวแทนโต้ตอบและแอปพลิเคชันการสร้างภาษาทั่วไป เช่น ถามตอบใจลึก
การแพร่กระจายที่เสถียรตัวเข้ารหัส/ตัวถอดรหัสทำนายคำบรรยายข้อความเป็นรูปภาพLMU มิวนิก + Stability.ai + Eleuther.ai
วิคูนาถอดรหัสLMตัวแทนโต้ตอบUC Berkeley, CMU, Stanford, UC San Diego และ MBZUAI

คำถามที่พบบ่อย

Transformers ใน AI เป็นประเภทหนึ่งของ สถาปัตยกรรมการเรียนรู้เชิงลึก ที่ได้เปลี่ยนแปลงการประมวลผลภาษาธรรมชาติและงานอื่นๆ พวกเขาใช้กลไกการเอาใจใส่ตัวเองเพื่อจับความสัมพันธ์ระหว่างคำในประโยค ทำให้เข้าใจและสร้างข้อความที่เหมือนมนุษย์ได้

ตัวเข้ารหัสและตัวถอดรหัสเป็นส่วนประกอบที่ใช้กันทั่วไปในแบบจำลองลำดับต่อลำดับ ตัวเข้ารหัสจะประมวลผลข้อมูลอินพุต เช่น ข้อความหรือรูปภาพ และแปลงเป็นภาพแทนที่ถูกบีบอัด ขณะที่ตัวถอดรหัสจะสร้างข้อมูลเอาต์พุตตามการแทนค่าที่เข้ารหัส เปิดใช้งานงานต่างๆ เช่น การแปลภาษาหรือคำบรรยายภาพ

Attention Layer เป็นส่วนประกอบที่ใช้ใน เครือข่ายประสาทเทียมโดยเฉพาะในรุ่น Transformer ช่วยให้โมเดลสามารถเลือกโฟกัสไปที่ส่วนต่าง ๆ ของลำดับอินพุต กำหนดน้ำหนักให้กับแต่ละองค์ประกอบตามความเกี่ยวข้อง ทำให้สามารถจับการพึ่งพาและความสัมพันธ์ระหว่างองค์ประกอบต่าง ๆ ได้อย่างมีประสิทธิภาพ

โมเดลที่ปรับแต่งอย่างละเอียดหมายถึงโมเดลที่ได้รับการฝึกอบรมล่วงหน้าซึ่งได้รับการฝึกอบรมเพิ่มเติมเกี่ยวกับงานหรือชุดข้อมูลเฉพาะเพื่อปรับปรุงประสิทธิภาพและปรับให้เข้ากับข้อกำหนดเฉพาะของงานนั้น กระบวนการปรับแต่งอย่างละเอียดนี้เกี่ยวข้องกับการปรับพารามิเตอร์ของโมเดลเพื่อเพิ่มประสิทธิภาพการคาดคะเนและทำให้เฉพาะเจาะจงยิ่งขึ้นสำหรับงานเป้าหมาย

Transformers ถือเป็นอนาคตของ AI เนื่องจากได้แสดงให้เห็นประสิทธิภาพอันยอดเยี่ยมในงานที่หลากหลาย รวมถึงการประมวลผลภาษาธรรมชาติ การสร้างภาพ และอื่นๆ ความสามารถในการจับภาพการพึ่งพาระยะไกลและประมวลผลข้อมูลตามลำดับอย่างมีประสิทธิภาพทำให้สามารถปรับได้สูงและมีประสิทธิภาพสำหรับแอปพลิเคชันต่างๆ ปูทางไปสู่ความก้าวหน้าใน AI เชิงกำเนิดและปฏิวัติหลายแง่มุมของสังคม

โมเดลหม้อแปลงที่มีชื่อเสียงที่สุดใน AI ได้แก่ BERT (BiDirectional Encoder Representations from Transformers) GPT (หม้อแปลงไฟฟ้าที่ได้รับการฝึกอบรมล่วงหน้าแบบเจนเนอเรชั่น) และ T5 (หม้อแปลงถ่ายโอนข้อความเป็นข้อความ) โมเดลเหล่านี้ได้รับผลลัพธ์ที่น่าทึ่งในงานประมวลผลภาษาธรรมชาติต่างๆ และได้รับความนิยมอย่างมากในชุมชนการวิจัย AI

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Nexo เริ่มต้น 'The Hunt' เพื่อให้รางวัลแก่ผู้ใช้ด้วยโทเค็น NEXO มูลค่า 12 ล้านเหรียญสหรัฐสำหรับการมีส่วนร่วมกับระบบนิเวศ
ตลาด รายงานข่าว เทคโนโลยี
Nexo เริ่มต้น 'The Hunt' เพื่อให้รางวัลแก่ผู้ใช้ด้วยโทเค็น NEXO มูลค่า 12 ล้านเหรียญสหรัฐสำหรับการมีส่วนร่วมกับระบบนิเวศ
May 8, 2024
Revolut X Exchange ของ Revolut ดึงดูดผู้ค้า Crypto ด้วยค่าธรรมเนียม Zero Maker และการวิเคราะห์ขั้นสูง
ตลาด ซอฟต์แวร์ เรื่องราวและบทวิจารณ์ เทคโนโลยี
Revolut X Exchange ของ Revolut ดึงดูดผู้ค้า Crypto ด้วยค่าธรรมเนียม Zero Maker และการวิเคราะห์ขั้นสูง
May 8, 2024
Lisk เปลี่ยนไปใช้ Ethereum Layer 2 อย่างเป็นทางการและเปิดตัว Core v4.0.6
รายงานข่าว เทคโนโลยี
Lisk เปลี่ยนไปใช้ Ethereum Layer 2 อย่างเป็นทางการและเปิดตัว Core v4.0.6
May 8, 2024
Meme Coins ใหม่ของเดือนพฤษภาคม 2024: 7 ตัวเลือกสำหรับแฟน Crypto
ย่อยอาหาร ตลาด เทคโนโลยี
Meme Coins ใหม่ของเดือนพฤษภาคม 2024: 7 ตัวเลือกสำหรับแฟน Crypto
May 8, 2024
CRYPTOMERIA LABS PTE. บจก.