Hunyo 12, 2023

Nangungunang 30+ Mga Modelo ng Transformer sa AI: Ano Sila at Paano Sila Gumagana

Na-publish: Hunyo 12, 2023 sa 6:52 am Na-update: Hunyo 12, 2023 sa 6:52 am

Na-edit at na-fact check: Hunyo 12, 2023 nang 6:52 am

Sa nakalipas na mga buwan, maraming mga modelo ng Transformer ang lumitaw sa AI, bawat isa ay may natatangi at kung minsan ay nakakatuwang mga pangalan. Gayunpaman, ang mga pangalang ito ay maaaring hindi magbigay ng maraming insight sa kung ano talaga ang ginagawa ng mga modelong ito. Nilalayon ng artikulong ito na magbigay ng komprehensibo at direktang listahan ng mga pinakasikat na modelo ng Transformer. Uuriin nito ang mga modelong ito at ipakikilala rin ang mahahalagang aspeto at pagbabago sa loob ng pamilyang Transformer. Sasaklawin ng nangungunang listahan mga modelong sinanay sa pamamagitan ng self-supervised learning, tulad ng BERT o GPT-3, pati na rin ang mga modelong sumasailalim sa karagdagang pagsasanay na may pakikilahok ng tao, gaya ng InstructGPT modelong ginamit ng ChatGPT.

Pinasasalamatan: Metaverse Post (mpost.io)

Mga Tip sa Pro
Ang gabay na ito ay idinisenyo upang magbigay ng komprehensibong kaalaman at praktikal na kasanayan sa agarang engineering para sa mga nagsisimula hanggang sa mga advanced na mag-aaral.
Mayroong maraming mga kurso magagamit para sa mga indibidwal na gustong matuto nang higit pa tungkol sa AI at sa mga kaugnay nitong teknolohiya.
Tingnan ang nangungunang 10+ AI accelerators na inaasahang mangunguna sa merkado sa mga tuntunin ng pagganap.

Talaan ng nilalaman

Ano ang mga Transformer sa AI?
Ano ang mga Encoder at Decoder sa AI?
Ano ang Attention Layers sa AI?
Ano ang mga Fine-tuned na Modelo sa AI?
Bakit ang Transformers ang kinabukasan ng AI?
3 Uri ng Pretraining Architecture
8 Mga Uri ng Gawain para sa Mga Pre-trained na Modelo
Nangungunang 30+ Transformer sa AI
FAQs

Ano ang mga Transformer sa AI?

Ang mga transformer ay isang uri ng deep learning models na ipinakilala sa isang research paper na tinatawag na “Atensyon lang ang Kailangan mo” ng mga mananaliksik ng Google noong 2017. Ang papel na ito ay nakakuha ng napakalaking pagkilala, na nakaipon ng mahigit 38,000 citation sa loob lamang ng limang taon.

Ang orihinal na arkitektura ng Transformer ay isang partikular na anyo ng mga modelo ng encoder-decoder na naging popular bago ang pagpapakilala nito. Ang mga modelong ito ay higit na umaasa LSTM at iba pang mga variation ng Recurrent Neural Networks (Mga RN), na ang atensyon ay isa lamang sa mga mekanismong ginamit. Gayunpaman, ang papel ng Transformer ay nagmungkahi ng isang rebolusyonaryong ideya na ang atensyon ay maaaring magsilbi bilang ang tanging mekanismo upang magtatag ng mga dependency sa pagitan ng input at output.

Ano ang mga Transformer sa AI? — Pinasasalamatan: dominodatalab.com

Sa konteksto ng Transformers, ang input ay binubuo ng isang sequence ng mga token, na maaaring mga salita o subword sa natural na pagpoproseso ng wika (NLP). Ang mga subword ay karaniwang ginagamit sa mga modelo ng NLP upang tugunan ang isyu ng mga salitang wala sa bokabularyo. Ang output ng encoder ay gumagawa ng fixed-dimensional na representasyon para sa bawat token, kasama ang isang hiwalay na pag-embed para sa buong sequence. Kinukuha ng decoder ang output ng encoder at bumubuo ng sequence ng mga token bilang output nito.

Dahil ang paglalathala ng Transformer papel, popular na mga modelo tulad ng SI BERT at GPT ay nagpatibay ng mga aspeto ng orihinal na arkitektura, alinman sa paggamit ng mga bahagi ng encoder o decoder. Ang pangunahing pagkakatulad sa pagitan ng mga modelong ito ay nakasalalay sa arkitektura ng layer, na nagsasama ng mga mekanismo ng self-attention at feed-forward na mga layer. Sa Transformers, ang bawat input token ay dumadaan sa sarili nitong landas sa mga layer habang pinapanatili ang mga direktang dependency sa bawat iba pang token sa input sequence. Ang natatanging tampok na ito ay nagbibigay-daan para sa parallel at mahusay na pag-compute ng mga representasyon ng token sa konteksto, isang kakayahang hindi magagawa sa mga sunud-sunod na modelo tulad ng mga RNN.

Habang ang artikulong ito ay nangungulit lamang sa ibabaw ng arkitektura ng Transformer, nagbibigay ito ng isang sulyap sa mga pangunahing aspeto nito. Para sa isang mas komprehensibong pag-unawa, inirerekomenda namin ang pagsangguni sa orihinal na papel ng pananaliksik o post na The Illustrated Transformer.

Ano ang mga Encoder at Decoder sa AI?

Isipin na mayroon kang dalawang modelo, isang encoder at isang decoder, magkasamang gumagana parang isang team. Ang encoder ay kumukuha ng input at ginagawa itong fixed-length vector. Pagkatapos, kinukuha ng decoder ang vector na iyon at binago ito sa isang output sequence. Ang mga modelong ito ay sinanay nang magkasama upang matiyak na ang output ay tumutugma sa input nang malapit hangga't maaari.

Parehong may ilang layer ang encoder at decoder. Ang bawat layer sa encoder ay may dalawang sub layer: isang multi-head na self-attention layer at isang simpleng feed forward network. Ang layer ng pansin sa sarili ay tumutulong sa bawat token sa input na maunawaan ang mga ugnayan sa lahat ng iba pang mga token. Ang mga sublayer na ito ay mayroon ding natitirang koneksyon at isang layer normalization upang gawing mas maayos ang proseso ng pag-aaral.

Ang multi-head ng decoder layer ng pansin sa sarili gumagana ng medyo naiiba mula sa isa sa encoder. Tinatakpan nito ang mga token sa kanan ng token na tinututukan nito. Tinitiyak nito na tinitingnan lang ng decoder ang mga token na nauuna bago ang sinusubukan nitong hulaan. Ang naka-mask na multi-head na atensyon na ito ay tumutulong sa decoder na makabuo ng mga tumpak na hula. Bukod pa rito, ang decoder ay may kasamang isa pang sublayer, na isang multi-head na layer ng atensyon sa lahat ng mga output mula sa encoder.

Mahalagang tandaan na ang mga partikular na detalyeng ito ay nabago sa iba't ibang variation ng modelo ng Transformer. Mga modelo tulad ng BERT at GPT, halimbawa, ay batay sa alinman sa encoder o decoder na aspeto ng orihinal na arkitektura.

Ano ang Attention Layers sa AI?

Sa arkitektura ng modelo na tinalakay natin kanina, ang mga multi-head na layer ng atensyon ay ang mga espesyal na elemento na nagpapalakas dito. Ngunit ano nga ba ang atensyon? Isipin ito bilang isang function na nagmamapa ng tanong sa isang set ng impormasyon at nagbibigay ng output. Ang bawat token sa input ay may query, key, at value na nauugnay dito. Ang representasyon ng output ng bawat token ay kinakalkula sa pamamagitan ng pagkuha ng isang timbang na kabuuan ng mga halaga, kung saan ang bigat para sa bawat halaga ay natutukoy sa pamamagitan ng kung gaano ito tumutugma sa query.

Gumagamit ang mga transformer ng compatibility function na tinatawag na scaled dot product para kalkulahin ang mga timbang na ito. Ang kawili-wiling bagay tungkol sa atensyon sa Transformers ay ang bawat token ay dumadaan sa sarili nitong landas ng pagkalkula, na nagbibigay-daan para sa parallel na pag-compute ng lahat ng mga token sa input sequence. Ito ay simpleng maramihang mga bloke ng atensyon na independiyenteng nagkalkula ng mga representasyon para sa bawat token. Ang mga representasyong ito ay pagkatapos ay pinagsama upang lumikha ng panghuling representasyon ng token.

Kumpara sa ibang uri ng network tulad ng recurrent at convolutional network, ang mga layer ng pansin ay may ilang mga pakinabang. Ang mga ito ay mahusay sa pagkalkula, ibig sabihin ay mabilis nilang maiproseso ang impormasyon. Mayroon din silang mas mataas na koneksyon, na kapaki-pakinabang para sa pagkuha ng mga pangmatagalang relasyon sa mga pagkakasunud-sunod.

Ano ang mga Fine-tuned na Modelo sa AI?

Mga modelo ng pundasyon ay mga makapangyarihang modelo na sinanay sa isang malaking halaga ng pangkalahatang data. Ang mga ito ay maaaring iakma o maayos para sa mga partikular na gawain sa pamamagitan ng pagsasanay sa kanila sa isang mas maliit na hanay ng mga data na tukoy sa target. Ang pamamaraang ito, na pinasikat ng BERT papel, ay humantong sa pangingibabaw ng mga modelong nakabatay sa Transformer sa mga gawain sa machine learning na nauugnay sa wika.

Sa kaso ng mga modelo tulad ng BERT, gumagawa sila ng mga representasyon ng mga input token ngunit hindi nila nagagawa ang mga partikular na gawain sa kanilang sarili. Upang gawing kapaki-pakinabang ang mga ito, karagdagang mga layer ng neural ay idinagdag sa itaas at ang modelo ay sinanay na end-to-end, isang prosesong kilala bilang fine-tuning. Gayunpaman, kasama generative na mga modelo gaya ng GPT, ang diskarte ay bahagyang naiiba. GPT ay isang modelo ng wika ng decoder na sinanay upang mahulaan ang susunod na salita sa isang pangungusap. Sa pamamagitan ng pagsasanay sa napakaraming data sa web, GPT maaaring makabuo ng mga makatwirang output batay sa mga query sa input o senyas.

Upang gumawa GPT mas nakakatulong, OpenAI binuo ng mga mananaliksik TagubilinGPT, na sinanay na sumunod sa mga tagubilin ng tao. Ito ay nakakamit sa pamamagitan ng fine-tuning GPT gamit ang data na may label na tao mula sa iba't ibang gawain. IturoGPT ay may kakayahang magsagawa ng malawak na hanay ng mga gawain at ginagamit ng mga sikat na makina tulad ng ChatGPT.

Magagamit din ang fine-tuning para gumawa ng mga variant ng mga foundation model na na-optimize para sa mga tiyak na layunin lampas sa pagmomodelo ng wika. Halimbawa, may mga modelong pinino para sa mga gawaing nauugnay sa semantiko tulad ng pag-uuri ng teksto at paghahanap ng paghahanap. Bukod pa rito, matagumpay na naayos ang mga transformer encoder sa loob ng multi-task mga balangkas ng pag-aaral upang magsagawa ng maraming semantic na gawain gamit ang isang nakabahaging modelo.

Sa ngayon, ginagamit ang fine-tuning upang lumikha ng mga bersyon ng mga modelo ng pundasyon na maaaring gamitin ng malaking bilang ng mga user. Ang proseso ay nagsasangkot ng pagbuo ng mga tugon sa input senyales at pagkakaroon ng mga tao sa pagraranggo ng mga resulta. Ang ranggo na ito ay ginagamit upang sanayin ang a modelo ng gantimpala, na nagtatalaga ng mga marka sa bawat output. Pagpapalakas ng pag-aaral gamit ang feedback ng tao pagkatapos ay ginagamit upang higit pang sanayin ang modelo.

Bakit ang Transformers ang kinabukasan ng AI?

Ang mga transformer, isang uri ng makapangyarihang modelo, ay unang ipinakita sa larangan ng pagsasalin ng wika. Gayunpaman, mabilis na napagtanto ng mga mananaliksik na ang mga Transformer ay maaaring gamitin para sa iba't ibang mga gawaing nauugnay sa wika sa pamamagitan ng pagsasanay sa kanila sa isang malaking halaga ng walang label na teksto at pagkatapos ay pino-pino ang mga ito sa isang mas maliit na hanay ng may label na data. Ang pamamaraang ito ay nagbigay-daan sa mga Transformer na makakuha ng makabuluhang kaalaman tungkol sa wika.

Ang arkitektura ng Transformer, na orihinal na idinisenyo para sa mga gawain sa wika, ay inilapat din sa iba pang mga application tulad ng pagbuo ng mga imahe, audio, musika, at kahit na mga aksyon. Dahil dito, ang mga Transformer ay naging pangunahing bahagi sa larangan ng Generative AI, na nagbabago sa iba't ibang aspeto ng lipunan.

Ang pagkakaroon ng mga tool at frameworks tulad ng PyTorch at TensorFlow ay may mahalagang papel sa malawakang paggamit ng mga modelo ng Transformer. Ang mga kumpanya tulad ng Huggingface ay nagtayo ng kanilang negosyo sa paligid ng ideya ng pagkokomersyal ng mga open-source na aklatan ng Transformer, at ang espesyal na hardware tulad ng Hopper Tensor Cores ng NVIDIA ay lalong nagpabilis sa pagsasanay at bilis ng hinuha ng mga modelong ito.

Ang isang kilalang aplikasyon ng mga Transformer ay ChatGPT, isang chatbot na inilabas ni OpenAI. Ito ay naging napakapopular, na umaabot sa milyun-milyong user sa maikling panahon. OpenAI ay inihayag din ang pagpapalabas ng GPT-4, isang mas malakas na bersyon na may kakayahang makamit ang pagganap na tulad ng tao sa mga gawain tulad ng medikal at legal na pagsusulit.

Ang epekto ng mga Transformer sa larangan ng AI at ang kanilang malawak na hanay ng mga aplikasyon ay hindi maikakaila. Meron sila binago ang paraan lumalapit kami sa mga gawaing nauugnay sa wika at nagbibigay daan para sa mga bagong pagsulong sa generative AI.

3 Uri ng Pretraining Architecture

Ang arkitektura ng Transformer, na orihinal na binubuo ng isang Encoder at isang Decoder, ay umunlad upang isama ang iba't ibang mga pagkakaiba-iba batay sa mga partikular na pangangailangan. Hatiin natin ang mga pagkakaiba-iba na ito sa mga simpleng termino.

Pretraining ng Encoder: Nakatuon ang mga modelong ito sa pag-unawa sa mga kumpletong pangungusap o sipi. Sa panahon ng pretraining, ginagamit ang encoder upang buuin muli ang mga naka-mask na token sa input sentence. Tinutulungan nito ang modelo na matutong maunawaan ang pangkalahatang konteksto. Ang ganitong mga modelo ay kapaki-pakinabang para sa mga gawain tulad ng pag-uuri ng teksto, entailment, at pagkuha ng sagot sa tanong.
Pretraining ng Decoder: Ang mga modelo ng decoder ay sinanay upang bumuo ng susunod na token batay sa nakaraang pagkakasunud-sunod ng mga token. Ang mga ito ay kilala bilang mga auto-regressive na modelo ng wika. Ang mga layer ng pansin sa sarili sa decoder ay maaari lamang mag-access ng mga token bago ang isang ibinigay na token sa pangungusap. Ang mga modelong ito ay perpekto para sa mga gawaing kinasasangkutan ng pagbuo ng teksto.
Transformer (Encoder-Decoder) Pretraining: Pinagsasama ng variation na ito ang mga bahagi ng encoder at decoder. Maa-access ng mga layer ng self-attention ng encoder ang lahat ng input token, habang ang mga layer ng self-attention ng decoder ay makaka-access lang ng mga token bago ang isang ibinigay na token. Ang arkitektura na ito ay nagbibigay-daan sa decoder na gamitin ang mga representasyong natutunan ng encoder. Ang mga modelo ng encoder-decoder ay angkop para sa mga gawain tulad ng pagbubuod, pagsasalin, o pagbuo ng pagsagot sa tanong.

Ang mga layunin ng pretraining ay maaaring may kasamang denoising o sanhi ng pagmomodelo ng wika. Ang mga layuning ito ay mas kumplikado para sa mga modelong encoder-decoder kumpara sa mga modelong encoder-only o decoder-only. Ang arkitektura ng Transformer ay may iba't ibang mga pagkakaiba-iba depende sa pokus ng modelo. Pag-unawa man sa mga kumpletong pangungusap, pagbuo ng text, o pagsasama-sama ng pareho para sa iba't ibang gawain, nag-aalok ang Transformers ng flexibility sa pagtugon sa iba't ibang hamon na nauugnay sa wika.

8 Mga Uri ng Gawain para sa Mga Pre-trained na Modelo

Kapag nagsasanay ng isang modelo, kailangan nating bigyan ito ng isang gawain o layunin upang matutunan. Mayroong iba't ibang mga gawain sa natural na pagpoproseso ng wika (NLP) na maaaring magamit para sa mga modelo ng pretraining. Hatiin natin ang ilan sa mga gawaing ito sa mga simpleng termino:

Language Modeling (LM): Ang modelo ay hinuhulaan ang susunod na token sa isang pangungusap. Natututo itong maunawaan ang konteksto at bumuo ng magkakaugnay na mga pangungusap.
Causal Language Modeling: Ang modelo ay hinuhulaan ang susunod na token sa isang text sequence, kasunod ng kaliwa-papuntang-kanang pagkakasunud-sunod. Ito ay tulad ng isang modelo ng pagkukuwento na bumubuo ng mga pangungusap sa isang salita sa isang pagkakataon.
Pagmomodelo ng Wika ng Prefix: Ang modelo ay naghihiwalay ng seksyong 'prefix' mula sa pangunahing sequence. Maaari itong dumalo sa anumang token sa loob ng prefix, at pagkatapos ay bubuo ng natitirang bahagi ng sequence nang autoregressive.
Masked Language Modeling (MLM): Ang ilang mga token sa input na mga pangungusap ay naka-mask, at hinuhulaan ng modelo ang mga nawawalang token batay sa nakapaligid na konteksto. Natututo itong punan ang mga patlang.
Permuted Language Modeling (PLM): Hinuhulaan ng modelo ang susunod na token batay sa isang random na permutation ng input sequence. Natututo itong pangasiwaan ang iba't ibang order ng mga token.
Denoising Autoencoder (DAE): Ang modelo ay kumukuha ng isang bahagyang sira na input at naglalayong i-recover ang orihinal, hindi nababagong input. Natututo itong humawak ng ingay o nawawalang bahagi ng teksto.
Pinalitan ang Token Detection (RTD): Nakikita ng modelo kung ang isang token ay nagmumula sa orihinal na teksto o isang nabuong bersyon. Natututo itong tukuyin ang mga pinalitan o manipulahin na mga token.
Next Sentence Prediction (NSP): Natututo ang modelo na makilala kung ang dalawang input na pangungusap ay tuluy-tuloy na mga segment mula sa data ng pagsasanay. Nauunawaan nito ang kaugnayan sa pagitan ng mga pangungusap.

Ang mga gawaing ito ay tumutulong sa modelo na matutunan ang istruktura at kahulugan ng wika. Sa pamamagitan ng pretraining sa mga gawaing ito, ang mga modelo ay nakakakuha ng isang mahusay na pag-unawa sa wika bago maging maayos para sa mga partikular na aplikasyon.

Nangungunang 30+ Transformer sa AI

Pangalan	Pretraining na Arkitektura	Gawain	application	Binuo ng
ALBERT	encoder	MLM/NSP	Katulad ni BERT	Google
Alpaca	Decoder	LM	Mga gawain sa pagbuo ng teksto at pag-uuri	Stanford
AlphaFold	encoder	Protein na natitiklop na hula	Pagtitiklop ng protina	Deep Mind
Anthropic Assistant (tingnan din)	Decoder	LM	Mula sa pangkalahatang dialog hanggang sa code assistant.	Antropiko
BART	Encoder/Decoder	DAE	Mga gawain sa pagbuo ng teksto at pag-unawa sa teksto	Facebook
SI BERT	encoder	MLM/NSP	Pag-unawa sa Wika at Pagsagot sa Tanong	Google
BlenderBot 3	Decoder	LM	Mga gawain sa pagbuo ng teksto at pag-unawa sa teksto	Facebook
BLOOM	Decoder	LM	Mga gawain sa pagbuo ng teksto at pag-unawa sa teksto	Big Science/Huggingface
ChatGPT	Decoder	LM	Mga ahente ng diyalogo	OpenAI
tsintsila	Decoder	LM	Mga gawain sa pagbuo ng teksto at pag-unawa sa teksto	Deep Mind
CLIP	encoder		Pag-uuri ng Larawan/Bagay	OpenAI
CTRL	Decoder		Nakokontrol na pagbuo ng teksto	Salesforce
TILAD	Decoder	Hula ng caption	Teksto sa larawan	OpenAI
DALL-E-2	Encoder/Decoder	Hula ng caption	Teksto sa larawan	OpenAI
DeBERTa	Decoder	MLM	Katulad ni BERT	microsoft
Mga Transformer ng Desisyon	Decoder	Hula ng susunod na aksyon	Pangkalahatang RL (reinforcement learning tasks)	Google/UC Berkeley/FAIR
DialoGPT	Decoder	LM	Pagbuo ng teksto sa mga setting ng dialog	microsoft
DistilBERT	encoder	MLM/NSP	Pag-unawa sa Wika at Pagsagot sa Tanong	huggingface
DQ-BART	Encoder/Decoder	DAE	Pagbuo ng teksto at pag-unawa	Birago
Manika	Decoder	LM	Mga gawain sa pagbuo ng teksto at pag-uuri	Databricks, Inc
ERNIE	encoder	MLM	Mga gawaing nauugnay sa masinsinang kaalaman	Iba't ibang institusyong Tsino
Plaminggo	Decoder	Hula ng caption	Teksto sa larawan	Deep Mind
Galactica	Decoder	LM	Scientific QA, mathematical reasoning, summarization, document generation, molecular property prediction at entity extraction.	meta
LABAN	encoder	Hula ng caption	Teksto sa larawan	OpenAI
GPT-3.5	Decoder	LM	Dialog at pangkalahatang wika	OpenAI
GPTTagubilin	Decoder	LM	Diyalogo o mga gawain sa wika na masinsinang kaalaman	OpenAI
HTML	Encoder/Decoder	DAE	Modelo ng wika na nagbibigay-daan sa structured HTML na pag-prompt	Facebook
Larawan	T5	Hula ng caption	Teksto sa larawan	Google
LAMDA	Decoder	LM	Pangkalahatang pagmomodelo ng wika	Google
LLaMA	Decoder	LM	Commonsense reasoning, Question answering, Code generation at Reading comprehension.	meta
Minerba	Decoder	LM	Pangangatwiran sa matematika	Google
palad	Decoder	LM	Pag-unawa sa wika at henerasyon	Google
ROBERTa	encoder	MLM	Pag-unawa sa Wika at Pagsagot sa Tanong	UW/Google
Sparrow	Decoder	LM	Mga ahente ng dialogo at mga pangkalahatang application sa pagbuo ng wika tulad ng Q&A	Deep Mind
StableDiffusion	Encoder/Decoder	Hula ng Caption	Teksto sa larawan	LMU Munich + Stability.ai + Eleuther.ai
Vicuna	Decoder	LM	Mga ahente ng diyalogo	UC Berkeley, CMU, Stanford, UC San Diego, at MBZUAI

FAQs

Ang mga transformer sa AI ay isang uri ng malalim na pag-aaral ng arkitektura na nagbago ng natural na pagproseso ng wika at iba pang mga gawain. Gumagamit sila ng mga mekanismo ng pansariling pansin upang makuha ang mga ugnayan sa pagitan ng mga salita sa isang pangungusap, na nagbibigay-daan sa kanila na maunawaan at makabuo ng tekstong tulad ng tao.

Ang mga encoder at decoder ay mga sangkap na karaniwang ginagamit sa mga modelong magkakasunod-sunod. Pinoproseso ng mga encoder ang data ng pag-input, gaya ng teksto o mga larawan, at kino-convert ito sa isang naka-compress na representasyon, habang ang mga decoder ay bumubuo ng data ng output batay sa naka-encode na representasyon, na nagpapagana ng mga gawain tulad ng pagsasalin ng wika o pag-caption ng larawan.

Ang mga layer ng pansin ay mga sangkap na ginagamit sa neural network, lalo na sa mga modelo ng Transformer. Binibigyang-daan nila ang modelo na piliing tumutok sa iba't ibang bahagi ng pagkakasunud-sunod ng pag-input, na nagtatalaga ng mga timbang sa bawat elemento batay sa kaugnayan nito, na nagbibigay-daan sa pagkuha ng mga dependency at relasyon sa pagitan ng mga elemento nang epektibo.

Ang mga fine-tuned na modelo ay tumutukoy sa mga pre-trained na modelo na higit pang sinanay sa isang partikular na gawain o dataset upang mapabuti ang kanilang performance at iakma ang mga ito sa mga partikular na kinakailangan ng gawaing iyon. Kasama sa prosesong ito ng fine-tuning ang pagsasaayos ng mga parameter ng modelo upang ma-optimize ang mga hula nito at gawin itong mas dalubhasa para sa target na gawain.

Ang mga transformer ay itinuturing na hinaharap ng AI dahil nagpakita sila ng pambihirang pagganap sa isang malawak na hanay ng mga gawain, kabilang ang natural na pagpoproseso ng wika, pagbuo ng imahe, at higit pa. Ang kanilang kakayahang kumuha ng mga malayuang dependency at maproseso ang sunud-sunod na data nang mahusay na ginagawa silang lubos na madaling ibagay at epektibo para sa iba't ibang mga aplikasyon, na nagbibigay ng daan para sa mga pagsulong sa generative AI at pagbabago ng maraming aspeto ng lipunan.

Ang pinakasikat na mga modelo ng transformer sa AI ay kinabibilangan ng BERT (Bidirectional Encoder Representations mula sa Transformers), GPT (Generative Pre-trained Transformer), at T5 (Text-to-Text Transfer Transformer). Nakamit ng mga modelong ito ang mga kahanga-hangang resulta sa iba't ibang gawain sa pagproseso ng natural na wika at nakakuha ng makabuluhang katanyagan sa komunidad ng pananaliksik ng AI.

Magbasa pa tungkol sa AI:

Tags:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.

Mas marami pang artikulo

Damir Yalalov

Hot Stories

Tuklasin ang Crypto Whales: Sino ang Sino sa Market

by Viktoriia Palchik

Mayo 07, 2024

Ang Orbiter Finance ay Nakipagsosyo Sa Bitcoin Layer 2 Zulu Network At Nag-deploy Sa Is Lwazi Testnet

by Alisa Davidson

Mayo 07, 2024

Isinasama ng Crypto Exchange Bybit ang USDe ng Ethena Labs Bilang Collateral Asset, Pinapagana ang BTC-USDe At ETH-USDe Trading Pairs

by Alisa Davidson

Mayo 07, 2024

Ipinakilala ng Bitget Wallet ang GetDrop Airdrop Platform At Inilunsad ang Unang Meme Coin Event na May $130,000 Prize Pool

by Alisa Davidson

Mayo 07, 2024

Pinakabagong Balita

Ang Orbiter Finance ay Nakipagsosyo Sa Bitcoin Layer 2 Zulu Network At Nag-deploy Sa Is Lwazi Testnet

by Alisa Davidson

Mayo 07, 2024

Isinasama ng Crypto Exchange Bybit ang USDe ng Ethena Labs Bilang Collateral Asset, Pinapagana ang BTC-USDe At ETH-USDe Trading Pairs

by Alisa Davidson

Mayo 07, 2024

Ipinakilala ng Bitget Wallet ang GetDrop Airdrop Platform At Inilunsad ang Unang Meme Coin Event na May $130,000 Prize Pool

by Alisa Davidson

Mayo 07, 2024

Binibigyang-daan ng Meson Network ang mga Crypto Miners na Makakuha ng Mga Token Sa pamamagitan ng Pagmimina. Airdrops At Ang mga Programa sa Pagbili ay Paparating na

by Alisa Davidson

Mayo 07, 2024

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa