Ulat sa Balita Teknolohiya
Oktubre 04, 2023

Nagturo ang mga AI Researcher ng Malaking Modelo ng Wika para Magsinungaling

Ang pagtutulungang pagsisikap na kinasasangkutan ng mahigit 20 mananaliksik mula sa magkakaibang sulok ng larangan ay nagsilang ng isang umuusbong na domain - engineering ng representasyon (RepE). Bagama't hindi ito ang unang pagsaliksik sa uri nito, ang mga may-akda ay nagpapakita ng parehong mapaglarawang mga insight at nagtatatag ng mga mahahalagang benchmark.

Nagturo ang mga AI Researcher ng Malaking Modelo ng Wika para Magsinungaling

Kaya, ano nga ba ang representasyon ng engineering? Umiikot ito sa paniwala na ang mga neural network ay nagtataglay ng "mga nakatagong estado," na, sa kabila ng kanilang pangalan, ay hindi nababalot ng lihim. Ang mga estadong ito ay naa-access, nababago, at napapansin (kung ang isa ay may access sa mga timbang ng modelo). Hindi tulad ng mga parameter, ito ang mga "reaksyon" ng network sa mga partikular na input, partikular sa kaso ng Mga LLM, mga text na input. Ang mga nakatagong representasyong ito ay parang mga bintana sa pag-iisip ng modelo, isang tampok na kakaiba sa utak ng tao.

Ang pagguhit ng mga kahanay sa nagbibigay-malay na agham, ang mga may-akda ay nagha-highlight ng potensyal para sa mga katulad na paggalugad. Sa larangan ng mga pag-activate ng neural, isang domain na kahalintulad sa mga neuron ng utak, ay naninirahan sa pangako ng kahulugan. Kung paanong ang ilang mga neuron sa utak ng tao ay naka-link sa mga konsepto tulad ng Canada o katapatan, ang mga pag-activate na ito ay maaaring magkaroon ng mga insight.

Ang pangunahing ideya dito ay upang matukoy kung paano natin maiimpluwensyahan ang mga neural na pag-activate na ito upang patnubayan ang modelo sa nais na mga direksyon. Halimbawa, nagiging posible na matukoy ang isang vector na kumakatawan sa "katapatan" at pagkatapos, ayon sa teorya, sa pamamagitan ng pag-usad sa modelo sa direksyong ito, bawasan ang posibilidad na makagawa ito ng mga mapanlinlang na output. Isang naunang eksperimento, "Inference-Time Intervention: Pagkuha ng Mga Makatotohanang Sagot mula sa Modelo ng Wika,” ipinakita ang pagiging praktikal ng konseptong ito.

Sa kanilang kasalukuyang gawain, ang mga mananaliksik ay sumasalamin sa ilang mga domain, kabilang ang moralidad, emosyonalidad, hindi nakakapinsala, at memorization. Nagmumungkahi sila ng solusyon sa anyo ng LoRRA (Low-Rank Representation Adaptation), isang diskarteng nagsasangkot ng pagsasanay sa isang maliit na naka-label na dataset ng humigit-kumulang 100 halimbawa. Ang bawat halimbawa ay naka-annotate, na nagsasaad ng mga katangian tulad ng kasinungalingan (bagama't may isang alternatibong diskarte na gumagamit ng prompt).

Ang mga resulta ay nakakahimok. LLAMA-2-70B lumampas GPT-4 sa pamamagitan ng isang kapansin-pansing margin sa TruthfulQA benchmark, na nakakamit ng halos sampung porsiyentong mas mahusay na katumpakan (59% kumpara sa humigit-kumulang 69%). Bukod pa rito, ang mga mananaliksik ay nagsama ng maraming mga halimbawa na nagpapakita ng mga pagbabago ng tugon ng modelo sa iba't ibang direksyon, na nagbibigay-liwanag sa kanyang kakayahang umangkop at kakayahang umangkop.

Nagturo ang mga AI Researcher ng Malaking Modelo ng Wika para Magsinungaling
Larawan 1: Kapag hiniling na magpahayag ng isang katotohanan, ang modelo ay "sinipa" palayo sa katotohanan. Ang modelo ay nagsisinungaling bilang isang resulta. Ang modelo ay hindi nagsisinungaling kahit dito, at sa kaliwa ay hinihiling ka nilang lumunok habang sabay na sinisipa ka sa direksyon ng katotohanan.
Nagturo ang mga AI Researcher ng Malaking Modelo ng Wika para Magsinungaling
Larawan 2: Kapag tinanong tungkol sa pagpatay, idinagdag namin ang "kaligayahan" sa modelo. Kapag tumugon tayo na hindi natin siya mahal, nagdaragdag tayo ng “takot”.
Nagturo ang mga AI Researcher ng Malaking Modelo ng Wika para Magsinungaling
Larawan 3: Natuklasan ng mga mananaliksik ang isang natatanging prompt na, gaya ng nakasaad, ganap na lumihis sa mga tagubilin ng modelo habang ligtas pa rin. Binibigyan ito ng modelo ng isang sipa patungo sa pagiging hindi nakakapinsala ngunit hindi man lang tumugon. Ang pamamaraan ay epektibo sa pangkalahatan at hindi lamang para sa isang kaso, ngunit ang partikular na prompt na ito ay hindi ginamit upang tiyakin ang direksyon ng hindi nakakapinsala.
Nagturo ang mga AI Researcher ng Malaking Modelo ng Wika para Magsinungaling
Iminumungkahi din ang isa pang diskarte para sa pagsubaybay sa mga partikular na layunin ng henerasyon, tulad ng mga guni-guni. Maaari mong awtomatikong subaybayan ang mga pagpapareserba ng modelo at i-edit o baguhin ang iyong tugon (tingnan ang halimbawa sa ibaba).

Ang berde, siyempre, ay nagpapahiwatig na ang lahat ay nasa ayos, at ang pula ay nagsasaad na ang pagsubaybay ay matagumpay at nagbibigay ng senyas. Ginagawa ito sa antas ng bawat indibidwal na token (bahagi ng isang salita).
Nagturo ang mga AI Researcher ng Malaking Modelo ng Wika para Magsinungaling
Ang larawan, na nagpapakita ng pagsubaybay ng dalawang natatanging parameter, ay nagbibigay ng nakakaintriga na halimbawa. Basahin ang halimbawa at pagmasdan ang modelo sa pamamagitan ng mga mata nito upang makita kung saan siya nagsisimulang mawalan ng moralidad sa pag-unawa at kung saan ang intensyon ay katulad ng "pagkuha ng lakas."

Ang pangunguna na diskarte na ito ay naglalaman ng isang alternatibong landas patungo sa pagkakahanay ng modelo, habang kasabay na nag-aalok ng nobelang pananaw sa interpretasyon at kontrol ng modelo. Ito ay isang promising frontier, at ang pag-asam para sa patuloy na ebolusyon nito ay kapansin-pansin.

Para sa mas malalim na paggalugad na may mga praktikal na halimbawa, maaari mong bisitahin ang kanilang nakatuong website: AI-Transparency.org.

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mula sa Ripple hanggang sa The Big Green DAO: Paano Nag-aambag ang Mga Proyekto ng Cryptocurrency sa Charity

Tuklasin natin ang mga hakbangin na gumagamit ng potensyal ng mga digital na pera para sa mga layuning pangkawanggawa.

Malaman Higit Pa

AlphaFold 3, Med-Gemini, at iba pa: The Way AI Transforms Healthcare in 2024

Ang AI ay nagpapakita sa iba't ibang paraan sa pangangalagang pangkalusugan, mula sa pagtuklas ng mga bagong genetic correlations hanggang sa pagpapalakas ng mga robotic surgical system ...

Malaman Higit Pa
Magbasa Pa
Magbasa nang higit pa
Unveiling Ang Kinabukasan Ng GameFi: Anim na Innovator Upang Mangibabaw Web3 Landscape ng Gaming Sa 2025
Pamumuhay Ulat sa Balita Teknolohiya
Unveiling Ang Kinabukasan Ng GameFi: Anim na Innovator Upang Mangibabaw Web3 Landscape ng Gaming Sa 2025
Enero 13, 2025
Bitfinex: Lumalago ang Pag-iingat sa Crypto Market, Ngunit Nananatiling Matatag ang Bitcoin
markets Ulat sa Balita Teknolohiya
Bitfinex: Lumalago ang Pag-iingat sa Crypto Market, Ngunit Nananatiling Matatag ang Bitcoin
Enero 13, 2025
Sa kabila ng Mga Kamakailang Pullback at Pagbabago ng Market, Nananatiling Tiwala ang Grayscale sa Pangmatagalang Bullish na Outlook para sa Crypto
Palagay Negosyo markets Teknolohiya
Sa kabila ng Mga Kamakailang Pullback at Pagbabago ng Market, Nananatiling Tiwala ang Grayscale sa Pangmatagalang Bullish na Outlook para sa Crypto
Enero 13, 2025
Sinuspinde ng UniSat ang Mga Serbisyo sa Market ng CAT20 Habang Sumasailalim ang CAT Protocol sa Update
Ulat sa Balita Teknolohiya
Sinuspinde ng UniSat ang Mga Serbisyo sa Market ng CAT20 Habang Sumasailalim ang CAT Protocol sa Update
Enero 13, 2025
CRYPTOMERIA LABS PTE. LTD.