Nagturo ang mga AI Researcher ng Malaking Modelo ng Wika para Magsinungaling
Ang pagtutulungang pagsisikap na kinasasangkutan ng mahigit 20 mananaliksik mula sa magkakaibang sulok ng larangan ay nagsilang ng isang umuusbong na domain - engineering ng representasyon (RepE). Bagama't hindi ito ang unang pagsaliksik sa uri nito, ang mga may-akda ay nagpapakita ng parehong mapaglarawang mga insight at nagtatatag ng mga mahahalagang benchmark.
Kaya, ano nga ba ang representasyon ng engineering? Umiikot ito sa paniwala na ang mga neural network ay nagtataglay ng "mga nakatagong estado," na, sa kabila ng kanilang pangalan, ay hindi nababalot ng lihim. Ang mga estadong ito ay naa-access, nababago, at napapansin (kung ang isa ay may access sa mga timbang ng modelo). Hindi tulad ng mga parameter, ito ang mga "reaksyon" ng network sa mga partikular na input, partikular sa kaso ng Mga LLM, mga text na input. Ang mga nakatagong representasyong ito ay parang mga bintana sa pag-iisip ng modelo, isang tampok na kakaiba sa utak ng tao.
Ang pagguhit ng mga kahanay sa nagbibigay-malay na agham, ang mga may-akda ay nagha-highlight ng potensyal para sa mga katulad na paggalugad. Sa larangan ng mga pag-activate ng neural, isang domain na kahalintulad sa mga neuron ng utak, ay naninirahan sa pangako ng kahulugan. Kung paanong ang ilang mga neuron sa utak ng tao ay naka-link sa mga konsepto tulad ng Canada o katapatan, ang mga pag-activate na ito ay maaaring magkaroon ng mga insight.
Ang pangunahing ideya dito ay upang matukoy kung paano natin maiimpluwensyahan ang mga neural na pag-activate na ito upang patnubayan ang modelo sa nais na mga direksyon. Halimbawa, nagiging posible na matukoy ang isang vector na kumakatawan sa "katapatan" at pagkatapos, ayon sa teorya, sa pamamagitan ng pag-usad sa modelo sa direksyong ito, bawasan ang posibilidad na makagawa ito ng mga mapanlinlang na output. Isang naunang eksperimento, "Inference-Time Intervention: Pagkuha ng Mga Makatotohanang Sagot mula sa Modelo ng Wika,” ipinakita ang pagiging praktikal ng konseptong ito.
Sa kanilang kasalukuyang gawain, ang mga mananaliksik ay sumasalamin sa ilang mga domain, kabilang ang moralidad, emosyonalidad, hindi nakakapinsala, at memorization. Nagmumungkahi sila ng solusyon sa anyo ng LoRRA (Low-Rank Representation Adaptation), isang diskarteng nagsasangkot ng pagsasanay sa isang maliit na naka-label na dataset ng humigit-kumulang 100 halimbawa. Ang bawat halimbawa ay naka-annotate, na nagsasaad ng mga katangian tulad ng kasinungalingan (bagama't may isang alternatibong diskarte na gumagamit ng prompt).
Ang mga resulta ay nakakahimok. LLAMA-2-70B lumampas GPT-4 sa pamamagitan ng isang kapansin-pansing margin sa TruthfulQA benchmark, na nakakamit ng halos sampung porsiyentong mas mahusay na katumpakan (59% kumpara sa humigit-kumulang 69%). Bukod pa rito, ang mga mananaliksik ay nagsama ng maraming mga halimbawa na nagpapakita ng mga pagbabago ng tugon ng modelo sa iba't ibang direksyon, na nagbibigay-liwanag sa kanyang kakayahang umangkop at kakayahang umangkop.
Ang pangunguna na diskarte na ito ay naglalaman ng isang alternatibong landas patungo sa pagkakahanay ng modelo, habang kasabay na nag-aalok ng nobelang pananaw sa interpretasyon at kontrol ng modelo. Ito ay isang promising frontier, at ang pag-asam para sa patuloy na ebolusyon nito ay kapansin-pansin.
Para sa mas malalim na paggalugad na may mga praktikal na halimbawa, maaari mong bisitahin ang kanilang nakatuong website: AI-Transparency.org.
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.
Mas marami pang artikuloSi Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.