Ziņojums Tehnoloģija
Aprīlis 05, 2023

8 lietas, kas jums jāzina par lielvalodu modeļiem

Īsumā

Lieli valodu modeļi (LLM) tiek izmantoti, lai izpētītu dabiskās valodas nianses, uzlabotu mašīnu spēju saprast un ģenerēt tekstu, kā arī automatizētu tādus uzdevumus kā balss atpazīšana un mašīntulkošana.

Nav vienkārša risinājuma LLM vadīšanai, taču tie ir tikpat spējīgi kā cilvēki.

Pieaugot dabiskās valodas apstrādes attīstībai un tās izmantošanai uzņēmējdarbībā, pieaug interese par lieliem valodu modeļiem. Šie modeļi tiek izmantoti, lai izpētītu dabiskās valodas nianses, uzlabotu mašīnu spēju saprast un ģenerēt tekstu un automatizētu tādus uzdevumus kā balss atpazīšana un mašīntulkošana. Šeit ir astoņas būtiskas lietas, kas jums jāzina par lielajiem valodu modeļiem (LLM).

10 lietas, kas jums jāzina par lielvalodu modeļiem
@Midjourney / Taka#4076

LLM ir daudz “spējīgāki”, jo izmaksas turpina pieaugt

Paredzams, ka LLM kļūst “spējīgāki”, palielinoties izmaksām, pat bez lieliskām inovācijām. Šeit galvenais ir paredzamība, kas tika parādīta rakstā par GPT-4: tika mācīti pieci līdz septiņi mazi modeļi ar budžetu 0.1% no galīgā, un pēc tam, pamatojoties uz to, tika prognozēts milzīgs modelis. Lai vispārīgi novērtētu neskaidrības un metriku viena konkrēta uzdevuma apakšizlasē, šāda prognoze bija ļoti precīza. Šī paredzamība ir svarīga uzņēmumiem un organizācijām, kas savā darbībā paļaujas uz LLM, jo viņi var atbilstoši plānot budžetu un plānot turpmākos izdevumus. Tomēr ir svarīgi atzīmēt, ka, lai gan pieaugošās izmaksas var uzlabot iespējas, uzlabojumu temps galu galā var samazināties, tādējādi liekot ieguldīt jaunās inovācijās, lai turpinātu attīstību.

Īss ieskats, kā GPT modeļi pielāgojas, pieaugot apmācības izmaksām

Tomēr īpašas svarīgas prasmes mēdz neparedzami parādīties kā pieauguma blakusprodukts apmācību izmaksas (ilgāka apmācība, vairāk datu, lielāks modelis) — ir gandrīz neiespējami paredzēt, kad modeļi sāks veikt noteiktus uzdevumus. Mēs padziļināti izpētījām šo tēmu savā raksts par attīstības vēsturi GPT modeļiem. Attēlā parādīts modeļu kvalitātes pieauguma sadalījums pa dažādiem uzdevumiem. Tikai lielie modeļi var iemācīties veikt dažādus uzdevumus. Šajā diagrammā ir izcelta nozīmīgā ietekme, ko rada lieluma palielināšana GPT modeļi par viņu sniegumu dažādos uzdevumos. Tomēr ir svarīgi atzīmēt, ka tas notiek uz palielinātu skaitļošanas resursu un ietekmes uz vidi rēķina.

Īss ieskats, kā GPT modeļi pielāgojas, pieaugot apmācības izmaksām

LLM mācās spēlēt galda spēles, izmantojot ārpasaules attēlojumus

LLM bieži mācās un izmanto ārējās pasaules attēlojumus. Šeit ir daudz piemēru, un šeit ir viens no tiem: Apmācīti modeļi spēlēt galda spēles, pamatojoties uz atsevišķu gājienu aprakstiem, nekad neredzot spēles laukuma attēlu, iemācīties iekšējos priekšstatus par galda stāvokli katrā kustībā. Pēc tam šos iekšējos attēlojumus var izmantot prognozēt nākotni gājieni un rezultāti, ļaujot modelim spēlēt spēli augstā līmenī. Šī spēja mācīties un izmantot reprezentācijas ir galvenais mašīnmācības aspekts un mākslīgais intelekts.

LLM pārvaldībai nav vienkārša risinājuma

Nav uzticamu metožu, lai kontrolētu LLM uzvedību. Lai gan ir panākts zināms progress dažādu problēmu izpratnē un mazināšanā (tostarp ChatGPT un GPT-4 ar atgriezeniskās saites palīdzību), nav vienprātības par to, vai mēs varam tās atrisināt. Pieaug bažas, ka nākotnē, kad tiks izveidotas vēl lielākas sistēmas, tā kļūs par milzīgu, potenciāli katastrofālu problēmu. Tāpēc pētnieki pēta jaunas metodes, lai nodrošinātu, ka AI sistēmas atbilst cilvēka vērtībām un mērķiem, piemēram, vērtību saskaņošana un atalgojuma izstrāde. Tomēr joprojām ir sarežģīts uzdevums garantēt LLM drošība un uzticamība sarežģītos reālās pasaules scenārijos.

Lasīt vairāk: OpenAI Apvieno 50+ ekspertu komandu, lai uzlabotu GPT-4Drošība

Ekspertiem ir grūtības izskaidrot, kā darbojas LLM

Eksperti vēl nevar interpretēt LLM iekšējo darbību. Neviens paņēmiens neļautu mums apmierinošā veidā noteikt, kāda veida zināšanas, argumentāciju vai mērķus modelis izmanto, ģenerējot kādu rezultātu. Šis interpretējamības trūkums rada bažas par LLM lēmumu uzticamību un godīgumu, jo īpaši augsta līmeņa lietojumos, piemēram, krimināltiesību vai kredītpunktu noteikšanas jomā. Tas arī uzsver nepieciešamību veikt turpmākus pētījumus par pārredzamāku un atbildīgāku AI modeļu izstrādi.

LLM ir tikpat spējīgi kā cilvēki

Lai gan LLM ir apmācīti galvenokārt rakstot tekstu, imitēt cilvēka uzvedību, viņiem ir potenciāls mūs pārspēt daudzos uzdevumos. To jau var redzēt spēlējot šahu vai Go. Tas ir saistīts ar viņu spēju analizēt milzīgus datu apjomus un pieņemt lēmumus, pamatojoties uz šo analīzi, tādā ātrumā, kādu cilvēki nevar sasniegt. Tomēr LLM joprojām trūkst radošuma un intuīcijas, kas piemīt cilvēkiem, kas padara tos mazāk piemērotus daudziem uzdevumiem.

Lasīt vairāk: OpenAI Apvieno 50+ ekspertu komandu, lai uzlabotu GPT-4Drošība

LLM ir jābūt vairāk nekā tikai "visu amatu džekam"

LLM nedrīkst paust savu veidotāju vērtības vai vērtības, kas iekodētas izlasē no interneta. Viņiem nevajadzētu atkārtot stereotipus vai sazvērestības teorijas vai censties kādu aizvainot. Tā vietā LLM ir jāveido tā, lai sniegtu lietotājiem objektīvu un faktisku informāciju, vienlaikus ievērojot kultūras un sabiedrības atšķirības. Turklāt tie regulāri jāpārbauda un jāuzrauga, lai nodrošinātu, ka tie joprojām atbilst šiem standartiem.

Modeļi ir “gudrāki”, nekā cilvēki domā, pamatojoties uz pirmo iespaidu

Aplēses par modeļa spējām, pamatojoties uz pirmo iespaidu, bieži vien ir maldinošas. Ļoti bieži jums ir jānāk klajā ar pareizo uzvedni, jāiesaka modelis un, iespējams, jārāda piemēri, un tas sāks tikt galā daudz labāk. Tas ir, tas ir “gudrāks”, nekā šķiet no pirmā acu uzmetiena. Tāpēc ir ļoti svarīgi dot modelim godīgu iespēju un nodrošināt to ar nepieciešamajiem resursiem, lai tas darbotos pēc iespējas labāk. Ar pareizo pieeju pat šķietami neadekvāti modeļi var mūs pārsteigt ar savām iespējām.

Ja mēs koncentrējamies uz 202 uzdevumu paraugu no BIG-Bench datu kopas (tas tika īpaši sarežģīti pārbaudīt valodu modeļi no un uz), tad parasti (vidēji) modeļi uzrāda kvalitātes pieaugumu, palielinoties mērogam, bet atsevišķi uzdevumu metrika var:

  • pakāpeniski uzlabojas,
  • krasi uzlaboties,
  • paliek nemainīgs,
  • samazināt,
  • neuzrāda korelāciju.

Tas viss noved pie tā, ka nav iespējams pārliecinoši ekstrapolēt jebkuras nākotnes sistēmas veiktspēju. Īpaši interesanta ir zaļā daļa — tieši šeit bez iemesla strauji lec uz augšu kvalitātes rādītāji.

Lasiet vairāk par AI:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Vairāk rakstus
Damirs Jalalovs
Damirs Jalalovs

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Hot Stories
Pievienojieties mūsu informatīvajam izdevumam.
Jaunākās ziņas

Nepastāvības apstākļos institucionālā apetīte pieaug pret Bitcoin ETF

Informācijas atklāšana, izmantojot 13F pieteikumus, atklāj ievērojamus institucionālos investorus, kas iesaistās Bitcoin ETF, uzsverot pieaugošo pieņemšanu ...

Uzziniet vairāk

Pienāk notiesāšanas diena: CZ liktenis ir līdzsvarā, jo ASV tiesa izskata DOJ lūgumu

Šodien ASV tiesā Sietlā Čanpens Džao ir gatavs notiesāt.

Uzziniet vairāk
Pievienojieties mūsu novatoriskajai tehnoloģiju kopienai
Lasīt vairāk
Vairāk
Morph iepazīstina ar savu Holesky Testnet ar optimistisku zkEVM integrāciju, tilta mehānismu un decentralizētām sekvences tīkla funkcijām
Ziņojums Tehnoloģija
Morph iepazīstina ar savu Holesky Testnet ar optimistisku zkEVM integrāciju, tilta mehānismu un decentralizētām sekvences tīkla funkcijām
6. gada 2024. maijs
Robinhood Crypto saņem Velsa paziņojumu no vērtspapīru un biržas komisijas par iespējamiem vērtspapīru pārkāpumiem
Markets Ziņojums Tehnoloģija
Robinhood Crypto saņem Velsa paziņojumu no vērtspapīru un biržas komisijas par iespējamiem vērtspapīru pārkāpumiem
6. gada 2024. maijs
QuickSwap tiek izvietots X slāņa galvenajā tīklā un paplašina poligonu CDK tīklu ar Citadeles palaišanu
Ziņojums Tehnoloģija
QuickSwap tiek izvietots X slāņa galvenajā tīklā un paplašina poligonu CDK tīklu ar Citadeles palaišanu 
6. gada 2024. maijs
Slāņa 2 Network Linea uzsāk ZeroLend nulles marķiera prasību Airdrop Lietotāji un investori
Markets Ziņojums Tehnoloģija
Slāņa 2 Network Linea uzsāk ZeroLend nulles marķiera prasību Airdrop Lietotāji un investori
6. gada 2024. maijs
CRYPTOMERIA LABS PTE. LTD.