Novinová správa Technológia
Apríla 05, 2023

8 vecí, ktoré by ste mali vedieť o veľkých jazykových modeloch

Stručne

Veľké jazykové modely (LLM) sa používajú na skúmanie nuancií prirodzeného jazyka, zlepšenie schopnosti strojov porozumieť a generovať text a automatizáciu úloh, ako je rozpoznávanie hlasu a strojový preklad.

Neexistuje jednoduché riešenie na riadenie LLM, ale sú rovnako schopné ako ľudia.

S prudkým rozvojom spracovania prirodzeného jazyka a jeho využitia v podnikaní rastie záujem o veľké jazykové modely. Tieto modely sa používajú na skúmanie nuancií prirodzeného jazyka, zlepšujú schopnosť strojov porozumieť a generovať text a automatizujú úlohy, ako je rozpoznávanie hlasu a strojový preklad. Tu je osem základných vecí, ktoré by ste mali vedieť o veľkých jazykových modeloch (LLM).

10 vecí, ktoré by ste mali vedieť o veľkých jazykových modeloch
@Midjourney / Taka#4076

LLM sú „schopnejšie“, keďže náklady neustále rastú

LLM sa predvídateľne stávajú „schopnejšími“ s rastúcimi nákladmi, dokonca aj bez skvelých inovácií. Hlavná vec je tu predvídateľnosť, ktorá sa ukázala v článku o GPT-4: Vyučovalo sa päť až sedem malých modelov s rozpočtom 0.1 % konečného modelu a potom sa na základe toho urobila predpoveď pre obrovský model. Pre všeobecné posúdenie zmätku a metrík na čiastkovej vzorke jednej konkrétnej úlohy bola takáto predpoveď veľmi presná. Táto predvídateľnosť je dôležitá pre podniky a organizácie, ktoré sa pri svojich operáciách spoliehajú na LLM, pretože môžu podľa toho plánovať a plánovať budúce výdavky. Je však dôležité poznamenať, že zatiaľ čo zvyšujúce sa náklady môžu viesť k zlepšeniu schopností, miera zlepšovania môže nakoniec stagnovať, a preto je potrebné investovať do nových inovácií, aby ste mohli pokračovať v napredovaní.

Rýchly pohľad ako GPT modely sa prispôsobujú tak, ako rastú náklady na školenia

Špecifické dôležité zručnosti však majú tendenciu sa objavovať nepredvídateľne ako vedľajší produkt zvyšovania náklady na školenia (dlhšie školenie, viac údajov, väčší model) — je takmer nemožné predpovedať, kedy modely začnú vykonávať určité úlohy. V našom článku sme túto tému preskúmali podrobnejšie článok o histórii vývoja GPT modelov. Obrázok ukazuje rozdelenie nárastu kvality modelov medzi rôzne úlohy. Sú to len veľké modely, ktoré sa môžu naučiť robiť rôzne úlohy. Tento graf poukazuje na významný vplyv zväčšenia veľkosti GPT modely na ich výkone v rámci rôznych úloh. Je však dôležité poznamenať, že to prichádza za cenu zvýšených výpočtových zdrojov a dopadu na životné prostredie.

Rýchly pohľad ako GPT modely sa prispôsobujú tak, ako rastú náklady na školenia

LLM sa učia hrať stolové hry pomocou reprezentácií vonkajšieho sveta

LLM sa často učia a používajú reprezentácie vonkajšieho sveta. Tu je veľa príkladov a tu je jeden z nich: Modelky vycvičené hrať stolové hry založené na popisoch jednotlivých ťahov bez toho, aby ste videli obrázok hracieho poľa, naučte sa vnútorné znázornenie stavu hracej dosky pri každom ťahu. Tieto interné reprezentácie potom môžu byť použité predpovedať budúcnosť ťahy a výsledky, čo umožňuje modelu hrať hru na vysokej úrovni. Táto schopnosť učiť sa a používať reprezentácie je kľúčová aspekt strojového učenia a umelej inteligencie.

Na správu LLM neexistuje jednoduché riešenie

Neexistujú žiadne spoľahlivé metódy na kontrolu správania LLM. Aj keď sa dosiahol určitý pokrok v pochopení a zmiernení rôznych problémov (vrátane ChatGPT a GPT-4 pomocou spätnej väzby), neexistuje konsenzus o tom, či ich dokážeme vyriešiť. Rastú obavy, že sa z toho v budúcnosti stane obrovský, potenciálne katastrofický problém, keď sa vytvoria ešte väčšie systémy. Preto výskumníci skúmajú nové metódy, ktoré zabezpečia, že systémy AI budú v súlade s ľudskými hodnotami a cieľmi, ako je napríklad zosúladenie hodnôt a inžinierstvo odmeňovania. Naďalej však zostáva náročnou úlohou zaručiť bezpečnosť a spoľahlivosť LLM v zložitých scenároch reálneho sveta.

Prečítajte si viac: OpenAI Zhromažďuje tím 50+ expertov na zlepšenie GPT-4Bezpečnosť

Odborníci majú problém vysvetliť, ako LLM funguje

Odborníci zatiaľ nedokážu interpretovať vnútorné fungovanie LLM. Žiadna technika by nám neumožnila uviesť akýmkoľvek uspokojivým spôsobom, aké druhy znalostí, úvah alebo cieľov model používa, keď generuje akýkoľvek výsledok. Táto nedostatočná interpretovateľnosť vzbudzuje obavy o spoľahlivosť a spravodlivosť rozhodnutí LLM, najmä v aplikáciách s vysokými stávkami, ako je trestné súdnictvo alebo úverové hodnotenie. Zdôrazňuje tiež potrebu ďalšieho výskumu vývoja transparentnejších a zodpovednejších modelov AI.

LLM sú rovnako schopné ako ľudia

Hoci LLM sú vyškolení predovšetkým na napodobňovať ľudské správanie pri písaní textu, majú potenciál nás v mnohých úlohách prekonať. To je už vidieť pri hraní šachu alebo Go. Je to spôsobené ich schopnosťou analyzovať obrovské množstvo údajov a robiť rozhodnutia na základe tejto analýzy rýchlosťou, ktorej sa ľudia nemôžu rovnať. LLM však stále nemajú kreativitu a intuíciu, ktorú ľudia vlastnia, čo ich robí menej vhodnými na mnohé úlohy.

Prečítajte si viac: OpenAI Zhromažďuje tím 50+ expertov na zlepšenie GPT-4Bezpečnosť

LLM musia byť viac než len „jack-of-all-trades“

LLM nesmú vyjadrovať hodnoty ich tvorcov ani hodnoty zakódované vo výbere z internetu. Nemali by opakovať stereotypy alebo konšpiračné teórie ani sa snažiť nikoho uraziť. Namiesto toho by LLM mali byť navrhnuté tak, aby svojim používateľom poskytovali nezaujaté a faktické informácie a zároveň rešpektovali kultúrne a spoločenské rozdiely. Okrem toho by sa mali pravidelne testovať a monitorovať, aby sa zabezpečilo, že budú naďalej spĺňať tieto normy.

Modelky sú „múdrejšie“, ako si ľudia myslia na základe prvého dojmu

Odhady schopností modelky na základe prvého dojmu sú často zavádzajúce. Veľmi často musíte prísť so správnou výzvou, navrhnúť model a možno ukázať príklady a ono to začne zvládať oveľa lepšie. To znamená, že je „inteligentnejší“, ako sa na prvý pohľad zdá. Preto je kľúčové dať modelu spravodlivú šancu a poskytnúť mu potrebné zdroje na čo najlepší výkon. Pri správnom prístupe nás svojimi schopnosťami dokážu prekvapiť aj zdanlivo nevyhovujúce modely.

Ak sa zameriame na vzorku 202 úloh z dátového súboru BIG-Bench (bolo špeciálne sťažené testovanie jazykové modely od a do), potom spravidla (v priemere) modely vykazujú nárast kvality so zvyšujúcou sa mierkou, ale individuálne môžu metriky v úlohách:

  • postupne zlepšovať,
  • drasticky zlepšiť,
  • zostávajú nezmenené,
  • pokles,
  • nevykazujú žiadnu koreláciu.

To všetko vedie k nemožnosti s istotou extrapolovať výkon akéhokoľvek budúceho systému. Zaujímavá je najmä zelená časť — presne tu ukazovatele kvality bezdôvodne prudko vyskočia.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Morph predstavuje svoj Holesky Testnet s optimistickou integráciou zkEVM, premosťovacím mechanizmom a funkciami decentralizovanej sekvenčnej siete
Novinová správa Technológia
Morph predstavuje svoj Holesky Testnet s optimistickou integráciou zkEVM, premosťovacím mechanizmom a funkciami decentralizovanej sekvenčnej siete
Môže 6, 2024
Robinhood Crypto dostáva oznámenie Wells od provízie pre cenné papiere a burzy kvôli údajným porušeniam cenných papierov
trhy Novinová správa Technológia
Robinhood Crypto dostáva oznámenie Wells od provízie pre cenné papiere a burzy kvôli údajným porušeniam cenných papierov
Môže 6, 2024
QuickSwap sa zavádza na X Layer Mainnet a rozširuje polygónovú sieť CDK so spustením Citadely
Novinová správa Technológia
QuickSwap sa zavádza na X Layer Mainnet a rozširuje polygónovú sieť CDK so spustením Citadely 
Môže 6, 2024
Sieť vrstvy 2 Linea iniciuje nárokovanie nulového tokenu spoločnosti ZeroLend Airdrop Používatelia a investori
trhy Novinová správa Technológia
Sieť vrstvy 2 Linea iniciuje nárokovanie nulového tokenu spoločnosti ZeroLend Airdrop Používatelia a investori
Môže 6, 2024
CRYPTOMERIA LABS PTE. LTD.