Tudósítást Technológia
April 05, 2023

8 dolog, amit tudnod kell a nagy nyelvű modellekről

Röviden

Nagy nyelvi modellek (LLM-ek) segítségével feltárják a természetes nyelv árnyalatait, javítják a gépek szövegértési és -generálási képességét, valamint automatizálják a feladatokat, például a hangfelismerést és a gépi fordítást.

Nincs egyszerű megoldás az LLM-ek menedzselésére, de ugyanolyan képességekkel rendelkeznek, mint az emberek.

A természetes nyelvi feldolgozás fejlődésének és az üzleti életben történő felhasználásának felfutásával egyre nagyobb az érdeklődés a nagy nyelvi modellek iránt. Ezeket a modelleket a természetes nyelv árnyalatainak feltárására, a gépek szövegértési és -generálási képességének javítására, valamint a feladatok, például a hangfelismerés és a gépi fordítás automatizálására használják. Íme nyolc alapvető dolog, amit tudnia kell a nagy nyelvi modellekről (LLM).

10 dolog, amit tudnod kell a nagy nyelvű modellekről
@Midjourney / Taka#4076

Az LLM-ek „képesebbek”, mivel a költségek folyamatosan emelkednek

Az LLM-ek a növekvő költségekkel előre láthatóan „képesebbé” válnak, még menő innovációk nélkül is. Itt a legfontosabb a kiszámíthatóság, amit a cikkben mutattunk be GPT-4: öt-hét kismodellt tanítottak be a végső 0.1%-os költségvetésével, majd ez alapján egy hatalmas modellre készült jóslat. Egy adott feladat részmintáján a zavartság és a metrikák általános értékeléséhez az ilyen előrejelzés nagyon pontos volt. Ez a kiszámíthatóság fontos azoknak a vállalkozásoknak és szervezeteknek, amelyek működésük során az LLM-ekre támaszkodnak, mivel ennek megfelelően költségvetést készíthetnek, és tervezhetik a jövőbeli kiadásokat. Fontos azonban megjegyezni, hogy bár a költségek növekedése a képességek javulását eredményezheti, a javulás üteme idővel fennakadhat, ami szükségessé teszi az új innovációkba való befektetést a továbblépéshez.

Egy gyors pillantás, hogyan GPT a modellek alkalmazkodnak a képzési költségek növekedéséhez

Azonban bizonyos fontos készségek általában előre nem látható módon jelennek meg a növekedés melléktermékeként képzési költségek (hosszabb képzés, több adat, nagyobb modell) – szinte lehetetlen megjósolni, hogy a modellek mikor kezdenek el bizonyos feladatokat ellátni. A témával részletesebben foglalkoztunk cikkünkben cikkben fejlődésének történetéről GPT modellek. A képen a modellek minőségi növekedésének megoszlása ​​látható a különböző feladatok között. Csak a nagy modellek tanulhatnak meg különféle feladatokat. Ez a grafikon rávilágít a méret növelésének jelentős hatására GPT modellek teljesítményükről a különböző feladatok során. Fontos azonban megjegyezni, hogy ennek a megnövekedett számítási erőforrások és a környezeti hatások az ára.

Egy gyors pillantás, hogyan GPT a modellek alkalmazkodnak a képzési költségek növekedéséhez

Az LLM-ek a külvilág reprezentációi segítségével tanulnak meg társasjátékokat játszani

Az LLM-ek gyakran tanulják és használják a külvilág reprezentációit. Számos példa van itt, és itt van egy közülük: Képzett modellek társasjátékokat játszani az egyes lépések leírása alapján anélkül, hogy valaha is látnánk a játéktér képét, megtanulják a tábla állapotának belső ábrázolását minden lépésnél. Ezek a belső reprezentációk azután felhasználhatók jövőt jósolnak lépések és eredmények, lehetővé téve a modell számára, hogy magas szinten játssza a játékot. Ez a képesség a reprezentációk tanulására és használatára kulcsfontosságú a gépi tanulás szempontja és a mesterséges intelligencia.

Nincs egyszerű megoldás az LLM kezelésére

Nincsenek megbízható módszerek az LLM viselkedésének szabályozására. Bár történt némi előrelépés a különböző problémák megértésében és enyhítésében (többek között ChatGPT és a GPT-4 visszajelzés segítségével), nincs konszenzus abban, hogy meg tudjuk-e oldani őket. Egyre nagyobb aggodalomra ad okot, hogy ez hatalmas, potenciálisan katasztrofális problémává válik a jövőben, amikor még nagyobb rendszereket hoznak létre. Ezért a kutatók új módszereket kutatnak annak biztosítására, hogy az AI-rendszerek összhangban legyenek az emberi értékekkel és célokkal, mint például az értékegyeztetés és a jutalmazási tervezés. Továbbra is kihívást jelent azonban annak garantálása az LLM-ek biztonsága és megbízhatósága összetett valós forgatókönyvekben.

Bővebben: OpenAI 50+ szakértőből álló csapatot állít össze a fejlesztés érdekében GPT-4Biztonsága

A szakértők nehezen tudják elmagyarázni, hogyan működik az LLM

A szakértők még nem tudják értelmezni az LLM belső működését. Egyetlen technika sem tenné lehetővé számunkra, hogy kielégítő módon megállapítsuk, hogy a modell milyen tudást, érvelést vagy célt használ, amikor bármilyen eredményt generál. Ez az értelmezhetőség hiánya aggályokat vet fel az LLM döntéseinek megbízhatóságával és igazságosságával kapcsolatban, különösen a nagy téttel járó alkalmazásokban, mint például a büntető igazságszolgáltatás vagy a hitelbírálat. Rámutat arra is, hogy további kutatásokra van szükség az átláthatóbb és elszámoltathatóbb mesterségesintelligencia-modellek kifejlesztésével kapcsolatban.

Az LLM-ek éppolyan képesek, mint az emberek

Bár az LLM-eket elsősorban arra képezik ki utánozza az emberi viselkedést szövegírás közben, sok feladatban megvan a lehetőségük felülmúlni minket. Ez már sakkozásnál vagy Gonál is látható. Ez annak köszönhető, hogy képesek hatalmas mennyiségű adatot elemezni, és az elemzés alapján döntéseket hozni olyan sebességgel, amivel az emberek nem képesek. Az LLM-ekből azonban még mindig hiányzik az emberek kreativitása és intuíciója, ami sok feladatra kevésbé alkalmassá teszi őket.

Bővebben: OpenAI 50+ szakértőből álló csapatot állít össze a fejlesztés érdekében GPT-4Biztonsága

Az LLM-nek többnek kell lennie, mint „minden mesterségbeli mester”

Az LLM-ek nem fejezhetik ki alkotóik értékeit vagy az interneten található válogatásban kódolt értékeket. Nem szabad megismételniük sztereotípiákat vagy összeesküvés-elméleteket, és nem szabad megbántani senkit. Ehelyett az LLM-eket úgy kell megtervezni, hogy elfogulatlan és tényszerű információkat nyújtsanak felhasználóiknak, miközben tiszteletben tartják a kulturális és társadalmi különbségeket. Ezenkívül rendszeres tesztelésnek és felügyeletnek kell alávetni őket annak biztosítása érdekében, hogy továbbra is megfeleljenek ezeknek a szabványoknak.

A modellek „okosabbak”, mint azt az emberek az első benyomás alapján gondolják

A modell képességeinek első benyomáson alapuló becslései gyakran félrevezetőek. Nagyon gyakran elő kell állnia a megfelelő felszólítással, modellt kell javasolnia, esetleg példákat kell mutatnia, és az sokkal jobban kezd megbirkózni. Vagyis „okosabb”, mint amilyennek első pillantásra tűnik. Ezért alapvető fontosságú, hogy megfelelő esélyt adjunk a modellnek, és biztosítsuk a szükséges erőforrásokat a legjobb teljesítményhez. Megfelelő megközelítéssel még a látszólag nem megfelelő modellek is meglephetnek minket képességeikkel.

Ha egy 202 feladatból álló mintára koncentrálunk a BIG-Bench adatkészletből (a tesztelést kifejezetten megnehezítették nyelvi modellek tól és ig), akkor általában (átlagosan) a modellek minőségi növekedést mutatnak a lépték növekedésével, de külön-külön a feladatok mérőszámai:

  • fokozatosan javul,
  • drasztikusan javulni,
  • változatlanok maradnak,
  • csökken,
  • nem mutat összefüggést.

Mindez ahhoz vezet, hogy nem lehet magabiztosan extrapolálni bármely jövőbeli rendszer teljesítményét. A zöld rész különösen érdekes – pontosan itt ugranak fel a minőségi mutatók minden ok nélkül.

Tudjon meg többet az AI-ról:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Az Orbiter Finance partnerek a Bitcoin Layer 2 Zulu hálózattal és az Lwazi Testnet-en
üzleti Tudósítást Technológia
Az Orbiter Finance partnerek a Bitcoin Layer 2 Zulu hálózattal és az Lwazi Testnet-en 
May 7, 2024
A Crypto Exchange Bybit az Ethena Labs USDe-jét biztosítékként integrálja, lehetővé téve a BTC-USDe és az ETH-USDe kereskedési párokat
piacok Tudósítást Technológia
A Crypto Exchange Bybit az Ethena Labs USDe-jét biztosítékként integrálja, lehetővé téve a BTC-USDe és az ETH-USDe kereskedési párokat
May 7, 2024
A Bitget Wallet bemutatja a GetDrop-ot Airdrop Platform és elindítja az első mém érme eseményt 130,000 XNUMX dolláros nyereményalappal
piacok Tudósítást Technológia
A Bitget Wallet bemutatja a GetDrop-ot Airdrop Platform és elindítja az első mém érme eseményt 130,000 XNUMX dolláros nyereményalappal
May 7, 2024
Az egyszerű reflextől a tanuló ügynökökig: Tekintse meg az AI-ügynökök különböző típusait és szerepüket a modern alkalmazásokban
Életmód szoftver Történetek és vélemények Technológia
Az egyszerű reflextől a tanuló ügynökökig: Tekintse meg az AI-ügynökök különböző típusait és szerepüket a modern alkalmazásokban
May 7, 2024
CRYPTOMERIA LABS PTE. KFT.