Huhtikuu 05, 2023

8 asiaa, jotka sinun tulee tietää suurista kielimalleista

Julkaistu: 05. huhtikuuta 2023 klo 4 Päivitetty: 29. huhtikuuta 05 klo 2023

Lyhyesti

Suuret kielimallit (LLM:t) käytetään tutkimaan luonnollisen kielen vivahteita, parantamaan koneiden kykyä ymmärtää ja luoda tekstiä sekä automatisoida tehtäviä, kuten äänentunnistus ja konekäännös.

LLM:ien hallintaan ei ole helppoa ratkaisua, mutta he ovat yhtä kykeneviä kuin ihmiset.

Luonnollisen kielenkäsittelyn kehityksen ja sen käytön liiketoiminnassa lisääntyessä kiinnostus suuriin kielimalleihin kasvaa. Näiden mallien avulla tutkitaan luonnollisen kielen vivahteita, parannetaan koneiden kykyä ymmärtää ja luoda tekstiä sekä automatisoida tehtäviä, kuten äänentunnistus ja konekäännös. Tässä on kahdeksan olennaista asiaa, jotka sinun tulee tietää suurista kielimalleista (LLM).

10 asiaa, jotka sinun tulee tietää suurista kielimalleista — @Midjourney / Taka#4076

Sisällysluettelo

LLM:t ovat "kykyisempiä", kun kustannukset nousevat jatkuvasti
Nopea katsaus miten GPT mallit mukautuvat koulutuskustannusten noustessa
LLM:t oppivat pelaamaan lautapelejä käyttämällä ulkomaailman esityksiä
LLM:n hallintaan ei ole helppoa ratkaisua
Asiantuntijoilla on vaikeuksia selittää, kuinka LLM toimii
LLM:t ovat yhtä kykeneviä kuin ihmiset
LLM:n tulee olla muutakin kuin "kaikkien ammattien huippu"
Mallit ovat "älykkäämpiä" kuin ihmiset uskovat ensivaikutelman perusteella

LLM:t ovat "kykyisempiä", kun kustannukset nousevat jatkuvasti

LLM:t tulevat ennustettavasti "kykyisemmiksi" kasvavien kustannusten myötä, jopa ilman hienoja innovaatioita. Tärkeintä tässä on ennustettavuus, joka näytettiin artikkelissa GPT-4: opetettiin viidestä seitsemään pientä mallia budjetilla 0.1 % lopullisesta, ja tämän perusteella tehtiin ennuste valtavasta mallista. Sellainen ennuste oli erittäin tarkka yhden tietyn tehtävän osaotoksen hämmennyksen ja mittareiden yleisessä arvioinnissa. Tämä ennustettavuus on tärkeää yrityksille ja organisaatioille, jotka ovat riippuvaisia LLM:istä toiminnassaan, koska ne voivat budjetoida vastaavasti ja suunnitella tulevia kuluja. On kuitenkin tärkeää huomata, että vaikka kasvavat kustannukset voivat johtaa parantuneisiin ominaisuuksiin, parannusnopeus voi lopulta tasaantua, jolloin on välttämätöntä investoida uusiin innovaatioihin edistymisen jatkamiseksi.

Nopea katsaus miten GPT mallit mukautuvat koulutuskustannusten noustessa

Tietyt tärkeät taidot syntyvät kuitenkin odottamattomasti lisääntymisen sivutuotteena koulutuskustannukset (pidempi koulutus, enemmän dataa, suurempi malli) – on lähes mahdotonta ennustaa, milloin mallit alkavat suorittaa tiettyjä tehtäviä. Olemme perehtyneet aiheeseen tarkemmin artikkeli kehityksen historiasta GPT mallit. Kuvassa näkyy mallien laadun nousun jakautuminen eri tehtävien kesken. Vain suuret mallit voivat oppia tekemään erilaisia tehtäviä. Tämä kaavio korostaa koon suurentamisen merkittävää vaikutusta GPT mallit heidän suorituksensa eri tehtävissä. On kuitenkin tärkeää huomata, että tämä tapahtuu lisääntyneiden laskentaresurssien ja ympäristövaikutusten kustannuksella.

LLM:t oppivat pelaamaan lautapelejä käyttämällä ulkomaailman esityksiä

LLM:t oppivat ja käyttävät usein ulkomaailman esityksiä. Tässä on monia esimerkkejä, ja tässä yksi niistä: Mallit koulutettuja pelata lautapelejä yksittäisten liikkeiden kuvauksiin perustuen näkemättä koskaan kuvaa pelikentästä, oppia sisäisiä esityksiä laudan tilasta jokaisessa liikkeessä. Näitä sisäisiä esityksiä voidaan sitten käyttää ennustaa tulevaisuutta liikkeet ja tulokset, jolloin malli voi pelata peliä korkealla tasolla. Tämä kyky oppia ja käyttää esityksiä on avainasemassa osa koneoppimista ja tekoäly.

LLM:n hallintaan ei ole helppoa ratkaisua

LLM-käyttäytymisen hallitsemiseksi ei ole luotettavia menetelmiä. Vaikka erilaisten ongelmien ymmärtämisessä ja lieventämisessä on edistytty jonkin verran (mukaan lukien ChatGPT ja GPT-4 palautteen avulla), ei ole yksimielisyyttä siitä, voimmeko ratkaista ne. On kasvava huoli siitä, että tästä tulee valtava, mahdollisesti katastrofaalinen ongelma tulevaisuudessa, kun vielä suurempia järjestelmiä luodaan. Siksi tutkijat tutkivat uusia menetelmiä varmistaakseen, että tekoälyjärjestelmät ovat yhdenmukaisia inhimillisten arvojen ja tavoitteiden kanssa, kuten arvojen kohdistaminen ja palkitsemisen suunnittelu. Sen takaaminen on kuitenkin edelleen haastava tehtävä LLM-yritysten turvallisuus ja luotettavuus monimutkaisissa reaalimaailman skenaarioissa.

Lue lisää: OpenAI Kokoaa yli 50 asiantuntijan tiimin parantamaan GPT-4Turvallisuus

Asiantuntijoilla on vaikeuksia selittää, kuinka LLM toimii

Asiantuntijat eivät voi vielä tulkita LLM:n sisäistä toimintaa. Mikään tekniikka ei sallisi meidän todeta millään tyydyttävällä tavalla, minkälaista tietoa, päättelyä tai tavoitteita malli käyttää, kun se tuottaa tulosta. Tämä tulkittavuuden puute herättää huolta LLM:n päätösten luotettavuudesta ja oikeudenmukaisuudesta erityisesti korkean panoksen sovelluksissa, kuten rikosoikeudessa tai luottopisteissä. Se korostaa myös tarvetta jatkaa tutkimusta avoimempien ja vastuullisempien tekoälymallien kehittämiseksi.

LLM:t ovat yhtä kykeneviä kuin ihmiset

Vaikka LLM:t koulutetaan ensisijaisesti jäljitellä ihmisen käyttäytymistä tekstiä kirjoittaessaan, heillä on potentiaalia ylittää meidät monissa tehtävissä. Tämä näkyy jo shakkia tai Goa pelatessa. Tämä johtuu heidän kyvystään analysoida valtavia tietomääriä ja tehdä päätöksiä analyysin perusteella nopeudella, johon ihmiset eivät pysty vastaamaan. LLM:iltä puuttuu kuitenkin edelleen ihmisten luovuus ja intuitio, mikä tekee heistä vähemmän sopivia moniin tehtäviin.

Lue lisää: OpenAI Kokoaa yli 50 asiantuntijan tiimin parantamaan GPT-4Turvallisuus

LLM:n tulee olla muutakin kuin "kaikkien ammattien huippu"

LLM:t eivät saa ilmaista luojiensa arvoja tai arvoja, jotka on koodattu Internetin valikoimiin. He eivät saa toistaa stereotypioita tai salaliittoteorioita tai yrittää loukata ketään. Sen sijaan LLM:t tulisi suunnitella tarjoamaan puolueetonta ja tosiasioihin perustuvaa tietoa käyttäjilleen kulttuurisia ja yhteiskunnallisia eroja kunnioittaen. Lisäksi niitä tulee testata ja seurata säännöllisesti sen varmistamiseksi, että ne täyttävät edelleen nämä standardit.

Mallit ovat "älykkäämpiä" kuin ihmiset uskovat ensivaikutelman perusteella

Ensivaikutelmaan perustuvat arviot mallin kyvystä ovat usein harhaanjohtavia. Hyvin usein sinun täytyy keksiä oikea kehote, ehdottaa mallia ja ehkä näyttää esimerkkejä, niin se alkaa selviytyä paljon paremmin. Eli se on "älykkäämpi" kuin miltä näyttää ensi silmäyksellä. Siksi on ratkaisevan tärkeää antaa mallille kohtuullinen mahdollisuus ja tarjota sille tarvittavat resurssit, jotta se toimii parhaimmillaan. Oikealla lähestymistavalla jopa näennäisesti riittämättömät mallit voivat yllättää meidät ominaisuuksillaan.

Jos keskitymme 202 tehtävän otokseen BIG-Bench-tietojoukosta (se oli erityisen vaikea testata kielimalleja alkaen ja tohon), niin yleensä (keskimäärin) mallit osoittavat laadun paranemista mittakaavan kasvaessa, mutta yksittäin tehtävien mittarit voivat:

parantaa vähitellen,
parantaa huomattavasti,
pysyä muuttumattomana,
lasku,
ei näytä korrelaatiota.

Kaikki tämä johtaa siihen, että minkä tahansa tulevan järjestelmän suorituskykyä on mahdotonta ekstrapoloida luotettavasti. Vihreä osa on erityisen mielenkiintoinen - juuri täällä laatuindikaattorit hyppäävät jyrkästi ilman syytä.

Lue lisää tekoälystä:

Tunnisteet:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.

lisää artikkeleita

Damir Yalalov

Hot Stories

Orbiter Finance tekee yhteistyötä Bitcoin Layer 2 Zulu -verkon kanssa ja ottaa käyttöön Lwazi Testnetissä

by Alisa Davidson

Voi 07, 2024

Crypto Exchange Bybit integroi Ethena Labsin USDe:n vakuusomaisuutena, mahdollistaa BTC-USDe- ja ETH-USDe-kauppaparit

by Alisa Davidson

Voi 07, 2024

Bitget Wallet esittelee GetDropin Airdrop Alusta ja käynnistää ensimmäisen Meme Coin -tapahtuman, jossa on 130,000 XNUMX dollarin palkintopotti

by Alisa Davidson

Voi 07, 2024

Yksinkertaisesta refleksistä oppimisagenteihin: tutustu erityyppisiin tekoälyagentteihin ja niiden rooleihin nykyaikaisissa sovelluksissa

by Viktoriia Palchik

Voi 07, 2024

Uusimmat uutiset

Orbiter Finance tekee yhteistyötä Bitcoin Layer 2 Zulu -verkon kanssa ja ottaa käyttöön Lwazi Testnetissä

by Alisa Davidson

Voi 07, 2024

Crypto Exchange Bybit integroi Ethena Labsin USDe:n vakuusomaisuutena, mahdollistaa BTC-USDe- ja ETH-USDe-kauppaparit

by Alisa Davidson

Voi 07, 2024

Bitget Wallet esittelee GetDropin Airdrop Alusta ja käynnistää ensimmäisen Meme Coin -tapahtuman, jossa on 130,000 XNUMX dollarin palkintopotti

by Alisa Davidson

Voi 07, 2024

Meson Network mahdollistaa salauskaivostyöntekijöiden hankkimisen tokeneita kaivostoiminnan kautta. Airdrops Ja takaisinosto-ohjelmat ovat tulossa

by Alisa Davidson

Voi 07, 2024

Institutionaalinen ruokahalu kasvaa kohti Bitcoin ETF:iä volatiliteetin keskellä

13F-hakemusten kautta tehdyt ilmoitukset paljastavat merkittäviä institutionaalisia sijoittajia, jotka harrastavat Bitcoinin ETF:itä, mikä korostaa kasvavaa hyväksyntää ...

Tiedä enemmän