Hugging Facen toimitusjohtaja ennustaa pienempien tekoälymallien hallitsevan vuotta 2024
Lyhyesti
Vuonna 2024 Small Language Models -mallit nousevat, kun yritykset ylittävät tehokkuuden, kustannustehokkuuden ja saavutettavuuden rajoja.
varten tekoäly, vuosi 2024 on valmistautunut merkitsemään merkittävää käännekohtaa – pienten kielimallien (SLM) nousun myötä, kun yritykset ylittävät tehokkuuden, kustannustehokkuuden ja saavutettavuuden rajoja.
Matka massiivisten suurten kielimallien (LLM) valta-asemasta kompaktien, tehokkaiden SLM-mallien syntymiseen lupaa muokata AI maisema.
Tämä väite on löytänyt tukensa Clam Delangue, yksi perustajista ja toimitusjohtaja Halaaminen kasvot.
"Microsoft AI:n Phi-2 on nyt Hugging Facen suosituin malli. Vuosi 2024 on pienten tekoälymallien vuosi!” sanoi Delangue, a LinkedIn-viesti.
Lisäksi joulukuun alussa ranskalainen AI-startup Mistral keräsi pian huomattavan määrän $ 415 euroa rahoituskierros esitteli Mixtral 8x7B:n, avoimen lähdekoodin SLM:n, joka on nopeasti saavuttanut vetovoiman kyvystään kilpailla GPT-3.5 tietyillä vertailuarvoilla, samalla kun se toimii yhdellä tietokoneella, jossa on vaatimaton 100 gigatavua RAM-muistia.
Mistralin lähestymistapa, jota kutsutaan "harvaksi asiantuntijoiden yhdistelmäksi" -malliksi, yhdistää pienempiä malleja, jotka on koulutettu tiettyihin tehtäviin, mikä saavuttaa huomattavan tehokkuuden.
Ei kannata pettää, teknologiajätti Microsoft tuli areenalle Phi-2:lla, sen kotitekoisen SLM:n uusimmalla versiolla. Huomattavasti pieni Phi-2.7, jossa on vain 2 miljardia parametria, on suunniteltu toimimaan matkapuhelimessa, mikä osoittaa alan sitoutumisen mallien pienentämiseen ominaisuuksista tinkimättä.
Mallit kuten GPT-3, jossa on huikeat 175 miljardia parametria, esitteli kykyä luoda ihmisen kaltaista tekstiä, vastata kysymyksiin ja tehdä yhteenvetoja asiakirjoista. LLM-yritysten luontaiset huonot puolet, mukaan lukien tehokkuuteen, kustannuksiin ja muokattavuuteen liittyvät huolenaiheet, ovat kuitenkin tasoittaneet tietä SLM:ien nousulle.
Pienimuotoista kielimallin kehitystä ohjaavat tekijät
SLM:issä on virtaviivainen lähestymistapa, jossa on vähemmän parametreja, mikä johtaa nopeampaan päättelynopeuteen ja korkeampaan suorituskykyyn. Niiden pienemmät muisti- ja tallennusvaatimukset tekevät laskennallisista prosesseista ketteriä, mikä haastaa perinteisen uskomuksen, jonka mukaan mallin kapasiteetin on aina oltava rinnakkain tiedonhalun kasvun kanssa.
Vaikka suuret kielimallit pitävät GPT-3 SLM:t ovat kustannustehokas vaihtoehto.
Näitä malleja voidaan kouluttaa, ottaa käyttöön ja käyttää helposti saatavilla olevilla hyödykelaitteistoilla, mikä tekee niistä taloudellisesti kannattavan vaihtoehdon yrityksille. Lisäksi vaatimattomat resurssitarpeensa tekevät niistä ihanteellisia ehdokkaita reunalaskentasovelluksiin, jotka toimivat offline-tilassa alhaisemman tehon laitteilla.
Samoin SLM:ien keskeinen vahvuus on niiden muokattavissa. Toisin kuin suuremmat vastineensa, jotka edustavat kompromisseja eri aloilla, SLM:t voidaan hienosäätää tiettyjä sovelluksia varten. Niiden nopeat iterointisyklit helpottavat käytännön kokeilua, jolloin kehittäjät voivat mukauttaa malleja erityistarpeisiin.
Kun lähestymme vuotta 2024, pienten kielimallien nousu merkitsee tekoälyn muutoksen aikakautta. Kohta on asetettu pienten AI-mallien vuodelle, jossa innovaatio ja saavutettavuus kohtaavatdefine keinoälyn mahdollisuudet.
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Kumar on kokenut teknologiatoimittaja, joka on erikoistunut AI/ML:n dynaamisiin risteyksiin, markkinointiteknologiaan ja nouseviin aloihin, kuten krypto-, lohkoketju- ja NFTs. Yli 3 vuoden kokemuksella alalta Kumar on saavuttanut todistetun ennätyksen vakuuttavien tarinoiden laatimisessa, oivaltavien haastattelujen tekemisessä ja kattavien näkemysten toimittamisessa. Kumarin asiantuntemus perustuu vaikuttavan sisällön tuottamiseen, mukaan lukien artikkeleita, raportteja ja tutkimusjulkaisuja merkittäville alan alustoille. Ainutlaatuisella taitosarjalla, jossa yhdistyvät tekninen tietämys ja tarinankerronta, Kumar on erinomainen kommunikoimaan monimutkaisia teknologisia käsitteitä eri yleisöille selkeällä ja mukaansatempaavalla tavalla.
lisää artikkeleitaKumar on kokenut teknologiatoimittaja, joka on erikoistunut AI/ML:n dynaamisiin risteyksiin, markkinointiteknologiaan ja nouseviin aloihin, kuten krypto-, lohkoketju- ja NFTs. Yli 3 vuoden kokemuksella alalta Kumar on saavuttanut todistetun ennätyksen vakuuttavien tarinoiden laatimisessa, oivaltavien haastattelujen tekemisessä ja kattavien näkemysten toimittamisessa. Kumarin asiantuntemus perustuu vaikuttavan sisällön tuottamiseen, mukaan lukien artikkeleita, raportteja ja tutkimusjulkaisuja merkittäville alan alustoille. Ainutlaatuisella taitosarjalla, jossa yhdistyvät tekninen tietämys ja tarinankerronta, Kumar on erinomainen kommunikoimaan monimutkaisia teknologisia käsitteitä eri yleisöille selkeällä ja mukaansatempaavalla tavalla.