Tekoälytutkijat ovat opettaneet suurille kielimalleille valehtelemaan vähemmän
Yhteistyö, jossa on mukana yli 20 tutkijaa alan eri puolilta, on synnyttänyt kasvavan alan – edustustekniikka (RepE). Vaikka tämä ei ole ensimmäinen laatuaan tutkiva tutkimus, kirjoittajat esittävät sekä kuvailevia oivalluksia että perustavat tärkeitä vertailuarvoja.
Joten mitä on esitystekniikka? Se pyörii sen käsityksen ympärillä, että hermoverkoilla on "piilotettuja tiloja", joita nimestään huolimatta ei peitetä salassa. Nämä tilat ovat käytettävissä, muokattavissa ja havaittavissa (edellyttäen, että mallin painot ovat käytettävissä). Toisin kuin parametrit, nämä ovat verkon "reaktioita" tiettyihin tuloihin, erityisesti LLM:t, tekstisyötteet. Nämä piilotetut esitykset ovat kuin ikkunoita mallin kognitiiviseen toimintaan, joka eroaa selvästi ihmisen aivoista.
Kirjoittajat korostavat analogisten tutkimusten mahdollisuuksia vetäen rinnastuksia kognitiivisen tieteen kanssa. Hermoston aktivaatioiden alueella, aivojen hermosoluja vastaavalla alueella, on lupaus merkityksestä. Aivan kuten tietyt ihmisen aivojen neuronit ovat yhteydessä Kanadan tai rehellisyyden kaltaisiin käsitteisiin, nämä aktivaatiot voivat sisältää oivalluksia.
Keskeinen ajatus tässä on selvittää, kuinka voimme vaikuttaa näihin hermoaktivaatioihin ohjaamaan mallia haluttuihin suuntiin. On esimerkiksi uskottavaa paikantaa "rehellisyyttä" edustava vektori ja sitten teoreettisesti työntämällä mallia tähän suuntaan vähentää sen todennäköisyyttä, että se tuottaa petollisia tuloksia. Aikaisempi kokeilu, "Päätelmä-aikainterventio: Totuudenmukaisten vastausten saaminen kielimallista”, osoitti tämän konseptin käytännöllisyyden.
Nykyisessä työssään tutkijat perehtyvät useisiin alueisiin, mukaan lukien moraali, emotionaalisuus, harmittomuus ja muistaminen. He ehdottavat ratkaisua LoRRA:n (Low-Rank Representation Adaptation) muodossa. Se on tekniikka, joka sisältää koulutuksen noin 100 esimerkin pienellä leimatulla tietojoukolla. Jokainen esimerkki on merkitty, mikä osoittaa attribuutteja, kuten falsehood (vaikka vaihtoehtoinen lähestymistapa, jossa kehote on olemassa).
Tulokset ovat vakuuttavia. LLAMA-2-70B ylittää GPT-4 huomattavalla marginaalilla TruthfulQA-benchmarkissa, saavuttaen lähes kymmenen prosenttia paremman tarkkuuden (59 % verrattuna noin 69 prosenttiin). Lisäksi tutkijat ovat sisällyttäneet lukuisia esimerkkejä, jotka osoittavat mallin vastemuutoksia eri suuntiin ja valaisevat sen monipuolisuutta ja sopeutumiskykyä.
Tämä uraauurtava lähestymistapa edustaa vaihtoehtoista polkua kohti mallien kohdistamista ja tarjoaa samalla uudenlaisen näkökulman mallin tulkintaan ja ohjaukseen. Se on lupaava raja, ja sen jatkuvan kehityksen ennakointi on käsinkosketeltavaa.
Jos haluat syvempää tutkia käytännön esimerkkejä, voit vierailla heidän verkkosivustollaan: AI-Transparency.org.
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.
lisää artikkeleitaDamir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.