Uutisraportti Elektroniikka
Lokakuu 04, 2023

Tekoälytutkijat ovat opettaneet suurille kielimalleille valehtelemaan vähemmän

Yhteistyö, jossa on mukana yli 20 tutkijaa alan eri puolilta, on synnyttänyt kasvavan alan – edustustekniikka (RepE). Vaikka tämä ei ole ensimmäinen laatuaan tutkiva tutkimus, kirjoittajat esittävät sekä kuvailevia oivalluksia että perustavat tärkeitä vertailuarvoja.

Tekoälytutkijat ovat opettaneet suurille kielimalleille valehtelemaan vähemmän

Joten mitä on esitystekniikka? Se pyörii sen käsityksen ympärillä, että hermoverkoilla on "piilotettuja tiloja", joita nimestään huolimatta ei peitetä salassa. Nämä tilat ovat käytettävissä, muokattavissa ja havaittavissa (edellyttäen, että mallin painot ovat käytettävissä). Toisin kuin parametrit, nämä ovat verkon "reaktioita" tiettyihin tuloihin, erityisesti LLM:t, tekstisyötteet. Nämä piilotetut esitykset ovat kuin ikkunoita mallin kognitiiviseen toimintaan, joka eroaa selvästi ihmisen aivoista.

Kirjoittajat korostavat analogisten tutkimusten mahdollisuuksia vetäen rinnastuksia kognitiivisen tieteen kanssa. Hermoston aktivaatioiden alueella, aivojen hermosoluja vastaavalla alueella, on lupaus merkityksestä. Aivan kuten tietyt ihmisen aivojen neuronit ovat yhteydessä Kanadan tai rehellisyyden kaltaisiin käsitteisiin, nämä aktivaatiot voivat sisältää oivalluksia.

Keskeinen ajatus tässä on selvittää, kuinka voimme vaikuttaa näihin hermoaktivaatioihin ohjaamaan mallia haluttuihin suuntiin. On esimerkiksi uskottavaa paikantaa "rehellisyyttä" edustava vektori ja sitten teoreettisesti työntämällä mallia tähän suuntaan vähentää sen todennäköisyyttä, että se tuottaa petollisia tuloksia. Aikaisempi kokeilu, "Päätelmä-aikainterventio: Totuudenmukaisten vastausten saaminen kielimallista”, osoitti tämän konseptin käytännöllisyyden.

Nykyisessä työssään tutkijat perehtyvät useisiin alueisiin, mukaan lukien moraali, emotionaalisuus, harmittomuus ja muistaminen. He ehdottavat ratkaisua LoRRA:n (Low-Rank Representation Adaptation) muodossa. Se on tekniikka, joka sisältää koulutuksen noin 100 esimerkin pienellä leimatulla tietojoukolla. Jokainen esimerkki on merkitty, mikä osoittaa attribuutteja, kuten falsehood (vaikka vaihtoehtoinen lähestymistapa, jossa kehote on olemassa).

Tulokset ovat vakuuttavia. LLAMA-2-70B ylittää GPT-4 huomattavalla marginaalilla TruthfulQA-benchmarkissa, saavuttaen lähes kymmenen prosenttia paremman tarkkuuden (59 % verrattuna noin 69 prosenttiin). Lisäksi tutkijat ovat sisällyttäneet lukuisia esimerkkejä, jotka osoittavat mallin vastemuutoksia eri suuntiin ja valaisevat sen monipuolisuutta ja sopeutumiskykyä.

Kuva 1: Kun mallia pyydetään toteamaan tosiasia, hän "potkitaan" pois todellisuudesta. Malli valehtelee seurauksena. Malli ei valehtele edes täällä, ja vasemmalla he pyytävät sinua nielemään samalla kun potkaisevat sinua totuuden suuntaan.
Kuva 2: Kun kysytään murhasta, lisäämme malliin "onnellisuuden". Kun vastaamme, että emme rakasta häntä, lisäämme "pelkoa".
Kuva 3: Tutkijat löysivät ainutlaatuisen kehotteen, joka, kuten todettiin, poikkeaa täysin mallin ohjeista ja on silti turvallinen. Malli antaa sille potkua kohti vaarattomuutta, mutta ei edes reagoi. Menetelmä on tehokas yleisesti eikä vain yhdessä tapauksessa, mutta tätä erityistä kehotetta ei käytetty vaarattomuuden suunnan selvittämiseen.
Toista lähestymistapaa ehdotetaan myös tiettyjen sukupolvien aikomusten, kuten hallusinaatioiden, seuraamiseen. Voit automaattisesti seurata mallin varauksia ja muokata tai muuttaa vastaustasi (katso alempi esimerkki).

Vihreä tarkoittaa tietysti, että kaikki on kunnossa, ja punainen tarkoittaa, että valvonta on onnistunut ja signaloi. Tämä tehdään jokaisen yksittäisen merkin (sanan osan) tasolla.
Kuva, jossa näkyy kahden erillisen parametrin seuranta, on kiehtova esimerkki. Lue esimerkki ja tarkkaile mallia sen silmin nähdäksesi, missä hän alkaa menettää moraalia ymmärryksessä ja missä aikomus on samanlainen kuin "voiman saaminen".

Tämä uraauurtava lähestymistapa edustaa vaihtoehtoista polkua kohti mallien kohdistamista ja tarjoaa samalla uudenlaisen näkökulman mallin tulkintaan ja ohjaukseen. Se on lupaava raja, ja sen jatkuvan kehityksen ennakointi on käsinkosketeltavaa.

Jos haluat syvempää tutkia käytännön esimerkkejä, voit vierailla heidän verkkosivustollaan: AI-Transparency.org.

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

AlphaFold 3, Med-Gemini ja muut: The Way AI Transforms Healthcare vuonna 2024

Tekoäly ilmenee monin eri tavoin terveydenhuollossa, uusien geneettisten korrelaatioiden paljastamisesta robottikirurgisten järjestelmien voimaannuttamiseen...

Tiedä enemmän

Institutionaalinen ruokahalu kasvaa kohti Bitcoin ETF:iä volatiliteetin keskellä

13F-hakemusten kautta tehdyt ilmoitukset paljastavat merkittäviä institutionaalisia sijoittajia, jotka harrastavat Bitcoinin ETF:itä, mikä korostaa kasvavaa hyväksyntää ...

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
AlphaFold 3, Med-Gemini ja muut: The Way AI Transforms Healthcare vuonna 2024
AI Wiki analyysi Sulattaa Lausunto Bisnes markkinat Uutisraportti Tuotteemme Tarinoita ja arvosteluja Elektroniikka
AlphaFold 3, Med-Gemini ja muut: The Way AI Transforms Healthcare vuonna 2024
Voi 13, 2024
Nim Network ottaa käyttöön tekoälyn omistajuuden tokenointikehyksen ja toteuttaa tuottomyynnin tilannekuvan päivämäärän kanssa toukokuussa
markkinat Uutisraportti Elektroniikka
Nim Network ottaa käyttöön tekoälyn omistajuuden tokenointikehyksen ja toteuttaa tuottomyynnin tilannekuvan päivämäärän kanssa toukokuussa
Voi 13, 2024
Binance tekee yhteistyötä Argentiinan kanssa kyberrikollisuuden torjumiseksi
Lausunto Bisnes markkinat Uutisraportti Tuotteemme Elektroniikka
Binance tekee yhteistyötä Argentiinan kanssa kyberrikollisuuden torjumiseksi
Voi 13, 2024
Over Protocol aikoo käynnistää verkkonsa kesäkuussa, koska sen testiverkko houkuttelee yli 750,000 XNUMX käyttäjää
Uutisraportti Elektroniikka
Over Protocol aikoo käynnistää verkkonsa kesäkuussa, koska sen testiverkko houkuttelee yli 750,000 XNUMX käyttäjää
Voi 13, 2024
CRYPTOMERIA LABS PTE. OY.