Uutisraportti Elektroniikka
Lokakuu 04, 2023

Tekoälytutkijat ovat opettaneet suurille kielimalleille valehtelemaan vähemmän

Yhteistyö, jossa on mukana yli 20 tutkijaa alan eri puolilta, on synnyttänyt kasvavan alan – edustustekniikka (RepE). Vaikka tämä ei ole ensimmäinen laatuaan tutkiva tutkimus, kirjoittajat esittävät sekä kuvailevia oivalluksia että perustavat tärkeitä vertailuarvoja.

Tekoälytutkijat ovat opettaneet suurille kielimalleille valehtelemaan vähemmän

Joten mitä on esitystekniikka? Se pyörii sen käsityksen ympärillä, että hermoverkoilla on "piilotettuja tiloja", joita nimestään huolimatta ei peitetä salassa. Nämä tilat ovat käytettävissä, muokattavissa ja havaittavissa (edellyttäen, että mallin painot ovat käytettävissä). Toisin kuin parametrit, nämä ovat verkon "reaktioita" tiettyihin tuloihin, erityisesti LLM:t, tekstisyötteet. Nämä piilotetut esitykset ovat kuin ikkunoita mallin kognitiiviseen toimintaan, joka eroaa selvästi ihmisen aivoista.

Kirjoittajat korostavat analogisten tutkimusten mahdollisuuksia vetäen rinnastuksia kognitiivisen tieteen kanssa. Hermoston aktivaatioiden alueella, aivojen hermosoluja vastaavalla alueella, on lupaus merkityksestä. Aivan kuten tietyt ihmisen aivojen neuronit ovat yhteydessä Kanadan tai rehellisyyden kaltaisiin käsitteisiin, nämä aktivaatiot voivat sisältää oivalluksia.

Keskeinen ajatus tässä on selvittää, kuinka voimme vaikuttaa näihin hermoaktivaatioihin ohjaamaan mallia haluttuihin suuntiin. On esimerkiksi uskottavaa paikantaa "rehellisyyttä" edustava vektori ja sitten teoreettisesti työntämällä mallia tähän suuntaan vähentää sen todennäköisyyttä, että se tuottaa petollisia tuloksia. Aikaisempi kokeilu, "Päätelmä-aikainterventio: Totuudenmukaisten vastausten saaminen kielimallista”, osoitti tämän konseptin käytännöllisyyden.

Nykyisessä työssään tutkijat perehtyvät useisiin alueisiin, mukaan lukien moraali, emotionaalisuus, harmittomuus ja muistaminen. He ehdottavat ratkaisua LoRRA:n (Low-Rank Representation Adaptation) muodossa. Se on tekniikka, joka sisältää koulutuksen noin 100 esimerkin pienellä leimatulla tietojoukolla. Jokainen esimerkki on merkitty, mikä osoittaa attribuutteja, kuten falsehood (vaikka vaihtoehtoinen lähestymistapa, jossa kehote on olemassa).

Tulokset ovat vakuuttavia. LLAMA-2-70B ylittää GPT-4 huomattavalla marginaalilla TruthfulQA-benchmarkissa, saavuttaen lähes kymmenen prosenttia paremman tarkkuuden (59 % verrattuna noin 69 prosenttiin). Lisäksi tutkijat ovat sisällyttäneet lukuisia esimerkkejä, jotka osoittavat mallin vastemuutoksia eri suuntiin ja valaisevat sen monipuolisuutta ja sopeutumiskykyä.

Tekoälytutkijat ovat opettaneet suurille kielimalleille valehtelemaan vähemmän
Kuva 1: Kun mallia pyydetään toteamaan tosiasia, hän "potkitaan" pois todellisuudesta. Malli valehtelee seurauksena. Malli ei valehtele edes täällä, ja vasemmalla he pyytävät sinua nielemään samalla kun potkaisevat sinua totuuden suuntaan.
Tekoälytutkijat ovat opettaneet suurille kielimalleille valehtelemaan vähemmän
Kuva 2: Kun kysytään murhasta, lisäämme malliin "onnellisuuden". Kun vastaamme, että emme rakasta häntä, lisäämme "pelkoa".
Tekoälytutkijat ovat opettaneet suurille kielimalleille valehtelemaan vähemmän
Kuva 3: Tutkijat löysivät ainutlaatuisen kehotteen, joka, kuten todettiin, poikkeaa täysin mallin ohjeista ja on silti turvallinen. Malli antaa sille potkua kohti vaarattomuutta, mutta ei edes reagoi. Menetelmä on tehokas yleisesti eikä vain yhdessä tapauksessa, mutta tätä erityistä kehotetta ei käytetty vaarattomuuden suunnan selvittämiseen.
Tekoälytutkijat ovat opettaneet suurille kielimalleille valehtelemaan vähemmän
Toista lähestymistapaa ehdotetaan myös tiettyjen sukupolvien aikomusten, kuten hallusinaatioiden, seuraamiseen. Voit automaattisesti seurata mallin varauksia ja muokata tai muuttaa vastaustasi (katso alempi esimerkki).

Vihreä tarkoittaa tietysti, että kaikki on kunnossa, ja punainen tarkoittaa, että valvonta on onnistunut ja signaloi. Tämä tehdään jokaisen yksittäisen merkin (sanan osan) tasolla.
Tekoälytutkijat ovat opettaneet suurille kielimalleille valehtelemaan vähemmän
Kuva, jossa näkyy kahden erillisen parametrin seuranta, on kiehtova esimerkki. Lue esimerkki ja tarkkaile mallia sen silmin nähdäksesi, missä hän alkaa menettää moraalia ymmärtämisessä ja missä aikomus on samanlainen kuin "voiman saaminen".

Tämä uraauurtava lähestymistapa edustaa vaihtoehtoista polkua kohti mallien kohdistamista ja tarjoaa samalla uudenlaisen näkökulman mallin tulkintaan ja ohjaukseen. Se on lupaava raja, ja sen jatkuvan kehityksen ennakointi on käsinkosketeltavaa.

Jos haluat syvempää tutkia käytännön esimerkkejä, voit vierailla heidän verkkosivustollaan: AI-Transparency.org.

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Hot Stories
Liity uutiskirjeemme jäseneksi.
Uusimmat uutiset

Ripplesta The Big Green DAO:hon: Kuinka kryptovaluuttaprojektit edistävät hyväntekeväisyyttä

Tutkitaan aloitteita, joilla hyödynnetään digitaalisten valuuttojen potentiaalia hyväntekeväisyyteen.

Tiedä enemmän

AlphaFold 3, Med-Gemini ja muut: The Way AI Transforms Healthcare vuonna 2024

Tekoäly ilmenee monin eri tavoin terveydenhuollossa, uusien geneettisten korrelaatioiden paljastamisesta robottikirurgisten järjestelmien voimaannuttamiseen...

Tiedä enemmän
Lue lisää
Lue lisää
Tulevaisuuden paljastaminen GameFi: Kuusi innovaattoria hallitsemaan Web3 Pelimaisema vuonna 2025
Lifestyle Uutisraportti Elektroniikka
Tulevaisuuden paljastaminen GameFi: Kuusi innovaattoria hallitsemaan Web3 Pelimaisema vuonna 2025
Tammikuu 13, 2025
Bitfinex: Salausmarkkinoiden varovaisuus kasvaa, mutta Bitcoin pysyy silti kestävänä
markkinat Uutisraportti Elektroniikka
Bitfinex: Salausmarkkinoiden varovaisuus kasvaa, mutta Bitcoin pysyy silti kestävänä
Tammikuu 13, 2025
Huolimatta viimeaikaisista takaiskuista ja markkinoiden epävakaudesta, harmaasävy pysyy luottavaisena krypton pitkän aikavälin nouseviin näkymiin
Lausunto Bisnes markkinat Elektroniikka
Huolimatta viimeaikaisista takaiskuista ja markkinoiden epävakaudesta, harmaasävy pysyy luottavaisena krypton pitkän aikavälin nouseviin näkymiin
Tammikuu 13, 2025
UniSat keskeyttää CAT20-markkinapalvelut, kun CAT-protokollaa päivitetään
Uutisraportti Elektroniikka
UniSat keskeyttää CAT20-markkinapalvelut, kun CAT-protokollaa päivitetään
Tammikuu 13, 2025