Raport aktualności Technologia
04 października 2023 r.

Badacze AI nauczyli duże modele językowe kłamać mniej

Dzięki wspólnemu wysiłkowi ponad 20 badaczy z różnych dziedzin tej dziedziny powstała rozwijająca się dziedzina – inżynieria reprezentacji (Reprezentant). Choć nie jest to pierwsza tego typu eksploracja, autorzy przedstawiają zarówno spostrzeżenia opisowe, jak i ustanawiają kluczowe punkty odniesienia.

Badacze AI nauczyli duże modele językowe kłamać mniej

Czym dokładnie jest inżynieria reprezentacji? Opiera się na założeniu, że sieci neuronowe posiadają „ukryte stany”, które pomimo swojej nazwy nie są owiane tajemnicą. Stany te są dostępne, modyfikowalne i obserwowalne (pod warunkiem, że ma się dostęp do wag modelu). W odróżnieniu od parametrów są to „reakcje” sieci na określone sygnały wejściowe, szczególnie w przypadku: LLM, wprowadzanie tekstu. Te ukryte reprezentacje są jak okna do działania poznawczego modelu, a jest to cecha wyraźnie różniąca się od ludzkiego mózgu.

Dokonując paraleli z kognitywistyką, autorzy podkreślają potencjał analogicznych poszukiwań. W sferze aktywacji neuronowych, domenie analogicznej do neuronów mózgowych, kryje się obietnica znaczenia. Tak jak niektóre neurony w ludzkim mózgu są powiązane z pojęciami takimi jak Kanada czy uczciwość, tak aktywacje te mogą dostarczyć nowych spostrzeżeń.

Główną ideą jest tutaj rozszyfrowanie, w jaki sposób możemy wpłynąć na te aktywacje neuronowe, aby skierować model w pożądanych kierunkach. Na przykład prawdopodobne staje się wskazanie wektora reprezentującego „uczciwość”, a następnie, teoretycznie, poprzez popchnięcie modelu w tym kierunku, zmniejszenie prawdopodobieństwa uzyskania przez niego zwodniczych wyników. Wcześniejszy eksperyment „Interwencja w czasie wnioskowania: uzyskiwanie prawdziwych odpowiedzi z modelu językowego”, pokazał praktyczność tej koncepcji.

W swojej obecnej pracy badacze zagłębiają się w kilka dziedzin, w tym moralność, emocjonalność, nieszkodliwość i zapamiętywanie. Proponują rozwiązanie w postaci LoRRA (Adaptacja reprezentacji niskiej rangi), techniki polegającej na szkoleniu na małym, oznaczonym zbiorze danych zawierającym około 100 przykładów. Każdy przykład jest opatrzony adnotacją wskazującą takie atrybuty, jak fałsz (chociaż istnieje alternatywne podejście wykorzystujące zachętę).

Wyniki są przekonujące. LLAMA-2-70B przekracza GPT-4 z niezwykłą przewagą w porównaniu z benchmarkiem TruthfulQA, osiągając prawie dziesięcioprocentową lepszą dokładność (59% w porównaniu z około 69%). Ponadto badacze uwzględnili liczne przykłady pokazujące zmiany reakcji modelu w różnych kierunkach, rzucając światło na jego wszechstronność i możliwości adaptacji.

Rysunek 1: Model poproszony o stwierdzenie faktu zostaje „wyrzucony” z rzeczywistości. W efekcie modelka kłamie. Modelka nawet tutaj nie kłamie, a po lewej stronie proszą o przełknięcie, jednocześnie kopiąc w kierunku prawdy.
Zdjęcie 2: Zapytani o morderstwo dodajemy do modelu „szczęście”. Kiedy odpowiadamy, że jej nie kochamy, dodajemy „strach”.
Zdjęcie 3: Badacze odkryli unikalny monit, który, jak stwierdzono, całkowicie odbiega od instrukcji modelu, a jednocześnie jest bezpieczny. Model daje mu kopa w kierunku nieszkodliwości, ale nawet nie reaguje. Metoda jest skuteczna ogólnie i nie tylko w jednym przypadku, ale ta konkretna wskazówka nie została wykorzystana do ustalenia kierunku nieszkodliwości.
Sugeruje się również inne podejście do śledzenia konkretnych intencji pokoleniowych, takich jak halucynacje. Możesz automatycznie śledzić rezerwacje modela i edytować lub zmieniać swoją odpowiedź (patrz przykład na dole).

Kolor zielony oznacza oczywiście, że wszystko jest w porządku, a kolor czerwony oznacza, że ​​monitorowanie przebiegło pomyślnie i trwa sygnalizacja. Odbywa się to na poziomie każdego pojedynczego tokena (części słowa).
Intrygującym przykładem jest zdjęcie przedstawiające monitorowanie dwóch różnych parametrów. Przeczytaj przykład i obserwuj modelkę jego oczami, aby zobaczyć, gdzie zaczyna tracić moralność w rozumieniu, a gdzie intencja jest podobna do „nabycia siły”.

To pionierskie podejście ucieleśnia alternatywną ścieżkę w kierunku dostosowania modelu, oferując jednocześnie nowatorskie spojrzenie na interpretację i kontrolę modelu. To obiecująca granica, a oczekiwanie na jej dalszą ewolucję jest wyczuwalne.

Aby uzyskać głębszą eksplorację z praktycznymi przykładami, możesz odwiedzić dedykowaną stronę internetową: AI-Transparency.org.

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

AlphaFold 3, Med-Gemini i inne: sposób, w jaki sztuczna inteligencja zmieni opiekę zdrowotną w 2024 r.

Sztuczna inteligencja objawia się na różne sposoby w opiece zdrowotnej, od odkrywania nowych korelacji genetycznych po wzmacnianie zrobotyzowanych systemów chirurgicznych…

Dowiedz się więcej

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
AlphaFold 3, Med-Gemini i inne: sposób, w jaki sztuczna inteligencja zmieni opiekę zdrowotną w 2024 r.
AI Wiki Analiza Digest Opinia Biznes rynki Raport aktualności Tworzenie Historie i recenzje Technologia
AlphaFold 3, Med-Gemini i inne: sposób, w jaki sztuczna inteligencja zmieni opiekę zdrowotną w 2024 r.
13 maja 2024 r.
Sieć Nim wdroży ramy tokenizacji własności AI i przeprowadzi sprzedaż zysków z datą migawki zaplanowaną na maj
rynki Raport aktualności Technologia
Sieć Nim wdroży ramy tokenizacji własności AI i przeprowadzi sprzedaż zysków z datą migawki zaplanowaną na maj
13 maja 2024 r.
Binance współpracuje z Argentyną w walce z cyberprzestępczością
Opinia Biznes rynki Raport aktualności Tworzenie Technologia
Binance współpracuje z Argentyną w walce z cyberprzestępczością
13 maja 2024 r.
Over Protocol planuje uruchomić swoją sieć główną w czerwcu, ponieważ sieć testowa przyciąga ponad 750,000 XNUMX użytkowników
Raport aktualności Technologia
Over Protocol planuje uruchomić swoją sieć główną w czerwcu, ponieważ sieć testowa przyciąga ponad 750,000 XNUMX użytkowników
13 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.