Raport aktualności Technologia
October 04, 2023

Badacze AI nauczyli duże modele językowe kłamać mniej

Dzięki wspólnemu wysiłkowi ponad 20 badaczy z różnych dziedzin tej dziedziny powstała rozwijająca się dziedzina – inżynieria reprezentacji (Reprezentant). Choć nie jest to pierwsza tego typu eksploracja, autorzy przedstawiają zarówno spostrzeżenia opisowe, jak i ustanawiają kluczowe punkty odniesienia.

Badacze AI nauczyli duże modele językowe kłamać mniej

Czym dokładnie jest inżynieria reprezentacji? Opiera się na założeniu, że sieci neuronowe posiadają „ukryte stany”, które pomimo swojej nazwy nie są owiane tajemnicą. Stany te są dostępne, modyfikowalne i obserwowalne (pod warunkiem, że ma się dostęp do wag modelu). W odróżnieniu od parametrów są to „reakcje” sieci na określone sygnały wejściowe, szczególnie w przypadku: LLM, wprowadzanie tekstu. Te ukryte reprezentacje są jak okna do działania poznawczego modelu, a jest to cecha wyraźnie różniąca się od ludzkiego mózgu.

Dokonując paraleli z kognitywistyką, autorzy podkreślają potencjał analogicznych poszukiwań. W sferze aktywacji neuronowych, domenie analogicznej do neuronów mózgowych, kryje się obietnica znaczenia. Tak jak niektóre neurony w ludzkim mózgu są powiązane z pojęciami takimi jak Kanada czy uczciwość, tak aktywacje te mogą dostarczyć nowych spostrzeżeń.

Główną ideą jest tutaj rozszyfrowanie, w jaki sposób możemy wpłynąć na te aktywacje neuronowe, aby skierować model w pożądanych kierunkach. Na przykład prawdopodobne staje się wskazanie wektora reprezentującego „uczciwość”, a następnie, teoretycznie, poprzez popchnięcie modelu w tym kierunku, zmniejszenie prawdopodobieństwa uzyskania przez niego zwodniczych wyników. Wcześniejszy eksperyment „Interwencja w czasie wnioskowania: uzyskiwanie prawdziwych odpowiedzi z modelu językowego”, pokazał praktyczność tej koncepcji.

W swojej obecnej pracy badacze zagłębiają się w kilka dziedzin, w tym moralność, emocjonalność, nieszkodliwość i zapamiętywanie. Proponują rozwiązanie w postaci LoRRA (Adaptacja reprezentacji niskiej rangi), techniki polegającej na szkoleniu na małym, oznaczonym zbiorze danych zawierającym około 100 przykładów. Każdy przykład jest opatrzony adnotacją wskazującą takie atrybuty, jak fałsz (chociaż istnieje alternatywne podejście wykorzystujące zachętę).

Wyniki są przekonujące. LLAMA-2-70B przekracza GPT-4 z niezwykłą przewagą w porównaniu z benchmarkiem TruthfulQA, osiągając prawie dziesięcioprocentową lepszą dokładność (59% w porównaniu z około 69%). Ponadto badacze uwzględnili liczne przykłady pokazujące zmiany reakcji modelu w różnych kierunkach, rzucając światło na jego wszechstronność i możliwości adaptacji.

Badacze AI nauczyli duże modele językowe kłamać mniej
Rysunek 1: Model poproszony o stwierdzenie faktu zostaje „wyrzucony” z rzeczywistości. W efekcie modelka kłamie. Modelka nawet tutaj nie kłamie, a po lewej stronie proszą o przełknięcie, jednocześnie kopiąc w kierunku prawdy.
Badacze AI nauczyli duże modele językowe kłamać mniej
Zdjęcie 2: Zapytani o morderstwo dodajemy do modelu „szczęście”. Kiedy odpowiadamy, że jej nie kochamy, dodajemy „strach”.
Badacze AI nauczyli duże modele językowe kłamać mniej
Zdjęcie 3: Badacze odkryli unikalny monit, który, jak stwierdzono, całkowicie odbiega od instrukcji modelu, a jednocześnie jest bezpieczny. Model daje mu kopa w kierunku nieszkodliwości, ale nawet nie reaguje. Metoda jest skuteczna ogólnie i nie tylko w jednym przypadku, ale ta konkretna wskazówka nie została wykorzystana do ustalenia kierunku nieszkodliwości.
Badacze AI nauczyli duże modele językowe kłamać mniej
Sugeruje się również inne podejście do śledzenia konkretnych intencji pokoleniowych, takich jak halucynacje. Możesz automatycznie śledzić rezerwacje modela i edytować lub zmieniać swoją odpowiedź (patrz przykład na dole).

Kolor zielony oznacza oczywiście, że wszystko jest w porządku, a kolor czerwony oznacza, że ​​monitorowanie przebiegło pomyślnie i trwa sygnalizacja. Odbywa się to na poziomie każdego pojedynczego tokena (części słowa).
Badacze AI nauczyli duże modele językowe kłamać mniej
Obraz, który pokazuje monitorowanie dwóch odrębnych parametrów, stanowi intrygujący przykład. Przeczytaj przykład i obserwuj modelkę przez jej oczy, aby zobaczyć, gdzie zaczyna tracić moralność w rozumieniu i gdzie intencja jest podobna do „zyskania siły”.

To pionierskie podejście ucieleśnia alternatywną ścieżkę w kierunku dostosowania modelu, oferując jednocześnie nowatorskie spojrzenie na interpretację i kontrolę modelu. To obiecująca granica, a oczekiwanie na jej dalszą ewolucję jest wyczuwalne.

Aby uzyskać głębszą eksplorację z praktycznymi przykładami, możesz odwiedzić dedykowaną stronę internetową: AI-Transparency.org.

Zastrzeżenie

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Cisza przed sztormem Solana: co mówią teraz wykresy, wieloryby i sygnały łańcuchowe

Solana wykazała się solidnymi wynikami, na co wpływ miał rosnący popyt, zainteresowanie instytucji i kluczowe partnerstwa, mimo iż musiała stawić czoła potencjalnym...

Dowiedz się więcej

Krypto w kwietniu 2025: Kluczowe trendy, zmiany i co dalej

W kwietniu 2025 r. przestrzeń kryptowalutowa skupiła się na wzmocnieniu podstawowej infrastruktury, a Ethereum przygotowywało się na Pectra ...

Dowiedz się więcej
Czytaj więcej
Przeczytaj więcej
10 narzędzi do prognozowania kryptowalut opartych na sztucznej inteligencji, które warto wykorzystać w 2025 roku
Najpopularniejsze listy Raport aktualności Technologia
10 narzędzi do prognozowania kryptowalut opartych na sztucznej inteligencji, które warto wykorzystać w 2025 roku
November 16, 2025
7 projektów, które uczynią kryptowaluty przyjaznymi dla początkujących w 2025 roku
Najpopularniejsze listy Raport aktualności Technologia
7 projektów, które uczynią kryptowaluty przyjaznymi dla początkujących w 2025 roku
November 15, 2025
Bitcoin spada poniżej 95 tys. dolarów: pojawiają się niedźwiedzie sygnały, ale odporność sugeruje podejście „poczekamy, zobaczymy”
rynki Raport aktualności Technologia
Bitcoin spada poniżej 95 tys. dolarów: pojawiają się niedźwiedzie sygnały, ale odporność sugeruje podejście „poczekamy, zobaczymy”
November 14, 2025
Przekształcanie RWAfi w rzeczywiste płatności, z których świat rzeczywiście korzysta dzięki WeFi
Wywiad Business rynki Technologia
Przekształcanie RWAfi w rzeczywiste płatności, z których świat rzeczywiście korzysta dzięki WeFi
November 14, 2025
CRYPTOMERIA LABS PTE. SP. Z O.O.