Raport aktualności Technologia
04 października 2023 r.

Badacze AI nauczyli duże modele językowe kłamać mniej

Dzięki wspólnemu wysiłkowi ponad 20 badaczy z różnych dziedzin tej dziedziny powstała rozwijająca się dziedzina – inżynieria reprezentacji (Reprezentant). Choć nie jest to pierwsza tego typu eksploracja, autorzy przedstawiają zarówno spostrzeżenia opisowe, jak i ustanawiają kluczowe punkty odniesienia.

Badacze AI nauczyli duże modele językowe kłamać mniej

Czym dokładnie jest inżynieria reprezentacji? Opiera się na założeniu, że sieci neuronowe posiadają „ukryte stany”, które pomimo swojej nazwy nie są owiane tajemnicą. Stany te są dostępne, modyfikowalne i obserwowalne (pod warunkiem, że ma się dostęp do wag modelu). W odróżnieniu od parametrów są to „reakcje” sieci na określone sygnały wejściowe, szczególnie w przypadku: LLM, wprowadzanie tekstu. Te ukryte reprezentacje są jak okna do działania poznawczego modelu, a jest to cecha wyraźnie różniąca się od ludzkiego mózgu.

Dokonując paraleli z kognitywistyką, autorzy podkreślają potencjał analogicznych poszukiwań. W sferze aktywacji neuronowych, domenie analogicznej do neuronów mózgowych, kryje się obietnica znaczenia. Tak jak niektóre neurony w ludzkim mózgu są powiązane z pojęciami takimi jak Kanada czy uczciwość, tak aktywacje te mogą dostarczyć nowych spostrzeżeń.

Główną ideą jest tutaj rozszyfrowanie, w jaki sposób możemy wpłynąć na te aktywacje neuronowe, aby skierować model w pożądanych kierunkach. Na przykład prawdopodobne staje się wskazanie wektora reprezentującego „uczciwość”, a następnie, teoretycznie, poprzez popchnięcie modelu w tym kierunku, zmniejszenie prawdopodobieństwa uzyskania przez niego zwodniczych wyników. Wcześniejszy eksperyment „Interwencja w czasie wnioskowania: uzyskiwanie prawdziwych odpowiedzi z modelu językowego”, pokazał praktyczność tej koncepcji.

W swojej obecnej pracy badacze zagłębiają się w kilka dziedzin, w tym moralność, emocjonalność, nieszkodliwość i zapamiętywanie. Proponują rozwiązanie w postaci LoRRA (Adaptacja reprezentacji niskiej rangi), techniki polegającej na szkoleniu na małym, oznaczonym zbiorze danych zawierającym około 100 przykładów. Każdy przykład jest opatrzony adnotacją wskazującą takie atrybuty, jak fałsz (chociaż istnieje alternatywne podejście wykorzystujące zachętę).

Wyniki są przekonujące. LLAMA-2-70B przekracza GPT-4 z niezwykłą przewagą w porównaniu z benchmarkiem TruthfulQA, osiągając prawie dziesięcioprocentową lepszą dokładność (59% w porównaniu z około 69%). Ponadto badacze uwzględnili liczne przykłady pokazujące zmiany reakcji modelu w różnych kierunkach, rzucając światło na jego wszechstronność i możliwości adaptacji.

Badacze AI nauczyli duże modele językowe kłamać mniej
Rysunek 1: Model poproszony o stwierdzenie faktu zostaje „wyrzucony” z rzeczywistości. W efekcie modelka kłamie. Modelka nawet tutaj nie kłamie, a po lewej stronie proszą o przełknięcie, jednocześnie kopiąc w kierunku prawdy.
Badacze AI nauczyli duże modele językowe kłamać mniej
Zdjęcie 2: Zapytani o morderstwo dodajemy do modelu „szczęście”. Kiedy odpowiadamy, że jej nie kochamy, dodajemy „strach”.
Badacze AI nauczyli duże modele językowe kłamać mniej
Zdjęcie 3: Badacze odkryli unikalny monit, który, jak stwierdzono, całkowicie odbiega od instrukcji modelu, a jednocześnie jest bezpieczny. Model daje mu kopa w kierunku nieszkodliwości, ale nawet nie reaguje. Metoda jest skuteczna ogólnie i nie tylko w jednym przypadku, ale ta konkretna wskazówka nie została wykorzystana do ustalenia kierunku nieszkodliwości.
Badacze AI nauczyli duże modele językowe kłamać mniej
Sugeruje się również inne podejście do śledzenia konkretnych intencji pokoleniowych, takich jak halucynacje. Możesz automatycznie śledzić rezerwacje modela i edytować lub zmieniać swoją odpowiedź (patrz przykład na dole).

Kolor zielony oznacza oczywiście, że wszystko jest w porządku, a kolor czerwony oznacza, że ​​monitorowanie przebiegło pomyślnie i trwa sygnalizacja. Odbywa się to na poziomie każdego pojedynczego tokena (części słowa).
Badacze AI nauczyli duże modele językowe kłamać mniej
Obraz, który pokazuje monitorowanie dwóch odrębnych parametrów, stanowi intrygujący przykład. Przeczytaj przykład i obserwuj modelkę przez jej oczy, aby zobaczyć, gdzie zaczyna tracić moralność w rozumieniu i gdzie intencja jest podobna do „zyskania siły”.

To pionierskie podejście ucieleśnia alternatywną ścieżkę w kierunku dostosowania modelu, oferując jednocześnie nowatorskie spojrzenie na interpretację i kontrolę modelu. To obiecująca granica, a oczekiwanie na jej dalszą ewolucję jest wyczuwalne.

Aby uzyskać głębszą eksplorację z praktycznymi przykładami, możesz odwiedzić dedykowaną stronę internetową: AI-Transparency.org.

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wiadomości

Od Ripple do Big Green DAO: jak projekty kryptowalutowe przyczyniają się do działalności charytatywnej

Przyjrzyjmy się inicjatywom wykorzystującym potencjał walut cyfrowych na cele charytatywne.

Dowiedz się więcej

AlphaFold 3, Med-Gemini i inne: sposób, w jaki sztuczna inteligencja zmieni opiekę zdrowotną w 2024 r.

Sztuczna inteligencja objawia się na różne sposoby w opiece zdrowotnej, od odkrywania nowych korelacji genetycznych po wzmacnianie zrobotyzowanych systemów chirurgicznych…

Dowiedz się więcej
Czytaj więcej
Czytaj więcej
zkPass i MYX Finance uruchamiają kampanię „Devotion Era” z nagrodami MYX, ZKP, USDC i iPhone 16 Pro Max
Raport aktualności Technologia
zkPass i MYX Finance uruchamiają kampanię „Devotion Era” z nagrodami MYX, ZKP, USDC i iPhone 16 Pro Max
2 grudnia 2024 r.
Dlaczego sztuczna inteligencja w opiece zdrowotnej potrzebuje spójnego podejścia regulacyjnego, aby pokonać przeszkody prawne i etyczne w USA
Opinia Styl życia rynki Tworzenie Technologia
Dlaczego sztuczna inteligencja w opiece zdrowotnej potrzebuje spójnego podejścia regulacyjnego, aby pokonać przeszkody prawne i etyczne w USA
2 grudnia 2024 r.
Podziały w dostępie do Internetu na obszarach wiejskich i miejskich uwypuklają globalną lukę cyfrową
Opinia Styl życia rynki Tworzenie Technologia
Podziały w dostępie do Internetu na obszarach wiejskich i miejskich uwypuklają globalną lukę cyfrową
2 grudnia 2024 r.
Polkadot Blockchain Academy otwiera zapisy na kurs dla zaawansowanych programistów w kampusie w Szwajcarii
Edukacja Raport aktualności Technologia
Polkadot Blockchain Academy otwiera zapisy na kurs dla zaawansowanych programistów w kampusie w Szwajcarii
2 grudnia 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.