Badacze AI nauczyli duże modele językowe kłamać mniej
Dzięki wspólnemu wysiłkowi ponad 20 badaczy z różnych dziedzin tej dziedziny powstała rozwijająca się dziedzina – inżynieria reprezentacji (Reprezentant). Choć nie jest to pierwsza tego typu eksploracja, autorzy przedstawiają zarówno spostrzeżenia opisowe, jak i ustanawiają kluczowe punkty odniesienia.
Czym dokładnie jest inżynieria reprezentacji? Opiera się na założeniu, że sieci neuronowe posiadają „ukryte stany”, które pomimo swojej nazwy nie są owiane tajemnicą. Stany te są dostępne, modyfikowalne i obserwowalne (pod warunkiem, że ma się dostęp do wag modelu). W odróżnieniu od parametrów są to „reakcje” sieci na określone sygnały wejściowe, szczególnie w przypadku: LLM, wprowadzanie tekstu. Te ukryte reprezentacje są jak okna do działania poznawczego modelu, a jest to cecha wyraźnie różniąca się od ludzkiego mózgu.
Dokonując paraleli z kognitywistyką, autorzy podkreślają potencjał analogicznych poszukiwań. W sferze aktywacji neuronowych, domenie analogicznej do neuronów mózgowych, kryje się obietnica znaczenia. Tak jak niektóre neurony w ludzkim mózgu są powiązane z pojęciami takimi jak Kanada czy uczciwość, tak aktywacje te mogą dostarczyć nowych spostrzeżeń.
Główną ideą jest tutaj rozszyfrowanie, w jaki sposób możemy wpłynąć na te aktywacje neuronowe, aby skierować model w pożądanych kierunkach. Na przykład prawdopodobne staje się wskazanie wektora reprezentującego „uczciwość”, a następnie, teoretycznie, poprzez popchnięcie modelu w tym kierunku, zmniejszenie prawdopodobieństwa uzyskania przez niego zwodniczych wyników. Wcześniejszy eksperyment „Interwencja w czasie wnioskowania: uzyskiwanie prawdziwych odpowiedzi z modelu językowego”, pokazał praktyczność tej koncepcji.
W swojej obecnej pracy badacze zagłębiają się w kilka dziedzin, w tym moralność, emocjonalność, nieszkodliwość i zapamiętywanie. Proponują rozwiązanie w postaci LoRRA (Adaptacja reprezentacji niskiej rangi), techniki polegającej na szkoleniu na małym, oznaczonym zbiorze danych zawierającym około 100 przykładów. Każdy przykład jest opatrzony adnotacją wskazującą takie atrybuty, jak fałsz (chociaż istnieje alternatywne podejście wykorzystujące zachętę).
Wyniki są przekonujące. LLAMA-2-70B przekracza GPT-4 z niezwykłą przewagą w porównaniu z benchmarkiem TruthfulQA, osiągając prawie dziesięcioprocentową lepszą dokładność (59% w porównaniu z około 69%). Ponadto badacze uwzględnili liczne przykłady pokazujące zmiany reakcji modelu w różnych kierunkach, rzucając światło na jego wszechstronność i możliwości adaptacji.
To pionierskie podejście ucieleśnia alternatywną ścieżkę w kierunku dostosowania modelu, oferując jednocześnie nowatorskie spojrzenie na interpretację i kontrolę modelu. To obiecująca granica, a oczekiwanie na jej dalszą ewolucję jest wyczuwalne.
Aby uzyskać głębszą eksplorację z praktycznymi przykładami, możesz odwiedzić dedykowaną stronę internetową: AI-Transparency.org.
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.