AI 연구자들은 대규모 언어 모델에 거짓말을 덜하도록 가르쳤습니다.


다양한 분야의 연구자 20명이 참여하는 공동 노력으로 급성장하는 도메인이 탄생했습니다. 표현공학 (대표). 이것이 이러한 종류의 첫 번째 탐구는 아니지만 저자는 설명적인 통찰력을 제시하고 중요한 벤치마크를 설정하고 있습니다.

그렇다면 표현공학이란 정확히 무엇인가? 이는 신경망이 이름에도 불구하고 비밀에 싸여 있지 않은 "숨겨진 상태"를 가지고 있다는 개념을 중심으로 전개됩니다. 이러한 상태는 액세스 가능하고 수정 가능하며 관찰 가능합니다(모델의 가중치에 액세스할 수 있는 경우). 매개변수와 달리 이는 특정 입력에 대한 네트워크의 "반응"입니다. 특히 다음과 같은 경우에는 더욱 그렇습니다. LLM, 텍스트 입력. 이러한 숨겨진 표현은 모델의 인지 작업을 보여주는 창과 같으며, 이는 인간의 두뇌와는 확연히 다른 특징입니다.
저자는 인지과학과 유사점을 도출하면서 유사한 탐구의 잠재력을 강조합니다. 신경 활성화 영역에서는 뇌 뉴런과 유사한 영역이 의미의 약속을 담고 있습니다. 인간 두뇌의 특정 뉴런이 캐나다나 정직과 같은 개념과 연결되어 있는 것처럼 이러한 활성화는 통찰력을 얻을 수 있습니다.
여기서 핵심 아이디어는 모델을 원하는 방향으로 조종하기 위해 이러한 신경 활성화에 어떻게 영향을 미칠 수 있는지 해독하는 것입니다. 예를 들어, "정직함"을 나타내는 벡터를 정확히 찾아낸 다음 이론적으로 모델을 이 방향으로 움직여 기만적인 결과가 나올 가능성을 줄이는 것이 타당해집니다. 이전 실험 "추론 시간 개입: 언어 모델에서 진실한 답변 도출,”는 이 개념의 실용성을 입증했습니다.
현재 연구에서 연구자들은 도덕성, 감정성, 무해성, 암기 등 여러 영역을 조사하고 있습니다. 그들은 약 100개의 예시로 구성된 작은 레이블이 지정된 데이터 세트에 대한 교육을 포함하는 기술인 LoRRA(Low-Rank Representation Adaptation) 형식의 솔루션을 제안합니다. 각 예에는 주석이 달려 있어 거짓과 같은 속성을 나타냅니다(프롬프트를 사용하는 대체 접근 방식이 존재하더라도).
결과는 설득력이 있습니다. LLAMA-2-70B 초과 GPT-4 TruthfulQA 벤치마크에서 놀라운 차이로 거의 59% 더 나은 정확도를 달성했습니다(69% 대 약 XNUMX%). 또한 연구원들은 모델의 다양한 방향으로의 반응 변화를 보여주는 수많은 사례를 통합하여 모델의 다양성과 적응성을 밝혔습니다.




물론 녹색은 모든 것이 정상임을 나타내고, 빨간색은 모니터링이 성공하여 신호를 보내는 중임을 나타냅니다. 이는 각 개별 토큰(단어의 일부) 수준에서 수행됩니다.

이 선구적인 접근 방식은 모델 정렬을 향한 대안적인 경로를 구현하는 동시에 모델 해석 및 제어에 대한 새로운 관점을 제공합니다. 이는 유망한 개척지이며 지속적인 발전에 대한 기대가 뚜렷합니다.
실제 사례를 통해 더 깊이 탐구하려면 전용 웹사이트를 방문하세요. AI-Transparency.org.
책임 부인
줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.
저자에 관하여
Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.
더 많은 기사

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.