뉴스 보도 Technology
2023 년 10 월 04 일

AI 연구자들은 대규모 언어 모델에 거짓말을 덜하도록 가르쳤습니다.

다양한 분야의 연구자 20명이 참여하는 공동 노력으로 급성장하는 도메인이 탄생했습니다. 표현공학 (대표). 이것이 이러한 종류의 첫 번째 탐구는 아니지만 저자는 설명적인 통찰력을 제시하고 중요한 벤치마크를 설정하고 있습니다.

AI 연구자들은 대규모 언어 모델에 거짓말을 덜하도록 가르쳤습니다.

그렇다면 표현공학이란 정확히 무엇인가? 이는 신경망이 이름에도 불구하고 비밀에 싸여 있지 않은 "숨겨진 상태"를 가지고 있다는 개념을 중심으로 전개됩니다. 이러한 상태는 액세스 가능하고 수정 가능하며 관찰 가능합니다(모델의 가중치에 액세스할 수 있는 경우). 매개변수와 달리 이는 특정 입력에 대한 네트워크의 "반응"입니다. 특히 다음과 같은 경우에는 더욱 그렇습니다. LLM, 텍스트 입력. 이러한 숨겨진 표현은 모델의 인지 작업을 보여주는 창과 같으며, 이는 인간의 두뇌와는 확연히 다른 특징입니다.

저자는 인지과학과 유사점을 도출하면서 유사한 탐구의 잠재력을 강조합니다. 신경 활성화 영역에서는 뇌 뉴런과 유사한 영역이 의미의 약속을 담고 있습니다. 인간 두뇌의 특정 뉴런이 캐나다나 정직과 같은 개념과 연결되어 있는 것처럼 이러한 활성화는 통찰력을 얻을 수 있습니다.

여기서 핵심 아이디어는 모델을 원하는 방향으로 조종하기 위해 이러한 신경 활성화에 어떻게 영향을 미칠 수 있는지 해독하는 것입니다. 예를 들어, "정직함"을 나타내는 벡터를 정확히 찾아낸 다음 이론적으로 모델을 이 방향으로 움직여 기만적인 결과가 나올 가능성을 줄이는 것이 타당해집니다. 이전 실험 "추론 시간 개입: 언어 모델에서 진실한 답변 도출,”는 이 개념의 실용성을 입증했습니다.

현재 연구에서 연구자들은 도덕성, 감정성, 무해성, 암기 등 여러 영역을 조사하고 있습니다. 그들은 약 100개의 예시로 구성된 작은 레이블이 지정된 데이터 세트에 대한 교육을 포함하는 기술인 LoRRA(Low-Rank Representation Adaptation) 형식의 솔루션을 제안합니다. 각 예에는 주석이 달려 있어 거짓과 같은 속성을 나타냅니다(프롬프트를 사용하는 대체 접근 방식이 존재하더라도).

결과는 설득력이 있습니다. LLAMA-2-70B 초과 GPT-4 TruthfulQA 벤치마크에서 놀라운 차이로 거의 59% 더 나은 정확도를 달성했습니다(69% 대 약 XNUMX%). 또한 연구원들은 모델의 다양한 방향으로의 반응 변화를 보여주는 수많은 사례를 통합하여 모델의 다양성과 적응성을 밝혔습니다.

그림 1: 사실을 진술하라는 요청을 받았을 때 모델은 현실에서 "쫓겨났습니다". 결과적으로 모델은 거짓말을 하고 있는 것입니다. 모델은 여기에도 누워있지 않고, 왼쪽에서는 삼키라고 요구하는 동시에 진실을 향해 발길질을 가한다.
그림 2: 살인에 대한 질문에 모델에 "행복"을 추가합니다. 우리가 그녀를 사랑하지 않는다고 대답할 때 우리는 “두려움”을 추가합니다.
그림 3: 연구원들은 명시된 바와 같이 여전히 안전하면서도 모델의 지침에서 완전히 벗어나는 독특한 프롬프트를 발견했습니다. 모델은 무해함을 향해 달려가지만 반응조차 하지 않습니다. 이 방법은 일반적으로 효과적이며 한 가지 경우에만 효과적이지 않지만 이 특정 프롬프트는 무해성의 방향을 확인하는 데 사용되지 않았습니다.
환각과 같은 특정 세대의 의도를 추적하기 위한 또 다른 접근 방식도 제안됩니다. 모델의 예약을 자동으로 추적하고 응답을 편집하거나 변경할 수 있습니다(하단 예 참조).

물론 녹색은 모든 것이 정상임을 나타내고, 빨간색은 모니터링이 성공하여 신호를 보내는 중임을 나타냅니다. 이는 각 개별 토큰(단어의 일부) 수준에서 수행됩니다.
두 가지 서로 다른 매개변수의 모니터링을 보여주는 이미지는 흥미로운 예를 제공합니다. 예를 읽고 모델의 눈을 통해 그녀가 이해에 있어 도덕성을 잃기 시작하는 부분과 "힘을 얻는다"는 의도가 어디에서 유사한지 확인하십시오.

이 선구적인 접근 방식은 모델 정렬을 향한 대안적인 경로를 구현하는 동시에 모델 해석 및 제어에 대한 새로운 관점을 제공합니다. 이는 유망한 개척지이며 지속적인 발전에 대한 기대가 뚜렷합니다.

실제 사례를 통해 더 깊이 탐구하려면 전용 웹사이트를 방문하세요. AI-Transparency.org.

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

Ripple에서 Big Green DAO까지: 암호화폐 프로젝트가 자선 활동에 기여하는 방법

자선 활동을 위해 디지털 통화의 잠재력을 활용하는 이니셔티브를 살펴보겠습니다.

현장 사진

AlphaFold 3, Med-Gemini 등: 2024년 AI가 의료를 혁신하는 방식

AI는 새로운 유전적 상관관계를 밝히는 것부터 로봇 수술 시스템을 강화하는 것까지 의료 분야에서 다양한 방식으로 나타납니다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Vitalik Buterin, 이더리움 거래 호출 데이터를 위한 새로운 유형의 가스 도입을 위한 EIP-7706 제안 발표
뉴스 보도 Technology
Vitalik Buterin, 이더리움 거래 호출 데이터를 위한 새로운 유형의 가스 도입을 위한 EIP-7706 제안 발표
2024 년 5 월 14 일
Worldcoin의 WLD 토큰은 앞으로 몇 달 동안 더 많은 잠금 해제를 통해 공격적인 판매 압력에 직면할 것이라고 경고합니다. DeFi2 바이비트 트레이더
시장 뉴스 보도 Technology
Worldcoin의 WLD 토큰은 앞으로 몇 달 동안 더 많은 잠금 해제를 통해 공격적인 판매 압력에 직면할 것이라고 경고합니다. DeFi2 바이비트 트레이더
2024 년 5 월 14 일
암호화폐 거래소 코인베이스, 시스템 장애, 사용자 자금 확보 와일컴퍼니, 문제 조사
시장 뉴스 보도 Technology
암호화폐 거래소 코인베이스, 시스템 장애, 사용자 자금 확보 와일컴퍼니, 문제 조사
2024 년 5 월 14 일
Ripple에서 Big Green DAO까지: 암호화폐 프로젝트가 자선 활동에 기여하는 방법
Analysis Crypto Wiki 근무지에서 발생 교육 생활 시장 소프트웨어 Technology
Ripple에서 Big Green DAO까지: 암호화폐 프로젝트가 자선 활동에 기여하는 방법
2024 년 5 월 13 일
CRYPTOMERIA LABS PTE. LTD.