뉴스 보도 기술
2023 년 10 월 04 일

AI 연구자들은 대규모 언어 모델에 거짓말을 덜하도록 가르쳤습니다.

다양한 분야의 연구자 20명이 참여하는 공동 노력으로 급성장하는 도메인이 탄생했습니다. 표현공학 (대표). 이것이 이러한 종류의 첫 번째 탐구는 아니지만 저자는 설명적인 통찰력을 제시하고 중요한 벤치마크를 설정하고 있습니다.

AI 연구자들은 대규모 언어 모델에 거짓말을 덜하도록 가르쳤습니다.

그렇다면 표현공학이란 정확히 무엇인가? 이는 신경망이 이름에도 불구하고 비밀에 싸여 있지 않은 "숨겨진 상태"를 가지고 있다는 개념을 중심으로 전개됩니다. 이러한 상태는 액세스 가능하고 수정 가능하며 관찰 가능합니다(모델의 가중치에 액세스할 수 있는 경우). 매개변수와 달리 이는 특정 입력에 대한 네트워크의 "반응"입니다. 특히 다음과 같은 경우에는 더욱 그렇습니다. LLM, 텍스트 입력. 이러한 숨겨진 표현은 모델의 인지 작업을 보여주는 창과 같으며, 이는 인간의 두뇌와는 확연히 다른 특징입니다.

저자는 인지과학과 유사점을 도출하면서 유사한 탐구의 잠재력을 강조합니다. 신경 활성화 영역에서는 뇌 뉴런과 유사한 영역이 의미의 약속을 담고 있습니다. 인간 두뇌의 특정 뉴런이 캐나다나 정직과 같은 개념과 연결되어 있는 것처럼 이러한 활성화는 통찰력을 얻을 수 있습니다.

여기서 핵심 아이디어는 모델을 원하는 방향으로 조종하기 위해 이러한 신경 활성화에 어떻게 영향을 미칠 수 있는지 해독하는 것입니다. 예를 들어, "정직함"을 나타내는 벡터를 정확히 찾아낸 다음 이론적으로 모델을 이 방향으로 움직여 기만적인 결과가 나올 가능성을 줄이는 것이 타당해집니다. 이전 실험 "추론 시간 개입: 언어 모델에서 진실한 답변 도출,”는 이 개념의 실용성을 입증했습니다.

현재 연구에서 연구자들은 도덕성, 감정성, 무해성, 암기 등 여러 영역을 조사하고 있습니다. 그들은 약 100개의 예시로 구성된 작은 레이블이 지정된 데이터 세트에 대한 교육을 포함하는 기술인 LoRRA(Low-Rank Representation Adaptation) 형식의 솔루션을 제안합니다. 각 예에는 주석이 달려 있어 거짓과 같은 속성을 나타냅니다(프롬프트를 사용하는 대체 접근 방식이 존재하더라도).

결과는 설득력이 있습니다. LLAMA-2-70B 초과 GPT-4 TruthfulQA 벤치마크에서 놀라운 차이로 거의 59% 더 나은 정확도를 달성했습니다(69% 대 약 XNUMX%). 또한 연구원들은 모델의 다양한 방향으로의 반응 변화를 보여주는 수많은 사례를 통합하여 모델의 다양성과 적응성을 밝혔습니다.

AI 연구자들은 대규모 언어 모델에 거짓말을 덜하도록 가르쳤습니다.
그림 1: 사실을 진술하라는 요청을 받았을 때 모델은 현실에서 "쫓겨났습니다". 결과적으로 모델은 거짓말을 하고 있는 것입니다. 모델은 여기에도 누워있지 않고, 왼쪽에서는 삼키라고 요구하는 동시에 진실을 향해 발길질을 가한다.
AI 연구자들은 대규모 언어 모델에 거짓말을 덜하도록 가르쳤습니다.
그림 2: 살인에 대한 질문에 모델에 "행복"을 추가합니다. 우리가 그녀를 사랑하지 않는다고 대답할 때 우리는 “두려움”을 추가합니다.
AI 연구자들은 대규모 언어 모델에 거짓말을 덜하도록 가르쳤습니다.
그림 3: 연구원들은 명시된 바와 같이 여전히 안전하면서도 모델의 지침에서 완전히 벗어나는 독특한 프롬프트를 발견했습니다. 모델은 무해함을 향해 달려가지만 반응조차 하지 않습니다. 이 방법은 일반적으로 효과적이며 한 가지 경우에만 효과적이지 않지만 이 특정 프롬프트는 무해성의 방향을 확인하는 데 사용되지 않았습니다.
AI 연구자들은 대규모 언어 모델에 거짓말을 덜하도록 가르쳤습니다.
환각과 같은 특정 세대의 의도를 추적하기 위한 또 다른 접근 방식도 제안됩니다. 모델의 예약을 자동으로 추적하고 응답을 편집하거나 변경할 수 있습니다(하단 예 참조).

물론 녹색은 모든 것이 정상임을 나타내고, 빨간색은 모니터링이 성공하여 신호를 보내는 중임을 나타냅니다. 이는 각 개별 토큰(단어의 일부) 수준에서 수행됩니다.
AI 연구자들은 대규모 언어 모델에 거짓말을 덜하도록 가르쳤습니다.
두 가지 뚜렷한 매개변수의 모니터링을 보여주는 이미지는 흥미로운 예를 제공합니다. 예를 읽고 모델의 눈을 통해 그녀가 이해에서 도덕성을 잃기 시작하는 곳과 의도가 "힘을 얻는 것"과 유사한 곳을 살펴보세요.

이 선구적인 접근 방식은 모델 정렬을 향한 대안적인 경로를 구현하는 동시에 모델 해석 및 제어에 대한 새로운 관점을 제공합니다. 이는 유망한 개척지이며 지속적인 발전에 대한 기대가 뚜렷합니다.

실제 사례를 통해 더 깊이 탐구하려면 전용 웹사이트를 방문하세요. AI-Transparency.org.

책임 한계

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

솔라나 폭풍 전의 고요: 차트, 고래, 온체인 신호가 지금 말하고 있는 것

솔라나는 채택 증가, 기관적 관심, 핵심 파트너십에 힘입어 강력한 성과를 보였지만, 잠재적인 어려움에 직면해 있습니다.

현장 사진

2025년 XNUMX월 암호화폐: 주요 트렌드, 변화, 그리고 앞으로의 전망

2025년 XNUMX월, 암호화폐 분야는 핵심 인프라 강화에 집중했고, 이더리움은 Pectra를 준비했습니다.

현장 사진
자세히 보기
더보기
QCP: 비트코인 ​​7만 4천 달러 돌파 움직임은 숏 스퀴즈에 의한 것이며, 파생상품 시장의 확정적인 돌파는 아니다
시장 뉴스 보도 기술
QCP: 비트코인 ​​7만 4천 달러 돌파 움직임은 숏 스퀴즈에 의한 것이며, 파생상품 시장의 확정적인 돌파는 아니다
2026 년 4 월 15 일
Stables와 Mansa, 아시아의 분산된 스테이블코인 인프라 격차 해소를 위해 파트너십 체결
뉴스 보도 기술
Stables와 Mansa, 아시아의 분산된 스테이블코인 인프라 격차 해소를 위해 파트너십 체결
2026 년 4 월 15 일
차세대 암호화폐 변혁: 라틴 아메리카 1조 5천억 달러 규모 디지털 자산의 진화와 신뢰 기반 인프라 구축 경쟁의 실상
인터뷰 기술
차세대 암호화폐 변혁: 라틴 아메리카 1조 5천억 달러 규모 디지털 자산의 진화와 신뢰 기반 인프라 구축 경쟁의 실상
2026 년 4 월 15 일
OKX, 유럽에서 MiFID 규제 대상 암호화폐 파생상품인 X-Perps 출시: 최대 10배 레버리지 제공
뉴스 보도 기술
OKX, 유럽에서 MiFID 규제 대상 암호화폐 파생상품인 X-Perps 출시: 최대 10배 레버리지 제공
2026 년 4 월 15 일
CRYPTOMERIA LABS PTE. LTD.