2023 년 5 월 15 일

LLM 프로그램: 복잡한 상황에서 신경 모델을 미세 조정하는 새로운 경로

by 다미르 얄랄로프

게시: 15년 2023월 3일 오전 42시 15분 업데이트: 2023년 3월 42일 오전 XNUMX시 XNUMX분

by 카롤리나 가스치

수정 및 사실 확인 날짜: 15년 2023월 3일 오전 42시 XNUMX분

요컨대

저자는 상황 내 학습의 개발로 간주될 수 있는 LLM 프로그램이라는 대안 경로를 제안합니다.

LLM 프로그램을 통해 문제를 해결하는 핵심은 문제에 대한 솔루션을 일련의 간단한 단계로 분해하는 능력입니다.

LLM 사용자 지정에는 두 가지 주요 영역이 있습니다. 사전 훈련된 기본 모델의 미세 조정(또는 추가 훈련)과 상황 내 학습입니다. 미세 조정에는 이를 수행한 다음 미세 조정된 모델을 호스팅하기 위한 상당한 컴퓨팅 리소스, 데이터 수집 및 인프라가 필요합니다. 한편 상황 내 학습에는 CoT(Chain-of-Thought)와 같은 문제 해결의 예를 통해 올바른 프롬프트를 컴파일하는 작업이 포함됩니다. 그러나 모델에 제출할 수 있는 텍스트의 제한된 크기와 복잡한 다중 패스 프롬프트에서 단계가 서로 간섭할 수 있고 모델이 무언가에 의해 산만해질 수 있다는 사실과 같은 몇 가지 어려움이 있습니다. 그 순간에 산만해서는 안됩니다. 저자는 다음과 같은 대체 경로를 제안합니다. LLM 프로그램, 상황 내 학습의 발전으로 간주 될 수 있습니다.

LLM 프로그램: 복잡한 상황에서 신경 모델을 미세 조정하는 새로운 경로

권장 사항 : 신속한 엔지니어링 궁극적인 가이드 2023

LLM은 프로그램에 내장되어 있습니다(기존의 프로그래밍 언어, 예를 들어 파이썬에서). 이 외부 코드는 상태를 저장하고 모델을 단계별로 유지하는 역할을 합니다. 여기에는 몇 가지 주요 이점이 있습니다. 프로그래밍 언어가 이에 맞게 조정되고 사용 가능한 컨텍스트의 크기가 커지고 단계가 서로 간섭하지 않습니다. LLM 프로그램을 통해 문제를 해결하는 핵심은 문제에 대한 솔루션을 일련의 간단한 단계로 분해하는 능력입니다. 이 접근 방식은 모델이 계산기 또는 코드 해석기 상태를 유지하기 위해. 이 접근 방식은 복잡하고 분산된 작업을 이러한 방식으로 설명할 수 있으므로 테스트, 디버그 및 품질 평가가 더 쉬워지기 때문에 좋습니다.

또한 단계 간에 간섭이 없으므로 LLM 작업이 더 쉬워집니다. 질의 응답 시스템도 새로운 것이 아닙니다. 그들은 LLM보다 오래 전에 존재했습니다. 이제 질문에 답하는 작업은 어떻게 해결됩니까?

사이트는 자주 업데이트되므로 냉동 모델 옵션이 아닙니다. 그것은 빨리 구식이 될 것이고 신제품에 대한 질문에 답할 수 없을 것입니다. 업데이트할 때마다 모델을 지속적으로 재교육하는 것은 현실적인 옵션이 아닙니다. 비용과 시간이 많이 듭니다. 대신 웹 사이트의 페이지는 일반적으로 색인이 생성되고 일종의 데이터베이스에 저장되며 종종 벡터화됩니다. 사용자의 요청에 따라 관련 문서를 가져와 컨텍스트로 LLM에 보냅니다.

이러한 패러다임에서 문제는 자연스럽게 LLM 프로그램을 통해 해결됩니다. 보너스로, 가능해진다 컨텍스트에 완전히 맞지 않는 더 복잡한 다중 패스 논리를 구현합니다.

에서 테스트 StrategyQA 데이터세트 이진 분류 문제를 포함하며 그 솔루션에는 다자간 추론이 포함됩니다. “햇빛이 흑해의 가장 깊은 곳까지 침투하는가?”처럼. 대답하려면 최대 수심(2km)과 빛이 물에 침투하는 깊이(1km)를 찾은 다음 결론을 도출해야 합니다. 또 다른 질문 예를 살펴보겠습니다. "아리스토텔레스는 노트북을 사용했습니까?" 이 질문은 간단하지 않으며 "노트북이 발명되었을 때 아리스토텔레스가 살아 있었습니까?"와 같이 명시적으로 일련의 추론 단계를 따르지 않습니다. 하다. 데이터 세트는 이러한 시퀀스가 암시적인 질문에 중점을 둡니다. 데이터 세트에는 2,780개의 질문만 있으며, 그 중 918개만이 추론의 모든 단계를 강화하는 증거가 있는 단락이 있습니다. 현재 작업에서는 이 하위 집합으로 제한됩니다. 그렇지 않으면 사전 교육 중에 몇 가지 사실을 학습하는 LLM에 의존해야 합니다.

기본적으로 OPT-175B LLM은 지침을 잘 따르지 않습니다. 지침이나 대화 데이터를 미세 조정할 필요가 없었습니다. 증거 기반 질의 응답 문제를 해결하기 위해 데이터 필터링 단계와 트리 검색 단계로 나뉩니다.

필터링 단계에서 질문이 있으면 개발자는 모든 단락을 살펴보고 가장 관련성이 높은 단락을 선택합니다. 예를 들어 몇 번의 프롬프트로 LLM에게 주어진 단락이 질문과 관련이 있는지 대답(예/아니오)하도록 요청합니다. StrategyQA의 300개 하위 집합에서 테스트되었으며 각 질문은 관련 여부에 관계없이 50/50의 단락과 일치했습니다. OPT-175B 및 text-davinci-002에는 훨씬 더 높은 품질 무작위 기준선보다 최대 56%. 더 발전된 11B Tk-명령 61.6%로 그다지 좋지 않습니다.

이 접근 방식의 품질이 낮기 때문에 이전 텍스트 단락과 함께 질문의 평균 음수 로그 우도(NLL)를 고려한 다음 결과의 순위를 매기는 대안을 마련했습니다. 각 질문에 대해 100개의 단락이 있고 단 하나만 관련이 있는 데이터 세트에서 평가되었습니다(따라서 무작위 추측은 1% 제공). 우리는 1%에서 상위 79위 정확도를, 5%에서 상위 93위 정확도를 얻었습니다. 이 계산을 위해 일반적으로 API에서 항상 수행되는 것은 아닌 모델 자체에 대한 액세스가 필요합니다.

다음은 출력 체인을 구축하는 단계입니다. 이것은 질문이 루트인 트리를 통한 검색을 통해 이루어지며, 각 수준에는 다음 단계를 생성하기 위한 컨텍스트로 사용되는 가능한 증거가 있는 많은 단락이 있습니다. 트리를 통과하는 각 경로는 잠재적인 출력 체인입니다. 가능한 모든 체인에 대해 결론을 내리는 것은 비현실적이므로 사용 가능한 모든 체인에 순위를 매기고 가장 높은 순위의 체인을 확장합니다. 이것은 빔 검색의 변형입니다. 응답이 이루어지거나 허용된 최대 단계 수를 경과하면 프로세스가 중지됩니다.

가장 중요한 세부 사항은 트리 검색 단계에서 테스트한 두 가지 순위 전략입니다. 첫 번째 전략은 전체 체인의 평균 NLL을 기반으로 하는 반면, 두 번째 전략은 문단이 있는 경우와 없는 경우(P), 질문이 있는 경우와 없는 경우(Q)의 평균 NLL 차이를 살펴봅니다. StrategyQA에서 사용 가능한 918개의 질문에서 이 접근 방식은 CoT(60%)를 사용하여 기준선에 비해 답변 품질을 크게 향상시킵니다. 두 검색 옵션 모두 약 66%를 제공합니다(델타가 약간 더 높은 전략). 골든 팩트를 제출하면 품질은 OPT의 상한선인 81% 정도가 된다. Darklang은 어딘가로 가는 것 같지만 조금 다른 방식으로 가고 있습니다.

이 글은 텔레그램을 기준으로 작성되었습니다. 게시.

AI에 대해 자세히 알아보기:

태그 :

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.

더 많은 기사

다미르 얄랄로프