뉴스 보도 Technology
2023 년 3 월 09 일

T9시대 챗봇의 진화와 GPT-1 에 ChatGPT

최근 우리는 대규모 신경망이 깨뜨린 최신 기록에 대한 뉴스 게시물과 거의 모든 사람의 직업이 안전한 이유에 대한 뉴스 게시물로 거의 매일 폭격을 받았습니다. 그럼에도 불구하고 뉴럴 네트워크가 얼마나 좋은지 아는 사람은 거의 없습니다. ChatGPT 실제로 작동합니다.

그러니 긴장을 푸세요. 아직 직업 전망에 대해 한탄하지 마십시오. 이 게시물에서는 모든 사람이 이해할 수 있는 방식으로 신경망에 대해 알아야 할 모든 것을 설명합니다.

T9시대 챗봇의 진화와 GPT-1 에 ChatGPT 그리고 바트

시작하기 전에 주의할 점: 이 작품은 공동 작업입니다. 전체 기술 부분은 AI 군중 사이에서 잘 알려진 AI 전문가가 작성했습니다.

아무도 아직 방법에 대한 심도 있는 글을 쓰지 않았기 때문에 ChatGPT 평신도의 용어로 신경망의 안팎을 설명하는 작업, 우리는 당신을 위해 이것을 하기로 결정했습니다. 우리는 독자들이 언어 신경망의 원리에 대한 일반적인 이해와 함께 이 게시물을 읽을 수 있도록 이 게시물을 가능한 한 단순하게 유지하려고 노력했습니다. 방법을 알아보겠습니다. 언어 모델 신경망이 어떻게 진화하여 현재의 기능을 보유하게 되었으며, 그 이유는 무엇입니까? ChatGPT의 폭발적인 인기는 제작자들도 놀라게 했다.

기본부터 시작하겠습니다. 이해하다 ChatGPT 기술적인 관점에서 우리는 먼저 그것이 무엇인지 이해해야 합니다. 이것은 Marvel Comics의 Jarvis가 아닙니다. 그것은 합리적인 존재가 아닙니다. 그것은 지니가 아닙니다. 충격을 받을 준비를 하십시오: ChatGPT 실제로 스테로이드에 휴대 전화의 T9입니다! 예, 그렇습니다. 과학자들은 이 두 가지 기술을 다음과 같이 언급합니다. "언어 모델." 모든 신경망이 하는 일은 다음에 올 단어를 추측하는 것입니다.

원래 T9 기술은 다음 단어가 아닌 현재 입력을 추측하여 푸시 버튼 전화 걸기 속도를 높였습니다. 그러나 기술이 발전하고 2010년대 초 스마트폰 시대가 되면서 문맥과 이전 단어를 고려하여 구두점을 추가하고 다음에 갈 수 있는 단어를 선택할 수 있게 되었습니다. 이것이 바로 우리가 T9 또는 자동 수정의 "고급" 버전과 유사하게 만드는 것입니다.

그 결과 스마트폰 키보드의 T9과 ChatGPT 엄청나게 간단한 작업을 해결하도록 훈련되었습니다.: 다음 단어를 예측합니다. 이것은 "언어 모델링"으로 알려져 있으며 기존 텍스트를 기반으로 다음에 무엇을 작성해야 하는지에 대한 결정이 내려질 때 발생합니다. 언어 모델은 그러한 예측을 하기 위해 특정 단어의 발생 확률에 따라 작동해야 합니다. 결국, 휴대전화의 자동 완성 기능이 같은 확률로 완전히 임의의 단어를 던진다면 짜증이 날 것입니다.

이해를 돕기 위해 친구로부터 메시지를 받았다고 가정해 보겠습니다. “저녁에 무슨 계획이 있니?” 이에 대한 응답으로 "I'm going to..."를 입력하기 시작하고 이것이 T9가 들어오는 곳입니다. 복잡한 언어 모델이 필요하지 않은 "I'm going to the moon"과 같이 완전히 무의미한 내용이 나올 수 있습니다. 우수한 스마트폰 자동 완성 모델은 훨씬 더 관련성 높은 단어를 제안합니다.

그렇다면 T9은 어떤 단어가 이미 입력된 텍스트를 따를 가능성이 더 높고 명확하게 이해되지 않는 단어가 무엇인지 어떻게 알 수 있을까요? 이 질문에 답하기 위해 먼저 가장 단순한 기본 작동 원리를 검토해야 합니다. 신경망.

더보기 : ChatGPT 이제 API를 사용할 수 있으며 개발자를 위한 수문을 엽니다.

AI 모델이 다음 단어를 예측하는 방법

더 간단한 질문부터 시작하겠습니다. 어떤 것이 다른 것에 대한 상호 의존성을 어떻게 예측합니까? 키를 기준으로 사람의 체중을 예측하도록 컴퓨터를 가르치고 싶다고 가정합니다. 어떻게 해야 할까요? 먼저 관심 영역을 식별한 다음 관심 있는 종속성을 검색할 데이터를 수집한 다음 다음을 시도해야 합니다. 일부 수학적 모델을 "훈련" 이 데이터 내에서 패턴을 찾습니다.

AI 모델이 다음 단어를 예측하는 방법

간단히 말해서 T9 또는 ChatGPT 시도하는 교묘하게 선택된 방정식일 뿐입니다. 예측 모델 입력에 입력된 이전 단어(X) 세트를 기반으로 하는 단어(Y). 훈련할 때 언어 모델 데이터 세트에서 주요 작업은 이러한 x에 대해 어떤 종류의 의존성을 진정으로 반영하는 계수를 선택하는 것입니다(키와 몸무게가 있는 예에서와 같이). 그리고 대형 모델을 사용하면 매개변수가 많은 모델을 더 잘 이해할 수 있습니다. 분야에서 인공 지능, 이를 대규모 언어 모델 또는 줄여서 LLM이라고 합니다. 나중에 살펴보겠지만 좋은 텍스트를 생성하려면 매개변수가 많은 대형 모델이 필수적입니다.

그건 그렇고, 왜 우리가 "다음 단어 예측"에 대해 계속 이야기하는지 궁금하다면 ChatGPT 전체 텍스트 단락으로 빠르게 응답하면 대답은 간단합니다. 물론 언어 모델은 어려움 없이 긴 텍스트를 생성할 수 있지만 전체 프로세스는 단어 단위입니다. 각각의 새 단어가 생성된 후 모델은 새 단어로 모든 텍스트를 다시 실행하여 다음 단어를 생성합니다. 전체 응답을 받을 때까지 프로세스가 반복해서 반복됩니다.

더보기 : ChatGPT 돌이킬 수없는 인간 퇴행을 일으킬 수 있음

주어진 텍스트에 대해 '올바른' 단어를 찾으려고 계속 노력하는 이유는 무엇입니까?

언어 모델은 주어진 텍스트에서 발생할 수 있는 다양한 단어의 확률을 예측하려고 시도합니다. 이것이 필요한 이유는 무엇이며 "가장 정확한" 단어를 계속 찾을 수 없는 이유는 무엇입니까? 이 프로세스가 어떻게 작동하는지 설명하기 위해 간단한 게임을 해보자.

규칙은 다음과 같습니다. "미국의 44대 대통령(및 이 직위의 첫 번째 아프리카계 미국인)은 Barak입니다..."라는 문장을 계속할 것을 제안합니다. 다음에는 어떤 단어가 들어가야 할까요? 발생할 가능성은 얼마나 됩니까?

주어진 텍스트에 대해 '올바른' 단어를 찾으려고 계속 노력하는 이유는 무엇입니까?

다음 단어가 "Obama"가 될 것이라고 100% 확실하게 예측했다면 틀렸습니다! 여기서 요점은 또 다른 신화적 바락이 있다는 것이 아닙니다. 훨씬 더 사소합니다. 공식 문서에는 일반적으로 대통령의 전체 이름이 사용됩니다. 이것은 오바마의 이름 뒤에 오는 것이 그의 중간 이름인 후세인이 된다는 것을 의미합니다. 따라서 우리의 문장에서 적절하게 훈련된 언어 모델은 "Obama"가 다음 단어일 것이라고 조건부 확률 90%로만 예측하고 텍스트가 "Hussein"에 의해 계속되는 경우 나머지 10%를 할당해야 합니다. 100%에 가까운 확률로 따라옵니다).

그리고 이제 우리는 언어 모델의 흥미로운 측면에 도달했습니다. 언어 모델은 창의적인 행진에 영향을 받지 않습니다! 사실, 각 다음 단어를 생성할 때 이러한 모델은 마치 주사위를 던지는 것처럼 "무작위" 방식으로 단어를 선택합니다. 서로 다른 단어가 "떨어지는" 확률은 모델 내부에 삽입된 방정식에 의해 제안된 확률과 거의 일치합니다. 이들은 모델에 제공된 다양한 텍스트의 거대한 배열에서 파생됩니다.

모델은 살아있는 사람처럼 동일한 요청에 다르게 응답할 수 있습니다. 연구자들은 일반적으로 뉴런이 항상 "가장 가능성이 높은" 다음 단어를 선택하도록 강제하려고 시도했지만, 표면적으로는 합리적으로 보이지만 실제로는 이러한 모델의 성능이 더 나쁩니다. 가변성과 답변의 품질을 증가시키기 때문에 공정한 양의 임의성이 유리한 것 같습니다.

연구자들은 일반적으로 뉴런이 항상 "가장 가능성이 높은" 다음 단어를 선택하도록 강제하려고 시도했지만, 표면적으로는 합리적으로 보이지만 실제로는 이러한 모델의 성능이 더 나쁩니다.
더보기 : ChatGPT 차세대 AI를 고민하면서 드론과 로봇을 제어하는 ​​방법을 배웁니다.

우리의 언어는 고유한 규칙과 예외 집합이 있는 고유한 구조를 가지고 있습니다. 문장에 나오는 단어에는 운율과 이유가 있으며, 무작위로 나오는 것이 아닙니다. 모든 사람은 초기 형성기에 사용하는 언어의 규칙을 무의식적으로 배웁니다.

괜찮은 모델은 언어의 광범위한 설명성을 고려해야 합니다. 모델의 원하는 결과를 만드는 능력 문맥의 미묘함(상황을 설명하는 텍스트의 이전 섹션)을 기반으로 단어의 확률을 얼마나 정확하게 계산하는지에 따라 달라집니다.

원하는 결과를 생성하는 모델의 능력은 컨텍스트(상황을 설명하는 텍스트의 이전 섹션)의 미묘함을 기반으로 단어의 확률을 얼마나 정확하게 계산하는지에 따라 달라집니다.

요약: 입력 소스 텍스트를 기반으로 다음 단어를 예측하기 위해 방대한 양의 데이터에서 훈련된 일련의 방정식인 간단한 언어 모델은 9년대 초부터 스마트폰의 "T2010/Autofill" 기능에 구현되었습니다.

더보기 : 중국, 기업의 사용 금지 ChatGPT "진실 뉴스" 스캔들 이후

GPT-1: 업계를 뒤흔들다

T9 모델에서 벗어나자. 당신이 아마 이 글을 읽고 있는 동안 에 대한 학습 ChatGPT, 먼저, 우리는 그 시작에 대해 논의해야 합니다. GPT 모델가족.

GPT "생성 사전 훈련된 변환기(Generative Pre-trained Transformer)"를 의미합니다. Google 엔지니어가 개발한 신경망 아키텍처 2017년에는 트랜스포머로 알려져 있습니다. Transformer는 일련의 시퀀스(데이터)를 입력으로 받아들이고 동일한 시퀀스 집합을 일부 알고리즘에 의해 변경된 다른 형식으로 생성하는 범용 컴퓨팅 메커니즘입니다.

트랜스포머의 창작 의의는 번역, 이미지, 사운드, 영상처리 등 인공지능(AI) 전 분야에 얼마나 적극적으로 채택되고 적용됐는가에서 엿볼 수 있다. 인공지능(AI) 분야는 이른바 'AI 정체'에서 급속한 발전과 정체 극복으로 나아가는 강력한 판도를 잡았다.

더보기 : GPT-4기반 ChatGPT 초과 수익률 GPT-3 570배로

Transformer의 핵심 강점은 확장하기 쉬운 모듈로 구성되어 있습니다. 한 번에 많은 양의 텍스트를 처리하라는 요청을 받았을 때 이전의 사전 변환 언어 모델은 속도가 느려졌습니다. 반면에 변환기 신경망은 이 작업을 훨씬 더 잘 처리합니다.

과거에는 입력 데이터를 순차적으로 또는 한 번에 하나씩 처리해야 했습니다. 모델은 데이터를 유지하지 않습니다. 한 페이지 내러티브로 작동하는 경우 텍스트를 읽은 후 잊어버릴 것입니다. 한편, 트랜스포머는 한 번에 모든 것을 볼 수 있게 해주고, 생산 훨씬 더 놀라운 결과.

이것이 신경망에 의한 텍스트 처리의 돌파구를 가능하게 한 것입니다. 결과적으로 모델은 더 이상 잊지 않습니다. 이전에 작성된 자료를 재사용하고 컨텍스트를 더 잘 이해하며 가장 중요한 것은 단어를 함께 짝지어 매우 많은 양의 데이터 간에 연결을 생성할 수 있습니다.

슬립폼 공법 선택시 고려사항 GPT-12018년에 데뷔한 는 확장성과 효율성이 크게 향상된 Transformer 디자인을 사용하여 신경망이 텍스트를 생성할 수 있음을 보여주었습니다. 언어 모델의 양과 복잡성을 향상시키는 것이 가능하다면 상당한 여유 공간이 생길 것입니다.

더보기 : 6 AI ChatBot 문제 및 과제: ChatGPT, 바드, 클로드

GPT-2: 대형 언어 모델의 시대

언어 모델은 사전에 특별히 태그를 지정할 필요가 없으며 모든 텍스트 데이터를 "공급"할 수 있어 매우 유연합니다. 조금만 생각해보면 우리가 그 능력을 사용하고 싶어하는 것이 합리적으로 보입니다. 작성된 적이 있는 모든 텍스트는 기성 학습 데이터로 사용됩니다. 이미 "많은 단어와 구 => 그 다음 단어" 유형의 시퀀스가 ​​너무 많기 때문에 이것은 놀라운 일이 아닙니다.

GPT-2: 대형 언어 모델의 시대
더보기 : ChatGPTReddit에서 깨어난 사악한 Elter Ego

이제 Transformers 기술이 다음에서 테스트되었다는 점도 명심하세요. GPT-1 확장성 측면에서 상당히 성공적인 것으로 입증되었습니다. 대용량 데이터를 처리하는 데 있어 이전 제품보다 훨씬 더 효과적입니다. 연구자들은 다음과 같이 밝혀졌습니다. OpenAI 2019년에도 같은 결론에 도달했습니다. "값비싼 언어 모델을 잘라야 할 때입니다!"

XNUMXD덴탈의 학습 데이터 세트 및 모델 특히 크기는 두 가지 중요한 영역으로 선택되었습니다. GPT-2 획기적으로 개선해야 합니다.

당시에는 언어 모델 훈련을 위해 특별히 설계된 대규모 고품질 공개 텍스트 데이터 세트가 없었기 때문에 각 AI 전문가 팀은 자체적으로 데이터를 조작해야 했습니다. 그만큼 OpenAI 그런 다음 사람들은 가장 인기 있는 영어 포럼인 Reddit으로 이동하여 좋아요가 8개 이상인 모든 단일 게시물에서 모든 하이퍼링크를 추출하기로 결정했습니다. 거의 40만 개의 링크가 있었고 다운로드된 텍스트의 무게는 총 XNUMX테라바이트였습니다.

GPT-2: 대형 언어 모델의 시대
더보기 : 상용화하는 마이크로소프트 ChatGPT 다른 회사를 돕기 위해 노력하면서

방정식이 가장 큰 것을 설명하는 매개변수의 수는 무엇입니까? GPT-2 2019년 모델은 있나요? 아마도 십만 또는 몇 백만이 될 것입니다. 더 나아가서 공식에는 이러한 매개변수가 최대 1.5억 개까지 포함되어 있습니다. 그렇게 많은 숫자를 파일에 쓰고 컴퓨터에 저장하는 데는 6테라바이트가 필요합니다. 모델은 이 텍스트를 전체적으로 기억할 필요가 없으므로 이는 모델을 훈련한 텍스트 데이터 배열의 전체 양보다 훨씬 작습니다. 사람이 작성한 텍스트에서 격리할 수 있는 일부 종속성(패턴, 규칙)을 찾는 것만으로도 충분합니다.

모델이 확률을 더 잘 예측하고 포함된 매개변수가 많을수록 방정식이 모델에 더 복잡해집니다. 그래야 믿을 수 있는 글이 됩니다. 추가적으로, GPT-2 모델이 너무 잘 작동하기 시작해서 OpenAI 연구원 보안상의 이유로 공개적으로 모델을 공개하는 것을 꺼려했습니다.

모델이 커지면 갑자기 새로운 자질(전화로 다음 단어를 지시하는 대신 응집력 있고 의미 있는 에세이를 작성하는 능력)을 갖기 시작한다는 것은 매우 흥미로운 일입니다.

이 시점에서 양에서 질로의 변화가 일어난다. 게다가 완전히 비선형적으로 발생합니다. 예를 들어 매개변수 수가 115억 350만에서 700억 XNUMX만으로 XNUMX배 증가해도 문제를 정확하게 해결하는 모델의 능력에는 눈에 띄는 영향이 없습니다. 그러나 XNUMX억으로 XNUMX배 증가하면 신경망이 "빛을 보고" 작업을 완료하는 능력으로 모든 사람을 놀라게 하기 시작하는 질적 도약이 이루어집니다.

요약: 2019년에는 GPT-2이는 모델의 크기(매개변수 수)와 훈련 텍스트 데이터의 양 측면에서 이전 모델보다 10배나 뛰어났습니다. 이러한 양적 발전으로 인해 모델은 예측할 수 없을 만큼 질적으로 새로운 재능을 획득했습니다. 긴 에세이 쓰기 명확한 의미를 가지고 세계관의 기초를 요구하는 도전적인 문제를 해결합니다.

더보기 : Google 요청은 다음보다 약 XNUMX배 더 저렴합니다. ChatGPT, 비용은 2센트

GPT-3: 지옥처럼 똑똑하다

일반적으로 2020년 릴리스는 GPT-3시리즈의 차세대 제품인 는 이미 116배 더 많은 매개변수(최대 175억 개, 놀라운 700테라바이트)를 자랑합니다.

XNUMXD덴탈의 GPT-3 훈련 데이터 세트도 비록 급격하지는 않지만 확장되었습니다. 10기가바이트로 420배 가까이 늘어났고, 현재는 많은 양의 책을 담고 있으며, Wikipedia 기사 및 다른 웹사이트의 기타 텍스트. 인간이 쉬지 않고 읽는 데 약 50년이 걸리므로 불가능한 일입니다.

즉시 흥미로운 차이점을 발견할 수 있습니다. GPT-2, 모델 자체는 이제 훈련을 위한 전체 텍스트 배열(700GB)보다 420GB 더 큽니다. 이는 어떤 의미에서는 역설적인 것으로 드러납니다. 이 경우 "신경 뇌"는 원시 데이터를 연구하면서 원본 데이터보다 양적으로 더 풍부한 다양한 상호 의존성에 대한 정보를 생성합니다.

GPT-3: 지옥처럼 똑똑하다
더보기 : ChatGPT 실험: AI는 누군가를 모욕하는 것보다 수백만 명의 사람들을 죽이는 것이 낫다

모델의 일반화 결과, 이제 이전보다 훨씬 더 성공적으로 추정할 수 있으며 훈련 중에 드물게 발생하거나 전혀 발생하지 않는 텍스트 생성 작업에서도 성공합니다. 이제 특정 문제를 해결하는 방법을 모델에 가르칠 필요가 없습니다. 그것들을 설명하고 몇 가지 예를 제시하는 것으로 충분합니다. GPT-3 즉시 배울 것입니다.

XNUMXD덴탈의 "보편적 두뇌" 의 형태로 GPT-3 결국 많은 초기 전문 모델을 물리쳤습니다. 예를 들어, GPT-3 이 목적을 위해 특별히 만들어진 이전 신경망보다 프랑스어나 독일어 텍스트를 더 빠르고 정확하게 번역하기 시작했습니다. 어떻게? 주어진 텍스트에서 다음 단어를 예측하는 것이 유일한 목표인 언어 모델에 대해 논의하고 있음을 상기시켜 드리겠습니다.

더욱 놀랍게도, GPT-3 스스로 가르칠 수 있었어요… 수학! 아래 그래프는 다양한 수의 매개변수를 사용하여 덧셈과 뺄셈은 물론 최대 10자리 정수의 곱셈을 포함한 작업에서 신경망이 얼마나 잘 수행되는지를 보여줍니다. 보시다시피, 신경망은 100억 개의 매개변수를 가진 모델에서 XNUMX억 개의 매개변수를 가진 모델로 이동하면서 갑자기 수학에서 "가능"해지기 시작합니다.

신경망은 10억 개의 매개변수가 있는 모델에서 100억 개의 매개변수가 있는 모델로 이동하면서 갑자기 수학에서 "가능"하기 시작합니다.
더보기 : 빅 테크의 AI 경쟁: 구글, AI 기반 챗봇 테스트 ChatGPT

앞서 언급한 그래프의 가장 흥미로운 특징은 처음에는 모델의 크기가 증가해도(왼쪽에서 오른쪽으로) 아무것도 변하지 않는 것처럼 보이지만 갑자기 p배가 된다는 것입니다! 질적 변화가 일어나고, GPT-3 특정 문제를 해결하는 방법을 "이해"하기 시작합니다. 아무도 그것이 어떻게, 무엇을, 왜 작동하는지 확신하지 못합니다. 그러나 그것은 수학뿐만 아니라 다양한 다른 어려움에서도 작동하는 것 같습니다.

앞서 언급한 그래프의 가장 흥미로운 특징은 모델의 크기가 커져도 처음에는 아무것도 변하지 않는 것처럼 보인다는 점입니다. GPT-3 질적으로 도약하고 특정 문제를 해결하는 방법을 "이해"하기 시작합니다.

아래의 gif는 매개변수의 수가 증가함에 따라 아무도 의도적으로 계획하지 않은 새로운 능력이 모델에서 어떻게 "새싹"이 되는지 보여줍니다.

2020 GPT-3 이전 버전보다 100배 더 컸고 훈련 텍스트 데이터도 10배 더 컸습니다.

슬립폼 공법 선택시 고려사항 매개변수로 보면 2020년 GPT-3 이전 버전보다 100배 더 컸고 훈련 텍스트 데이터도 10배 더 컸습니다. 양적 확장으로 인해 품질이 갑자기 향상됨에 따라 모델은 다른 언어 번역, 산술 수행, 간단한 프로그래밍 수행, 순차적 추론 등을 다시 한 번 학습했습니다.

더보기 : ChatGPT 도널드 트럼프와 문제가 있다

GPT-3.5 (지시하다GPT): 안전하고 무독성으로 훈련된 모델

실제로 언어 모델을 확장한다고 해서 사용자가 원하는 방식으로 문의에 응답한다는 보장은 없습니다. 사실, 우리가 요청을 할 때 우리는 종종 인간 의사소통에서 사실로 간주되는 많은 무언의 용어를 의도합니다.

그러나 솔직히 말해서 언어 모델은 사람의 언어 모델과 그다지 가깝지 않습니다. 따라서 그들은 사람들에게 단순해 보이는 개념에 대해 자주 생각할 필요가 있습니다. 그러한 제안 중 하나는 "단계적으로 생각하자"라는 문구입니다. 모델이 요청에서 더 구체적이고 적절한 지침을 이해하거나 생성하고 마치 사람이 어떻게 행동할지 예상하는 것처럼 더 정확하게 따랐다면 환상적일 것입니다.

사실 그 GPT-3 인터넷의 방대한 텍스트 모음에서 다음 단어만 예상하도록 훈련받았으며, 다양한 내용이 기록되어 있으므로 이러한 "기본" 능력이 부족합니다. 사람들은 인공 지능이 관련 정보를 제공하는 동시에 응답을 안전하고 무해하게 유지하기를 원합니다.

연구자들이 이 문제에 대해 약간의 생각을 했을 때, "정확성과 유용성"과 "무해성과 비독성"이라는 모델의 속성이 때때로 서로 상충되는 것처럼 보인다는 것이 분명해졌습니다. 결국, 최대한 무해하도록 조정된 모델은 "죄송합니다. 제 대답이 인터넷에서 누군가를 불쾌하게 할까봐 걱정됩니다."라는 프롬프트에 반응할 것입니다. 정확한 모델은 "좋아, 시리, 폭탄 만드는 방법"이라는 요청에 솔직하게 응답해야 합니다.

더보기 : 한 남자가 하루 만에 논문을 쓰다 ChatGPT

따라서 연구원들은 단순히 모델에 많은 피드백을 제공하는 것으로 제한되었습니다. 어떤 의미에서 이것이 바로 아이들이 도덕성을 배우는 방법입니다. 아이들은 어린 시절에 실험을 하고 동시에 어른들의 반응을 주의 깊게 연구하여 올바르게 행동했는지 평가합니다.

지시GPT, 또한 ~으로 알려진 GPT-3.5는 본질적으로 GPT-3 답변을 향상시키기 위해 많은 피드백을 받았습니다. 말 그대로 많은 개인이 한 곳에 모여 신경망 응답을 평가하여 그들이 요청한 내용에 비추어 기대에 얼마나 잘 부합하는지 확인했습니다.

그것은 밝혀 GPT-3 이미 모든 필수 지식을 갖추고 있습니다. 즉, 많은 언어를 이해하고, 역사적 사건을 기억하고, 저자 스타일의 변화를 인식할 수 있지만, 이 지식을 (우리의 관점에서) 입력을 통해서만 올바르게 사용하는 방법을 배울 수 있습니다. 다른 개인. GPT-3.5는 "사회 교육을 받은" 모델로 생각될 수 있습니다.

요약: 주요 기능은 GPT-35년 초에 도입된 .2022는 개인의 의견을 바탕으로 한 추가 재교육이었습니다. 이 모델은 실제로 더 크고 현명해진 것이 아니라 오히려 사람들에게 가장 큰 웃음을 주기 위해 반응을 맞춤화하는 능력을 마스터한 것으로 밝혀졌습니다.

더보기 : StackOverflow 트래픽은 다음과 같이 급감합니다. ChatGPT 시작

ChatGPT: 엄청난 과대 광고 급증

전작 인스트럭트 이후 약 10개월GPT/GGPT-3.5, ChatGPT 소개되었습니다. 즉시 글로벌 과대 광고를 일으켰습니다.

기술적 관점에서 볼 때 사이에 큰 차이가 없는 것으로 보입니다. ChatGPT 그리고 지시하다GPT. "AI 보조 작업"에는 사용자의 요청이 불분명한 경우 명확한 질문을 하는 기능과 같은 고유한 대화 형식이 필요하기 때문에 모델은 추가 대화 데이터로 훈련되었습니다.

그렇다면 왜 주변에 과대 광고가 없었습니까? GPT-35년 초에 .2022 ChatGPT 산불처럼 붙잡혀? Sam Altman 샘 올트먼, 전무 이사 OpenAI, 우리가 놀란 연구원들이 ChatGPT의 즉각적인 성공. 결국, 그와 비슷한 능력을 가진 모델이 그 시점에서 XNUMX개월 이상 동안 웹사이트에서 잠자고 있었고 아무도 그 일을 할 수 없었습니다.

ChatGPT: 엄청난 과대 광고 급증
더보기 : ChatGPT 와튼 MBA 시험 합격

놀랍지만 새로운 사용자 친화적인 인터페이스가 성공의 열쇠인 것 같습니다. 같은 지시GPT 고유한 API 인터페이스를 통해서만 액세스할 수 있었기 때문에 모델에 대한 사람들의 액세스가 제한되었습니다. ChatGPT, ob 반면에 잘 알려진 메신저의 "대화창" 인터페이스를 사용합니다. 또한 이후 ChatGPT 한 번에 모든 사람이 사용할 수 있게 되자 많은 사람들이 서둘러 신경망과 상호 작용하고 선별하고 게시했습니다. 소셜 미디어, 다른 사람들을 과장합니다.

ChatGPT반면에 ob는 메신저의 잘 알려진 "대화창" 인터페이스를 사용합니다.
더보기 : 미국의 교육 시스템에는 300만 명의 교사가 절실히 필요합니다. 하지만 ChatGPT 대답이 될 수 있습니다

훌륭한 기술 외에도 다른 일이 바로 이루어졌습니다. OpenAI: 마케팅. 최고의 모델이나 가장 지능적인 챗봇을 가지고 있어도 사용하기 쉬운 인터페이스가 없다면 아무도 관심을 가지지 않을 것입니다. 이와 관련하여 ChatGPT 도움이 되는 로봇이 한 단어 한 단어 우리 눈앞에서 솔루션을 "인쇄"하는 관습적인 대화 상자를 사용하여 일반 대중에게 기술을 소개함으로써 돌파구를 마련했습니다.

놀랍지 않게, ChatGPT 출시 1일 만에 사용자 100만 명을 돌파했고, 불과 두 달 만에 XNUMX억 명을 돌파하는 등 신규 사용자 유치에 대한 기존 기록을 모두 경신했습니다.

ChatGPT 출시 1일 만에 100만 명 돌파, XNUMX개월 만에 XNUMX억 명 돌파 등 신규 사용자 유치 역대 최고 기록 경신

물론 사용자가 기록적으로 급증하는 곳에 엄청난 돈이 있습니다. 중국인들은 자신의 석방이 임박했다고 긴급히 발표했습니다. 채팅 봇, Microsoft는 신속하게 OpenAI 수백억 달러를 투자하기로 결정했고 Google 엔지니어는 경보를 울리고 신경망과의 경쟁에서 검색 서비스를 보호하기 위한 계획을 수립하기 시작했습니다.

더보기 : ChatGPT 100월 XNUMX억 명 이상 관객 증가 기록 경신

슬립폼 공법 선택시 고려사항 때 ChatGPT 모델이 2022년 XNUMX월에 출시되었지만 눈에 띄는 기술 발전은 없었습니다. 그러나 사용자 참여 및 공개 액세스를 위한 편리한 인터페이스를 갖추고 있어 즉시 엄청난 과대 광고를 촉발했습니다. 이것은 현대 세계에서 가장 중요한 문제이기 때문에 모두가 즉시 언어 모델을 다루기 시작했습니다.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Injective는 AltLayer와 힘을 합쳐 inEVM에 재스테이킹 보안을 도입했습니다.
근무지에서 발생 뉴스 보도 Technology
Injective는 AltLayer와 힘을 합쳐 inEVM에 재스테이킹 보안을 도입했습니다.
2024 년 5 월 3 일
Masa는 텔러와 협력하여 MASA 대출 풀을 도입하고 USDC에서 베이스 대출을 활성화합니다.
시장 뉴스 보도 Technology
Masa는 텔러와 협력하여 MASA 대출 풀을 도입하고 USDC에서 베이스 대출을 활성화합니다.
2024 년 5 월 3 일
Velodrome은 앞으로 몇 주 안에 Superchain 베타 버전을 출시하고 OP 스택 레이어 2 블록체인으로 확장합니다.
시장 뉴스 보도 Technology
Velodrome은 앞으로 몇 주 안에 Superchain 베타 버전을 출시하고 OP 스택 레이어 2 블록체인으로 확장합니다.
2024 년 5 월 3 일
CARV, 데이터 계층을 분산화하고 보상을 분배하기 위해 Aethir와의 파트너십 발표
근무지에서 발생 뉴스 보도 Technology
CARV, 데이터 계층을 분산화하고 보상을 분배하기 위해 Aethir와의 파트너십 발표
2024 년 5 월 3 일
CRYPTOMERIA LABS PTE. LTD.