Новини Технологии
Март 15, 2023

GPT-4 превъзхожда GPT-3.5 Разнообразие от критерии за изследване

Накратко

- GPT-4 е постигнал по-висок праг на оценка от GPT-3.5 по различни показатели.

Това е голямо постижение, тъй като показва, че машините не само са способни на интелект, подобен на човешкия, но могат и да ни превъзхождат, което повдига въпроси за бъдещето на ИИ и потенциалното му въздействие върху пазара на труда.

GPT-4 е значително по-добър от най-съвременните (SOTA) модели, включително тези, които използват допълнителни протоколи за обучение или специфичен за бенчмарк дизайн, както и съществуващи големи езикови модели.

- GPT-4 е постигнал по-високи резултати от GPT-3.5 по различни показатели. Това е голям пробив за машините, тъй като доказва, че сега те могат не само да решават проблеми, за които първоначално са предназначени, но и да го правят по-добре от студентите.

GPT-4 превъзхожда GPT-3.5 навсякъде по различни показатели за изследване

Има няколко неща, които трябва да вземете предвид, когато разглеждате този резултат. Първо, на GPT-4 не е получил специално обучение за тези изпити. Продължава чрез използване на най-новите публично достъпни тестове (в случай на олимпиади и въпроси за свободен отговор на AP) или чрез закупуване на издания на практически изпити за 2022–2023 г. Второ, важно е да се отбележи, че GPT-4Ефективността на може да не отразява непременно способностите на участниците в теста, тъй като работи на различен набор от принципи и алгоритми.

Това е голямо постижение като това показва че машините не само са способни на човешкия интелект, но могат и да ни превъзхождат. Това проправя пътя към бъдеще, в което машините могат да поемат все по-сложни задачи, което в крайна сметка води до бъдеще, в което те могат да ни помагат в ежедневието ни.

- GPT-4Способността на да превъзхожда хората в определени задачи повдига въпроси за бъдещето на изкуствен интелект и потенциалното му въздействие върху пазара на труда. Той също така подчертава необходимостта от непрекъснати изследвания и разработки в тази област, за да се гарантира, че ИИ се използва етично и отговорно.
Чети повече: 5+ най-очакваните модели с изкуствен интелект от текст към изображение за 2023 г

GPT-4, например, издържа симулиран адвокатски изпит с резултат сред първите 10% от участниците в теста; GPT-3Резултатът на .5 беше в долните 10%. Това значително подобрение в GPT-4Ефективността на се дължи на по-големите данни за обучение и подобрената архитектура. Очаква се да има широк набор от приложения в различни области, включително обработка на естествен език и автоматизирано писане.

 
GPT-4 показва представяне на човешко ниво на повечето от тези професионални и академични изпити. По-специално, той премина симулирана версия на единния адвокатски изпит с резултат в първите 10% от участниците в теста. Възможностите на модела на изпитите изглежда произтичат основно от процеса на предварително обучение и не се влияят значително от RLHF. При въпроси с избираем отговор, както основата GPT-4 моделът и моделът RLHF се представят еднакво добре сред разработчиците на тествания изпит.

По-голямата част от най-съвременните (SOTA) модели, включително тези, които могат да използват допълнителни протоколи за обучение или специфичен за бенчмарк дизайн, както и съществуващи големи езикови модели, са значително превъзхождани от GPT-4.

GPT-4представянето на по отношение на академичните стандарти. Контраст на разработчиците GPT-4 с най-добрата SOTA за няколко изстрела, оценена от LM, както и най-добрата SOTA със специфично за сравнение обучение. С изключение на DROP, GPT-4 превъзхожда всички настоящи LM на всички бенчмаркове и SOTA със специфично за бенчмарк обучение обучение.

Вътрешно разработчиците са използвали GPT-4, което оказа значително влияние върху дейности като програмиране, продажби, поддръжка и модериране на съдържание. Вторият етап от нашия метод за подравняване вече е в ход, тъй като разработчиците го използват, за да помогнат на хората при прегледа на резултатите от AI.

Наборът от данни MMLU (Massive Multi-Task Language Understanding) съдържа въпроси от много широк набор от теми относно разбирането на езика в различни задачи (обхващащи 57 области, включително математика, биология, право, социални и хуманитарни науки и др.). Има четири възможни отговора на въпроса, един от които е верен. Тоест случайното отгатване показва резултат от 25% верни отговори. Вижте снимката по-долу за примери на въпроси и техните трудности. Средностатистическият човек-маркер (т.е. това не е учен, не е професор - обикновен човек, който работи като маркировка) отговаря правилно на 35% от въпросите; но експертите могат да достигнат резултат от +/- 90%.

Изпълнение на GPT-4 на редица езици в сравнение с по-ранните модели на английски на MMLU. GPT-4 надхвърля представянето на английски език на съществуващите езикови модели за по-голямата част от изследваните езици, включително езици с ниски ресурси като латвийски, уелски и суахили.
Чети повече: 5 причини да използвате Bing, базиран на AI, вместо Google

Първоначално целият набор от данни беше на английски. Но какво ще стане, ако въпросите и отговорите са преведени на други езици, особено на по-рядко срещаните? Дали моделът ще им свърши работа по някакъв начин? В този тест за превод беше използвана услугата Microsoft Azure Translate. Преводите не са перфектни; в някои случаи се губи важна информация. Въпреки това, дори и в този случай, GPT-4 се представя добре на други езици. В преведените версии на MMLU, GPT-4 превъзхожда нивото на английски на други големи модели (включително този на Google) с 24 от 26-те изследвани езика.

Какво още, GPT-4 се представя по-добре на редки езици от ChatGPT направи на английски (ChatGPT постигна резултат от 70.1%, докато резултатът на новия модел за Thai беше 71.8%). Най-висок е резултатът от теста по английски език, с GPT-4 представяйки се с 10% по-добре от други модели, включително най-големия PaLM от Google. Той постигна резултат от 86.4%, а група от експерти - 90%.

  • До лятото на 2023 г. AI може да е достигнал ново ниво на мощност благодарение на ChatGPT, чатбот, който използва GPT-4 алгоритъм и превъзхожда GPT-3 с коефициент 570. Разнообразие от елементи допринасят за ChatGPTУспехът на, включително дизайнът му да бъде по-„човешки“ и използването на авангардно извличане на данни и обработка на естествен език за повишаване на неговата ефективност и точност.
  • Microsoft и OpenAI обявиха подновяването на сътрудничеството си и плановете за търсене в Bing да приеме подобрени с AI възможности за търсене през януари. Много изтънченото GPT3.5 модел замяна, GPT4, току-що стартира, и има потенциала значително да подобри капацитета на Bing search за разбиране на заявки на естествен език и предоставяне на по-точни резултати. Добра идея е да имате добър резервен план, в случай че нещо се обърка.

Прочетете още свързани новини:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Injective обединява усилията си с AltLayer, за да внесе повторно залагане на сигурност в inEVM
Бизнес Новини Технологии
Injective обединява усилията си с AltLayer, за да внесе повторно залагане на сигурност в inEVM
Май 3, 2024
Masa се обединява с Teller, за да въведе MASA Lending Pool, позволяващ USDC заемане на база
пазари Новини Технологии
Masa се обединява с Teller, за да въведе MASA Lending Pool, позволяващ USDC заемане на база
Май 3, 2024
Velodrome пуска бета версия на Superchain през следващите седмици и се разширява в OP Stack Layer 2 Blockchains
пазари Новини Технологии
Velodrome пуска бета версия на Superchain през следващите седмици и се разширява в OP Stack Layer 2 Blockchains
Май 3, 2024
CARV обявява партньорство с Aethir за децентрализиране на своя слой данни и разпределяне на награди
Бизнес Новини Технологии
CARV обявява партньорство с Aethir за децентрализиране на своя слой данни и разпределяне на награди
Май 3, 2024
CRYPTOMERIA LABS PTE. LTD.