GPT-4 превъзхожда GPT-3.5 Разнообразие от критерии за изследване
Накратко
- GPT-4 е постигнал по-висок праг на оценка от GPT-3.5 по различни показатели.
Това е голямо постижение, тъй като показва, че машините не само са способни на интелект, подобен на човешкия, но могат и да ни превъзхождат, което повдига въпроси за бъдещето на ИИ и потенциалното му въздействие върху пазара на труда.
GPT-4 е значително по-добър от най-съвременните (SOTA) модели, включително тези, които използват допълнителни протоколи за обучение или специфичен за бенчмарк дизайн, както и съществуващи големи езикови модели.
- GPT-4 е постигнал по-високи резултати от GPT-3.5 по различни показатели. Това е голям пробив за машините, тъй като доказва, че сега те могат не само да решават проблеми, за които първоначално са предназначени, но и да го правят по-добре от студентите.
Има няколко неща, които трябва да вземете предвид, когато разглеждате този резултат. Първо, на GPT-4 не е получил специално обучение за тези изпити. Продължава чрез използване на най-новите публично достъпни тестове (в случай на олимпиади и въпроси за свободен отговор на AP) или чрез закупуване на издания на практически изпити за 2022–2023 г. Второ, важно е да се отбележи, че GPT-4Ефективността на може да не отразява непременно способностите на участниците в теста, тъй като работи на различен набор от принципи и алгоритми.
Това е голямо постижение като това показва че машините не само са способни на човешкия интелект, но могат и да ни превъзхождат. Това проправя пътя към бъдеще, в което машините могат да поемат все по-сложни задачи, което в крайна сметка води до бъдеще, в което те могат да ни помагат в ежедневието ни.
GPT-4, например, издържа симулиран адвокатски изпит с резултат сред първите 10% от участниците в теста; GPT-3Резултатът на .5 беше в долните 10%. Това значително подобрение в GPT-4Ефективността на се дължи на по-големите данни за обучение и подобрената архитектура. Очаква се да има широк набор от приложения в различни области, включително обработка на естествен език и автоматизирано писане.
По-голямата част от най-съвременните (SOTA) модели, включително тези, които могат да използват допълнителни протоколи за обучение или специфичен за бенчмарк дизайн, както и съществуващи големи езикови модели, са значително превъзхождани от GPT-4.
Вътрешно разработчиците са използвали GPT-4, което оказа значително влияние върху дейности като програмиране, продажби, поддръжка и модериране на съдържание. Вторият етап от нашия метод за подравняване вече е в ход, тъй като разработчиците го използват, за да помогнат на хората при прегледа на резултатите от AI.
Наборът от данни MMLU (Massive Multi-Task Language Understanding) съдържа въпроси от много широк набор от теми относно разбирането на езика в различни задачи (обхващащи 57 области, включително математика, биология, право, социални и хуманитарни науки и др.). Има четири възможни отговора на въпроса, един от които е верен. Тоест случайното отгатване показва резултат от 25% верни отговори. Вижте снимката по-долу за примери на въпроси и техните трудности. Средностатистическият човек-маркер (т.е. това не е учен, не е професор - обикновен човек, който работи като маркировка) отговаря правилно на 35% от въпросите; но експертите могат да достигнат резултат от +/- 90%.
Първоначално целият набор от данни беше на английски. Но какво ще стане, ако въпросите и отговорите са преведени на други езици, особено на по-рядко срещаните? Дали моделът ще им свърши работа по някакъв начин? В този тест за превод беше използвана услугата Microsoft Azure Translate. Преводите не са перфектни; в някои случаи се губи важна информация. Въпреки това, дори и в този случай, GPT-4 се представя добре на други езици. В преведените версии на MMLU, GPT-4 превъзхожда нивото на английски на други големи модели (включително този на Google) с 24 от 26-те изследвани езика.
Какво още, GPT-4 се представя по-добре на редки езици от ChatGPT направи на английски (ChatGPT постигна резултат от 70.1%, докато резултатът на новия модел за Thai беше 71.8%). Най-висок е резултатът от теста по английски език, с GPT-4 представяйки се с 10% по-добре от други модели, включително най-големия PaLM от Google. Той постигна резултат от 86.4%, а група от експерти - 90%.
- До лятото на 2023 г. AI може да е достигнал ново ниво на мощност благодарение на ChatGPT, чатбот, който използва GPT-4 алгоритъм и превъзхожда GPT-3 с коефициент 570. Разнообразие от елементи допринасят за ChatGPTУспехът на, включително дизайнът му да бъде по-„човешки“ и използването на авангардно извличане на данни и обработка на естествен език за повишаване на неговата ефективност и точност.
- Microsoft и OpenAI обявиха подновяването на сътрудничеството си и плановете за търсене в Bing да приеме подобрени с AI възможности за търсене през януари. Много изтънченото GPT3.5 модел замяна, GPT4, току-що стартира, и има потенциала значително да подобри капацитета на Bing search за разбиране на заявки на естествен език и предоставяне на по-точни резултати. Добра идея е да имате добър резервен план, в случай че нещо се обърка.
Прочетете още свързани новини:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.