Днешните големи езикови модели ще бъдат малки модели, според изследовател в OpenAI
Hyung Won Chung, опитен изследовател на AI, който преди е бил нает от Google Brain и в момента е член на OpenAI екип, изнесе провокираща размисъл 45-минутна реч, в която изследва света на големите езикови модели през 2023 г. Chung има опит в областта; той беше първият автор на статията на Google "Инструкция за мащабиране - фино настроени езикови модели,”, който изследва как големите езикови модели могат да бъдат обучени да следват инструкции.
Chung подчертава света на екстензивните езикови модели като динамичен. В света на LLM ръководният принцип непрекъснато се развива, за разлика от традиционните области, където основните допускания обикновено остават стабилни. С предстоящото поколение модели това, което в момента се смята за невъзможно или непрактично, може да стане възможно. Той подчертава значението на предшестването на повечето твърдения относно възможностите на LLM с „засега“. Един модел може да изпълни задача; просто още не го е направил.
Днешните големи модели ще бъдат малки модели само след няколко години
Хюнг Уон Чунг, OpenAI
Необходимостта от щателна документация и възпроизводимост в AI изследвания е един от най-важните уроци, които трябва да се научат от речта на Chung. От решаващо значение е да документирате изчерпателно текущата работа, докато областта се развива. Тази стратегия гарантира, че експериментите могат бързо да бъдат възпроизведени и преразгледани, което позволява на изследователите да надграждат върху предишна работа. Чрез тази практика се признава, че в бъдеще могат да се развият способности, които не са били практични по време на първоначалното изследване.
Чунг посвещава част от своята реч на изясняването на тънкостите на паралелизма на данните и моделите. За тези, които се интересуват да навлязат по-дълбоко в техническите аспекти на AI, този раздел предоставя ценна представа за вътрешната работа на тези техники за паралелизъм. Разбирането на тези механизми е от решаващо значение за оптимизирането мащабно обучение на модели.
Chung постулира, че текущата целева функция, Максимална вероятност, използвана за предварително обучение за LLM, е тясно място, когато става въпрос за постигане на наистина огромни мащаби, като например 10,000 XNUMX пъти капацитета на GPT-4. С напредването на машинното обучение ръчно проектираните функции за загуба стават все по-ограничаващи.
Chung предполага, че следващата парадигма в развитието на AI включва функции за обучение чрез отделни алгоритми. Този подход, макар и в зародиш, обещава мащабируемост отвъд настоящите ограничения. Той също така подчертава текущите усилия, като например Подсилване на обучението от човешка обратна връзка (RLHF) с моделиране на правила, като стъпки в тази посока, въпреки че остават предизвикателствата за преодоляване.
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.