Октобар КСНУМКС, КСНУМКС

Данашњи модели великих језика биће мали модели, према истраживачу на OpenAI

Објављено: 12. октобра 2023. у 3:05 Ажурирано: 12. октобра 2023. у 3:08

Измењено и проверено: 12. октобар 2023. у 3:05

Хјунг Вон Чунг, успешни истраживач вештачке интелигенције који је раније био запослен у Гоогле Браин-у, а тренутно је члан OpenAI тим, одржао је 45-минутни говор који изазива размишљање у којем је истраживао свет великих језичких модела 2023. Цхунг има искуство у овој области; био је први аутор Гугловог листа “Скалирање инструкција - фино подешени језички модели,” који испитује како се велики језички модели могу обучити да прате упутства.

Чунг наглашава да је свет екстензивних језичких модела динамичан. У свету ЛЛМ-а, водећи принцип се стално развија, за разлику од традиционалних области у којима фундаменталне претпоставке обично остају стабилне. Са предстојећом генерацијом модела, оно што се тренутно сматра немогућим или непрактичним може постати могуће. Он наглашава значај да се већина тврдњи о ЛЛМ способностима префабрикује са „за сада“. Модел може да изврши задатак; само то још није учињено.

Велики модели данашњице биће мали модели за само неколико година
Хјунг Вон Чунг, OpenAI

Потреба за прецизном документацијом и поновљивошћу у АИ истраживање је једна од најважнијих лекција које се могу научити из Чунговог говора. Од кључне је важности да се темељно документује текући рад како се поље развија. Ова стратегија гарантује да се експерименти могу брзо реплицирати и поново прегледати, омогућавајући истраживачима да надограђују ранији рад. Кроз ову праксу, признаје се да се у будућности могу развити способности које нису биле практичне током почетног истраживања.

Чунг посвећује део свог говора разјашњавању замршености података и паралелизма модела. За оне који су заинтересовани да дубље уђу у техничке аспекте АИ, овај одељак пружа вредан увид у унутрашње функционисање ових техника паралелизма. Разумевање ових механизама је кључно за оптимизацију обука великих модела.

Цхунг тврди да је тренутна функција циља, максимална вероватноћа, која се користи за ЛЛМ пре-тренинг, уско грло када је у питању постизање заиста великих размера, као што је 10,000 пута већи капацитет од GPT-4. Како машинско учење напредује, ручно дизајниране функције губитка постају све ограничавајуће.

Цхунг сугерише да следећа парадигма у развоју вештачке интелигенције укључује функције учења кроз одвојене алгоритаме. Овај приступ, иако је у повоју, обећава скалабилност изван тренутних ограничења. Он такође истиче текуће напоре, као што је јачање учења на основу људских повратних информација (РЛХФ) са моделирањем правила, као кораке у овом правцу, иако изазови остају да се превазиђу.

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов