Септември 12, 2023

FLM-101B: Супер рентабилен езиков модел в мащаб 101B се конкурира с водещи AI модели

Публикувано: 12 септември 2023 г. в 8:41 ч. Актуализирано: 12 септември 2023 г. в 9:12 ч.

Редактирано и проверено на фактите: 12 септември 2023 г. в 8:41 ч

Накратко

Китайският LLM, LM-101B, може да бъде обучен на бюджет от $100K, постигайки производителност, сравнима с добре познати модели като GPT-3 и GLM-130B.

Китайски изследователи разкриха нов LLM, the FLM-101B, LLM само за декодер, който може да се похвали със забележителните 101 милиарда параметъра. Тази разработка предоставя рентабилна алтернатива както за научни изследвания, така и за практически приложения.

FLM-101B: Супер рентабилен езиков модел в мащаб 101B се конкурира с водещи AI модели

Свързани: Разходите за обучение на AI модели се очаква да нараснат от $100 милиона до $500 милиона до 2030 г.

Това, което отличава FLM-101B, е неговата изключителна производителност, постигната при сравнително скромен бюджет. Въпреки че е добре известно, че обучението на LLM от нулата може да изисква астрономически инвестиции, създателите на FLM-101B показаха, че е възможно да се обучи модел със 101 милиарда параметъра, като се използва само бюджет от $100K.

Експерименталните резултати не са нищо друго освен впечатляващи. FLM-101B демонстрира нива на производителност, сравними с установените и изискващи ресурси модели като GPT-3 и GLM-130B. Това сравнение подчертава огромния потенциал на този рентабилен модел, особено при показатели за IQ със сложни контексти, които не присъстват в данните за обучение.

В ход, който подчертава техния ангажимент за напредък в изследванията и развитието на AI, създателите на FLM-101B направиха този модел с отворен код. Изследователи и разработчици по целия свят вече могат да имат достъп и да използват този LLM от мащаб 101B за различни приложения, обхващащи както китайския, така и английския език.

Моделът FLM-101B използва уникален подход за обучение. Той бързо натрупва знания от по-малък модел с 16 милиарда параметъра в началните етапи на обучение и прогресивно мащабира до 101 милиарда параметъра. Този поетапен подход значително намалява разходите за обучение, което го прави финансово осъществим за по-широк набор от проекти.

Една забележителна характеристика на FLM-101B е неговата поддръжка за ефективно разширяване на размера на прозореца по време на извод. Това се постига чрез използването на xPos вграждане на ротационна позиция, което позволява на модела да се справи с по-широк контекст, подобрявайки неговата адаптивност и използваемост.

FLM-101B беше обучен на клъстер от 24 DGX-A800 GPU сървъра за по-малко от 26 дни. Това впечатляващо постижение подчертава скалируемостта на модела и ефективното използване на ресурсите. Кодовата база за обучение на модела, адаптирана от Megatron-LM, скоро ще бъде достъпна като отворен код, предоставяйки ценна информация за AI общността.

Създателите на FLM-101B признават потенциалните ограничения, включително излагането на модела на опасни примери в учебния корпус поради отворения характер на набора от данни. Това предупреждение служи като напомняне за важността на отговорното използване на AI и модериране на съдържанието.

Въпреки че FLM-101B постигна забележителни резултати, създателите признават области за подобрение. Процесът на извеждане на модела, макар и мощен, все още не е напълно оптимизиран, което води до по-високо използване на ресурси и намалена скорост. Въпреки това, в ход са планове за въвеждане на Flash Attention в извода, адресирайки това ограничение.

Прочетете повече за AI:

Tags:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.

Още статии

Дамир Ялалов