Новини Технологии
Септември 12, 2023

FLM-101B: Супер рентабилен езиков модел в мащаб 101B се конкурира с водещи AI модели

Накратко

Китайският LLM, LM-101B, може да бъде обучен на бюджет от $100K, постигайки производителност, сравнима с добре познати модели като GPT-3 и GLM-130B.

Китайски изследователи разкриха нов LLM, the FLM-101B, LLM само за декодер, който може да се похвали със забележителните 101 милиарда параметъра. Тази разработка предоставя рентабилна алтернатива както за научни изследвания, така и за практически приложения.

FLM-101B: Супер рентабилен езиков модел в мащаб 101B се конкурира с водещи AI модели
Свързани: Разходите за обучение на AI модели се очаква да нараснат от $100 милиона до $500 милиона до 2030 г.

Това, което отличава FLM-101B, е неговата изключителна производителност, постигната при сравнително скромен бюджет. Въпреки че е добре известно, че обучението на LLM от нулата може да изисква астрономически инвестиции, създателите на FLM-101B показаха, че е възможно да се обучи модел със 101 милиарда параметъра, като се използва само бюджет от $100K.

Експерименталните резултати не са нищо друго освен впечатляващи. FLM-101B демонстрира нива на производителност, сравними с установените и изискващи ресурси модели като GPT-3 и GLM-130B. Това сравнение подчертава огромния потенциал на този рентабилен модел, особено при показатели за IQ със сложни контексти, които не присъстват в данните за обучение.

В ход, който подчертава техния ангажимент за напредък в изследванията и развитието на AI, създателите на FLM-101B направиха този модел с отворен код. Изследователи и разработчици по целия свят вече могат да имат достъп и да използват този LLM от мащаб 101B за различни приложения, обхващащи както китайския, така и английския език.

Моделът FLM-101B използва уникален подход за обучение. Той бързо натрупва знания от по-малък модел с 16 милиарда параметъра в началните етапи на обучение и прогресивно мащабира до 101 милиарда параметъра. Този поетапен подход значително намалява разходите за обучение, което го прави финансово осъществим за по-широк набор от проекти.

Една забележителна характеристика на FLM-101B е неговата поддръжка за ефективно разширяване на размера на прозореца по време на извод. Това се постига чрез използването на xPos вграждане на ротационна позиция, което позволява на модела да се справи с по-широк контекст, подобрявайки неговата адаптивност и използваемост.

FLM-101B беше обучен на клъстер от 24 DGX-A800 GPU сървъра за по-малко от 26 дни. Това впечатляващо постижение подчертава скалируемостта на модела и ефективното използване на ресурсите. Кодовата база за обучение на модела, адаптирана от Megatron-LM, скоро ще бъде достъпна като отворен код, предоставяйки ценна информация за AI общността.

Създателите на FLM-101B признават потенциалните ограничения, включително излагането на модела на опасни примери в учебния корпус поради отворения характер на набора от данни. Това предупреждение служи като напомняне за важността на отговорното използване на AI и модериране на съдържанието.

Въпреки че FLM-101B постигна забележителни резултати, създателите признават области за подобрение. Процесът на извеждане на модела, макар и мощен, все още не е напълно оптимизиран, което води до по-високо използване на ресурси и намалена скорост. Въпреки това, в ход са планове за въвеждане на Flash Attention в извода, адресирайки това ограничение.

Прочетете повече за AI:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Nexo инициира „лов“ за възнаграждение на потребителите с $12 милиона в NEXO токени за ангажиране с неговата екосистема
пазари Новини Технологии
Nexo инициира „лов“ за възнаграждение на потребителите с $12 милиона в NEXO токени за ангажиране с неговата екосистема
Май 8, 2024
Revolut X Exchange на Revolut увлича крипто търговци с нулеви такси за създаване и разширен анализ
пазари Софтуер Истории и рецензии Технологии
Revolut X Exchange на Revolut увлича крипто търговци с нулеви такси за създаване и разширен анализ
Май 8, 2024
Платформата за крипто търговия BitMEX дебютира търговия с опции с 0 такси и парични стимули
Бизнес пазари Новини
Платформата за крипто търговия BitMEX дебютира търговия с опции с 0 такси и парични стимули
Май 8, 2024
Lisk официално преминава към Ethereum Layer 2 и разкрива Core v4.0.6
Новини Технологии
Lisk официално преминава към Ethereum Layer 2 и разкрива Core v4.0.6
Май 8, 2024
CRYPTOMERIA LABS PTE. LTD.