OpenFlamingo: Нова рамка за преобразуване на изображение в текст с отворен код от Meta AI и LAION
Накратко
OpenFlamingo е версия с отворен код на модела Flamingo на DeepMind, изграден върху LLaMA голям езиков модел.
Разработчиците се надяват да създадат мултимодална система, която може да се справи с предизвикателствата на визуално-езичния език и да е равностойна GPT-4силата и адаптивността при работа с визуално и текстово въвеждане.
Версията с отворен код на модела Flamingo на DeepMind, OpenFlamingo, току-що беше пуснат. OpenFlamingo е основно рамка, която позволява обучението и оценката на големи мултимодални модели (LMM). OpenFlamingo е изграден върху LLaMA голям езиков модел, разработен от Meta AI.
Приносът на разработчиците към тази първа версия е както следва:
- Голям мултимодален набор от данни, който съчетава текстови и визуални поредици.
- Еталон за оценяване на обучението в контекст за дейности, включително визия и език.
- Предварителна версия на нашата LLaMAбазиран на OpenFlamingo-9B модел.
Чрез OpenFlamingo разработчиците се надяват да създадат мултимодална система, която може да се справи с различни предизвикателства, свързани с езика на зрението. Крайната цел е равенство GPT-4силата и адаптивността при работа с визуално и текстово въвеждане. Разработчиците разработват версия с отворен код на модела Flamingo на DeepMind, LMM, способен да обработва и разсъждава върху изображения, видеоклипове и текст, за да постигне тази цел. Разработчиците са посветени на разработването на модели с изцяло отворен код, защото смятат, че прозрачността е от решаващо значение за насърчаване на сътрудничеството, ускоряване на развитието и демократизиране на достъпа до авангардни LMM.
Те осигуряват първоначалната контролна точка на нашия модел OpenFlamingo-9B. Въпреки че моделът все още не е напълно оптимизиран, той показва обещанието на проекта. Разработчиците могат да обучават по-добри LMM, като си сътрудничат и получават обратна връзка от общността. Те приканват обществеността да даде принос и да добави към хранилището, за да вземе участие в процеса на разработка.
Изпълнението много наподобява това на Flamingo. Моделите на Flamingo трябва да бъдат обучени на широкомащабни уеб набори от данни с вложен текст и графики да ги оборудвате с умения за учене в контекста на няколко изстрела. Същата архитектура, която беше предложена в оригиналното проучване на Flamingo (Resamplers на Perceiver, слоеве за кръстосано внимание), е внедрена в OpenFlamingo. Но тъй като данните за обучение на Flamingo не са достъпни за широката публика, разработчиците използват набори от данни с отворен код, за да обучават модели. Новопубликувания контролен пункт OpenFlamingo-9B беше специално обучен на 10 милиона проби от LAION-2B и 5 милиона проби от новия мултимодален набор от данни C4.
Разработчиците също включват контролна точка от нашия недовършен LMM OpenFlamingo-9B, който се базира на LLaMA 7B и CLIP ViT/L-14, като част от изданието. Въпреки че тази концепция все още се разработва, общността може вече да има голяма полза от нея.
За да започнете, вижте GitHub източник и демонстрация.
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.