OpenFlamingo: nowa platforma przetwarzania obrazu na tekst typu open source od Meta AI i LAION
W skrócie
OpenFlamingo to otwarta wersja modelu Flamingo firmy DeepMind, zbudowana na bazie platformy LLaMA duży model językowy.
Deweloperzy mają nadzieję stworzyć system multimodalny, który poradzi sobie z wyzwaniami związanymi z wizją i językiem GPT-4siła i zdolność adaptacji w obsłudze wprowadzania wizualnego i tekstowego.
Otwarta wersja modelu Flamingo firmy DeepMind, Otwórz Flamingo, właśnie został wydany. OpenFlamingo to zasadniczo framework umożliwiający szkolenie i ocenę dużych modeli multimodalnych (LMM). OpenFlamingo jest zbudowany na bazie LLaMA duży model językowy opracowany przez Meta AI.
Wkład programistów w to pierwsze wydanie jest następujący:
- Spory multimodalny zestaw danych, który łączy sekwencje tekstowe i wizualne.
- Benchmark oceny uczenia się w kontekście działań obejmujących widzenie i język.
- Wstępna wersja naszego LLaMAoparty na modelu OpenFlamingo-9B.
Dzięki OpenFlamingo programiści mają nadzieję stworzyć system multimodalny, który poradzi sobie z różnorodnymi wyzwaniami związanymi z wizją i językiem. Ostatecznym celem jest wyrównanie GPT-4siła i zdolność adaptacji w obsłudze wprowadzania wizualnego i tekstowego. Aby osiągnąć ten cel, programiści opracowują wersję open source modelu Flamingo firmy DeepMind, LMM zdolnego do przetwarzania i wyciągania wniosków na temat obrazów, filmów i tekstu. Deweloperzy poświęcają się opracowywaniu modeli całkowicie open source, ponieważ uważają, że przejrzystość jest kluczowa dla promowania współpracy, przyspieszania rozwoju i demokratyzacji dostępu do najnowocześniejszych LMM.
Zapewniają początkowy punkt kontrolny naszego modelu OpenFlamingo-9B. Chociaż model nie jest jeszcze w pełni zoptymalizowany, pokazuje obietnicę projektu. Deweloperzy mogą szkolić lepszych LMM, współpracując i uzyskując opinie społeczności. Zapraszają opinię publiczną do wnoszenia wkładu i dodawania do repozytorium w celu wzięcia udziału w procesie rozwoju.
Implementacja bardzo przypomina tę z Flamingo. Modele Flamingo muszą być szkolone na dużych internetowych zestawach danych z przeplatanym tekstem i grafika aby wyposażyć ich w umiejętności uczenia się w kontekście kilku strzałów. Ta sama architektura, która została zasugerowana w oryginalnym badaniu Flamingo (resamplery Perceiver, warstwy wzajemnej uwagi) jest zaimplementowana w OpenFlamingo. Ponieważ jednak dane szkoleniowe Flamingo nie są dostępne dla ogółu społeczeństwa, programiści używają zestawów danych typu open source do uczenia modeli. Nowo opublikowany punkt kontrolny OpenFlamingo-9B został specjalnie przeszkolony na 10 milionach próbek z LAION-2B i 5 milionach próbek z nowego zestawu danych Multimodal C4.
Deweloperzy dołączają także punkt kontrolny z naszego niedokończonego LMM OpenFlamingo-9B, który jest oparty na LLaMA 7B i CLIP ViT/L-14, jako część wydania. Choć koncepcja ta jest wciąż rozwijana, społeczność może już na niej wiele zyskać.
Aby rozpocząć, spójrz na GitHub źródło i próbny.
Przeczytaj więcej o sztucznej inteligencji:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.