Raport aktualności Technologia
29 maja 2023 r.

Google nauczył Flamingo, model sztucznej inteligencji, pisać opisy do filmów na YouTube

W skrócie

Flamingo rozwiązuje problem trudności ze znalezieniem krótkich filmów w wyszukiwarce, automatycznie tworząc opisy.

Google DeepMind, laboratorium badawcze sztucznej inteligencji, ma rozwinięty model języka wizualnego o nazwie Flamingo zdolny do pisania opisów do krótkich filmów na YouTube. Problem, który rozwiązuje Flamingo, polega na tym, że krótkie filmy są często trudne do zlokalizowania za pomocą wyszukiwania z powodu braku niezbędnych informacji w opisie. Model Flamingo rozwiązuje ten problem, automatycznie generując teksty dla milionów krótkich klipów wideo na serwisach hostujących wideo, które są wykorzystywane „za kulisami”, aby umożliwić łatwe wyszukiwanie. Mimo że autorzy filmu nie zobaczą metadanych, widzom pomaga to w wyszukiwaniu filmów krótkometrażowych i poruszaniu się po nich. Obecnie Flamingo od dłuższego czasu pracuje nad nowymi klipami i przetwarza starsze filmy przesłane do YouTube.

Google nauczył Flamingo, model sztucznej inteligencji, pisać opisy do filmów na YouTube
deepmind.com

W przeszłości Google wprowadził algorytm, który umożliwia ludziom wyszukiwanie informacji w filmach za pomocą paska wyszukiwania. Niedawno firma TwelveLabs zebrała od inwestorów 12 milionów dolarów na podobny rozwój. Narzędzia te stwarzają nowe możliwości dla wideo twórcy treści aby zwiększyć ich zasięg i widoczność. Wykorzystując sztuczną inteligencję do ulepszania i upraszczania procesu wyszukiwania i odkrywania krótkich treści, DeepMind i podobne startupy rewolucjonizują wideo Usług transmisji strumieniowej. Przyczyniają się do rozwoju bardziej inteligentnych i wydajnych technologii wyszukiwania, jeszcze bardziej ułatwiając widzom znajdowanie treści, które naprawdę ich interesują.

Sztuczna inteligencja odgrywa znaczącą rolę w ulepszaniu technologii wyszukiwania. Wykorzystując sztuczną inteligencję, model Flamingo może skanować i serializować zawartość oraz generować teksty, które podsumowują treść, aby pomóc użytkownikom w nawigacji. Model Flamingo wykorzystuje głębokie sieci neuronowe do generowania tekstowych opisów klipów wideo na podstawie treści audio i wizualnej wideo. Może uchwycić dźwiękowe i wizualne elementy krótkich treści i przekształcić je w podsumowanie, które użytkownicy mogą łatwo wyszukiwać i uzyskiwać do nich dostęp.

Wykorzystanie sztucznej inteligencji może pomóc zidentyfikować ważne dla użytkowników informacje, które mogą zostać pominięte w ręcznych wysiłkach twórców podczas dodawania opisów. Czasochłonny wysiłek polegający na ręcznym uchwyceniu każdego szczegółu nie zawsze jest praktyczny, zwłaszcza przy ciągłym napływie krótkich treści wideo przesyłanych na platformy takie jak YouTube. Może to prowadzić do dezorientacji i frustracji użytkowników podczas wyszukiwania określonych krótkich treści. Jednak przy użyciu modeli języka wizualnego, takich jak Flamingo, metadane mogą być generowane automatycznie w celu zapewnienia łatwego dostępu do podsumowania, oszczędzając w ten sposób czas i czyniąc proces wyszukiwania bardziej wydajnym i dokładnym.

Flamingo ustanawia nowe, najnowocześniejsze modele języka wizualnego dla zadań otwartych

Najważniejsze szczegóły to wprowadzenie Flamingo, jednego modelu języka wizualnego (VLM), który wyznacza nowy stan wiedzy w zakresie uczenia się w kilku krokach w zakresie szerokiego zakresu otwartych zadań multimodalnych. Flamingo to pojedynczy model języka wizualnego (VLM), który redefines kilkuetapowe uczenie się w szerokim zakresie otwartych działań multimodalnych. Otrzymuje A podpowiedź składający się z przeplatanych obrazów, filmów i tekstu jako danych wejściowych i wyjściowych w powiązanym języku. Wizualny i tekstowy interfejs Flamingo, podobnie jak duże modele językowe (LLM), może doprowadzić model do osiągnięcia multimodalnego celu. Modelowi można zadać pytanie za pomocą świeżego obrazu lub wideo, a następnie skonstruować odpowiedź, biorąc pod uwagę kilka przykładowych par wizualnych danych wejściowych i oczekiwanych odpowiedzi tekstowych ułożonych w monicie Flamingo.

Flamingo to model języka wizualnego, który łączy duże modele językowe z potężnymi reprezentacjami wizualnymi i jest szkolony na mieszance komplementarnych wielkoskalowych multimodalnych danych pochodzących wyłącznie z sieci bez użycia jakichkolwiek danych z adnotacjami do celów uczenia maszynowego. Pokonuje wszystkie poprzednie metody uczenia się opartego na kilku strzałach, gdy podano tylko cztery przykłady na zadanie, i przewyższa metody, które są dopracowywane i optymalizowane dla każdego zadania niezależnie i wykorzystują o wiele rzędów wielkości więcej danych specyficznych dla zadania. Przetestowano również możliwości jakościowe modelu wykraczające poza obecne testy porównawcze, takie jak dodawanie podpisów do obrazów związanych z płcią i kolorem skóry oraz uruchamianie wygenerowanych podpisów za pośrednictwem interfejsu Google Perspective API, który ocenia toksyczność tekstu. Flamingo umożliwia skuteczne dostosowywanie się do tych przykładów i innych zadań w locie bez modyfikowania modelu i demonstruje gotowe możliwości multimodalnego dialogu.

Flamingo to rodzina modeli ogólnego przeznaczenia, które można zastosować do zadań rozumienia obrazów i wideo przy minimalnej liczbie przykładów specyficznych dla zadania. Jest to skuteczna i wydajna rodzina modeli ogólnego przeznaczenia, które można zastosować do zadań rozumienia obrazów i wideo przy minimalnej liczbie przykładów specyficznych dla zadania. Możliwości Flamingo torują drogę do bogatych interakcji z wyuczonymi modelami języka wizualnego, które mogą zapewnić lepszą interpretację i nowe ekscytujące zastosowania, takie jak asystent wizualny.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
Biznes Raport aktualności Technologia
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
3 maja 2024 r.
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
rynki Raport aktualności Technologia
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
3 maja 2024 r.
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
rynki Raport aktualności Technologia
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
3 maja 2024 r.
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
Biznes Raport aktualności Technologia
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
3 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.