Báo cáo tin tức Công nghệ
29 Tháng Năm, 2023

Google đã dạy mô hình AI Flamingo để viết mô tả cho video YouTube

Tóm lại

Flamingo giải quyết vấn đề khó tìm video ngắn thông qua tìm kiếm bằng cách tự động tạo mô tả.

Google DeepMind, phòng thí nghiệm nghiên cứu AI, đã phát triển một mô hình ngôn ngữ hình ảnh có tên Flamingo có khả năng viết mô tả cho các video ngắn trên YouTube. Vấn đề mà Flamingo giải quyết là các video ngắn thường khó xác định vị trí thông qua tìm kiếm do thiếu thông tin cần thiết trong phần mô tả. Mô hình Flamingo giải quyết vấn đề này bằng cách tự động tạo văn bản cho hàng triệu video clip ngắn trên các trang web lưu trữ video, được sử dụng “ở hậu trường” để cho phép tìm kiếm dễ dàng. Mặc dù tác giả video sẽ không nhìn thấy siêu dữ liệu nhưng nó giúp người xem tìm và điều hướng các đoạn phim ngắn. Hiện tại, Flamingo vừa thực hiện các clip mới vừa xử lý các video cũ đã upload lên YouTube từ lâu.

Google đã dạy mô hình AI Flamingo để viết mô tả cho video YouTube
deepmind.com

Trước đây, Google đã giới thiệu một thuật toán cho phép mọi người tìm kiếm thông tin bên trong video bằng thanh tìm kiếm. Gần đây, TwelveLabs đã huy động được 12 triệu đô la từ các nhà đầu tư để phát triển tương tự. Những công cụ này tạo cơ hội mới cho video người tạo nội dung để tăng phạm vi tiếp cận và khả năng hiển thị của họ. Bằng cách tận dụng AI để cải thiện và đơn giản hóa quy trình tìm kiếm cũng như khám phá nội dung dạng ngắn, DeepMind và các công ty khởi nghiệp tương tự đang cách mạng hóa video Dịch vụ truyền trực tuyến. Họ đang góp phần phát triển các công nghệ tìm kiếm thông minh và hiệu quả hơn, giúp người xem dễ dàng tìm thấy nội dung mà họ thực sự quan tâm.

Trí tuệ nhân tạo đang đóng một vai trò quan trọng trong việc nâng cấp các công nghệ tìm kiếm. Bằng cách tận dụng AI, mô hình Flamingo có thể quét và sắp xếp theo thứ tự nội dung, đồng thời tạo văn bản tóm tắt nội dung để giúp người dùng điều hướng. Mô hình Flamingo sử dụng các mạng lưới thần kinh sâu để tạo các mô tả bằng văn bản của một video clip dựa trên nội dung âm thanh và hình ảnh của video. Nó có thể nắm bắt các thành phần thính giác và hình ảnh của nội dung dạng ngắn và biến chúng thành một bản tóm tắt để người dùng dễ dàng tìm kiếm và truy cập.

Việc sử dụng trí tuệ nhân tạo có thể giúp xác định thông tin quan trọng cho người dùng, thông tin này có thể bị bỏ sót khi người sáng tạo thêm nội dung mô tả theo cách thủ công. Nỗ lực tốn thời gian để ghi lại mọi chi tiết theo cách thủ công không phải lúc nào cũng thực tế, đặc biệt là với luồng nội dung video dạng ngắn liên tục được tải lên trên các nền tảng như YouTube. Điều này có thể dẫn đến sự nhầm lẫn và thất vọng của người dùng khi tìm kiếm nội dung dạng ngắn cụ thể. Tuy nhiên, với việc sử dụng các mô hình ngôn ngữ trực quan, chẳng hạn như Flamingo, siêu dữ liệu có thể được tạo tự động để cung cấp một bản tóm tắt để dễ dàng truy cập, do đó tiết kiệm thời gian và giúp quá trình tìm kiếm hiệu quả và chính xác hơn.

Flamingo thiết lập các mô hình ngôn ngữ hình ảnh hiện đại mới cho các nhiệm vụ có kết thúc mở

Các chi tiết quan trọng nhất là giới thiệu Flamingo, một mô hình ngôn ngữ hình ảnh duy nhất (VLM) thiết lập một trạng thái mới của nghệ thuật học vài lần trên một loạt các nhiệm vụ đa phương thức kết thúc mở. Flamingo là một mô hình ngôn ngữ hình ảnh duy nhất (VLM) táidefihọc tập ngắn gọn qua một loạt các hoạt động đa phương thức không giới hạn. Nó nhận được một nhanh chóng bao gồm các hình ảnh, video và văn bản xen kẽ làm đầu vào và đầu ra ngôn ngữ liên quan. Giao diện hình ảnh và văn bản của Flamingo, giống như giao diện của các mô hình ngôn ngữ lớn (LLM), có thể dẫn dắt mô hình hướng tới việc hoàn thành mục tiêu đa phương thức. Mô hình có thể được đặt câu hỏi bằng một hình ảnh hoặc video mới và sau đó xây dựng câu trả lời, đưa ra một số cặp ví dụ về đầu vào trực quan và phản hồi văn bản dự kiến ​​được soạn trong lời nhắc của Flamingo.

Flamingo là một mô hình ngôn ngữ trực quan kết hợp các mô hình ngôn ngữ lớn với các biểu diễn trực quan mạnh mẽ và được đào tạo dựa trên hỗn hợp dữ liệu đa phương thức quy mô lớn bổ sung chỉ đến từ web mà không sử dụng bất kỳ dữ liệu nào được chú thích cho mục đích học máy. Nó đánh bại tất cả các phương pháp học từng bước trước đây khi được cung cấp ít nhất bốn ví dụ cho mỗi nhiệm vụ và vượt trội hơn các phương pháp được tinh chỉnh và tối ưu hóa cho từng nhiệm vụ một cách độc lập cũng như sử dụng nhiều cấp độ dữ liệu cụ thể hơn cho từng nhiệm vụ. Nó cũng đã kiểm tra các khả năng định tính của mô hình ngoài các điểm chuẩn hiện tại, chẳng hạn như tạo chú thích cho hình ảnh liên quan đến giới tính và màu da cũng như chạy các chú thích được tạo thông qua API phối cảnh của Google, đánh giá mức độ độc hại của văn bản. Flamingo cho phép điều chỉnh hiệu quả các ví dụ này và các tác vụ khác một cách nhanh chóng mà không cần sửa đổi mô hình và thể hiện các khả năng đối thoại đa phương thức vượt trội.

Flamingo là một nhóm các mô hình có mục đích chung có thể được áp dụng cho các nhiệm vụ hiểu hình ảnh và video với các ví dụ cụ thể về nhiệm vụ tối thiểu. Đây là một nhóm các mô hình có mục đích chung hiệu quả và hiệu quả có thể được áp dụng cho các nhiệm vụ hiểu hình ảnh và video với các ví dụ cụ thể về nhiệm vụ tối thiểu. Các khả năng của Flamingo mở đường cho các tương tác phong phú với các mô hình ngôn ngữ hình ảnh đã học có thể cho phép khả năng diễn giải tốt hơn và các ứng dụng mới thú vị, chẳng hạn như trợ lý trực quan.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
Kinh doanh Báo cáo tin tức Công nghệ
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
3 Tháng Năm, 2024
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
thị trường Báo cáo tin tức Công nghệ
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
3 Tháng Năm, 2024
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
thị trường Báo cáo tin tức Công nghệ
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
3 Tháng Năm, 2024
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
Kinh doanh Báo cáo tin tức Công nghệ
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
3 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH