Báo cáo tin tức Công nghệ
12 Tháng Sáu, 2023

Microsoft đã giới thiệu mô hình ngôn ngữ đa phương thức Otter để hiểu trực quan dựa trên bộ dữ liệu văn bản trực quan hướng dẫn lớn MIMIC-IT

Tóm lại

Otter là một mô hình ngôn ngữ trực quan (VLM) được xây dựng trên nền tảng OpenFlamingo, được thiết kế để cách mạng hóa việc hiểu thị giác và tương tác với nội dung thị giác.

Rái cá là một mô hình ngôn ngữ hình ảnh tiên tiến (VLM) được xây dựng trên MởFlamingo nền tảng và nó được thiết lập để cải thiện cách chúng ta tương tác với nội dung trực quan. Là một phần của dự án đầy tham vọng Otter, Microsoft đã giới thiệu một bộ dữ liệu văn bản trực quan hướng dẫn khổng lồ được gọi là MIMIC-IT. Bộ dữ liệu này chứa 2.8 triệu cặp hướng dẫn đa phương thức được liên kết đáng kinh ngạc với câu trả lời, bao gồm 2.2 triệu hướng dẫn duy nhất có nguồn gốc từ hình ảnh và video. Bộ dữ liệu được tuyển chọn tỉ mỉ để mô phỏng các cuộc đối thoại tự nhiên, bao gồm các tình huống như mô tả hình ảnh và video, so sánh hình ảnh, trả lời câu hỏi, hiểu cảnh, v.v. Các cặp hướng dẫn-phản hồi chất lượng cao này được tạo bằng công cụ mạnh mẽ ChatGPT-0301 API, đại diện cho khoản đầu tư khoảng $20k.

Microsoft đã giới thiệu mô hình ngôn ngữ đa phương thức Otter để hiểu trực quan dựa trên bộ dữ liệu văn bản trực quan hướng dẫn lớn MIMIC-IT

Bộ dữ liệu MIMIC-IT đóng một vai trò quan trọng trong việc đào tạo mô hình Rái cá, được thiết kế để vượt trội trong việc hiểu các cảnh trực quan, suy luận và kết luận logic. Mỗi cặp hướng dẫn-phản hồi trong tập dữ liệu được đi kèm với thông tin trong ngữ cảnh đa phương thức, tạo ra các ngữ cảnh đàm thoại giúp mô hình nắm bắt được các sắc thái của nhận thức, lý luận và lập kế hoạch. Để mở rộng quy trình chú thích, Microsoft đã sử dụng một quy trình chú thích tự động có tên là Syphus, kết hợp kiến ​​thức chuyên môn của con người với khả năng của GPT để đảm bảo chất lượng và tính đa dạng của bộ dữ liệu.

Microsoft đã giới thiệu mô hình ngôn ngữ đa phương thức Otter để hiểu trực quan dựa trên bộ dữ liệu văn bản trực quan hướng dẫn lớn MIMIC-IT

Sử dụng bộ dữ liệu MIMIC-IT, Microsoft đã đào tạo mô hình Otter, một VLM quy mô lớn dựa trên nền tảng OpenFlamingo. Thông qua các đánh giá sâu rộng về tiêu chuẩn ngôn ngữ thị giác, Otter đã thể hiện sự thành thạo vượt trội về nhận thức đa phương thức, lý luận và học tập trong ngữ cảnh. Đánh giá của con người đã tiết lộ khả năng của nó để phù hợp hiệu quả với ý định của người dùng, làm cho nó trở thành một công cụ vô giá để diễn giải và thực hiện các nhiệm vụ phức tạp dựa trên các hướng dẫn ngôn ngữ tự nhiên.

Otter v0.2 đã mở rộng khả năng hỗ trợ đầu vào video, cho phép nó quá trình khung và nhiều hình ảnh làm ví dụ trong ngữ cảnh.

Việc phát hành bộ dữ liệu MIMIC-IT, cùng với quy trình thu thập phản hồi hướng dẫn, điểm chuẩn và mô hình Otter, đại diện cho một cột mốc quan trọng trong lĩnh vực xử lý ngôn ngữ đa phương thức. Bằng cách cung cấp các tài nguyên này cho các nhà nghiên cứu và nhà phát triển, Microsoft đặt mục tiêu thúc đẩy sự đổi mới và cộng tác, cho phép tích hợp Otter và OpenFlamingo vào các quy trình đào tạo và suy luận tùy chỉnh bằng cách sử dụng công cụ phổ biến. Ôm mặt Khung máy biến áp.

Bộ dữ liệu MIMIC-IT bao gồm một loạt các tình huống thực tế, trao quyền cho Mô hình ngôn ngữ hình ảnh (VLM) để hiểu các cảnh chung, lý do về bối cảnh và phân biệt thông minh giữa các quan sát. Điều này mở ra các khả năng, chẳng hạn như sự phát triển của các mô hình trợ lý trực quan vị kỷ có thể trả lời các câu hỏi như: “Này, bạn có nghĩ rằng tôi để quên chìa khóa trên bàn không?”.

MIMIC-IT không giới hạn ở ngôn ngữ tiếng Anh. Nó cũng hỗ trợ nhiều ngôn ngữ, bao gồm tiếng Trung, tiếng Hàn, tiếng Nhật, tiếng Đức, tiếng Pháp, tiếng Tây Ban Nha và tiếng Ả Rập. Sự hỗ trợ đa ngôn ngữ này cho phép nhiều đối tượng toàn cầu hơn được hưởng lợi từ sự tiện lợi và tiến bộ do AI mang lại.

Để đảm bảo tạo ra các cặp hướng dẫn-phản hồi chất lượng cao, microsoft đã giới thiệu Syphus, một quy trình tự động kết hợp thông báo hệ thống, chú thích trực quan và ví dụ trong ngữ cảnh làm lời nhắc cho ChatGPT. Điều này đảm bảo độ tin cậy và chính xác của các cặp hướng dẫn-phản hồi được tạo trên nhiều ngôn ngữ.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Notcoin có kế hoạch phân phối 5% nguồn cung cấp mã thông báo của mình cho 500,000 thành viên cộng đồng và người dùng sàn giao dịch tiền điện tử
thị trường Báo cáo tin tức Công nghệ
Notcoin có kế hoạch phân phối 5% nguồn cung cấp mã thông báo của mình cho 500,000 thành viên cộng đồng và người dùng sàn giao dịch tiền điện tử
13 Tháng Năm, 2024
Sự chuyển đổi sang tiền điện tử của Donald Trump: Từ đối thủ thành người ủng hộ và ý nghĩa của nó đối với thị trường tiền điện tử Hoa Kỳ
Kinh doanh thị trường Câu chuyện và đánh giá Công nghệ
Sự chuyển đổi sang tiền điện tử của Donald Trump: Từ đối thủ thành người ủng hộ và ý nghĩa của nó đối với thị trường tiền điện tử Hoa Kỳ
10 Tháng Năm, 2024
Layer3 sẽ ra mắt mã thông báo L3 vào mùa hè này, phân bổ 51% tổng nguồn cung cho cộng đồng
thị trường Báo cáo tin tức Công nghệ
Layer3 sẽ ra mắt mã thông báo L3 vào mùa hè này, phân bổ 51% tổng nguồn cung cho cộng đồng
10 Tháng Năm, 2024
Cảnh báo cuối cùng của Edward Snowden dành cho các nhà phát triển Bitcoin: “Đặt quyền riêng tư thành ưu tiên ở cấp độ giao thức hoặc có nguy cơ mất nó
thị trường Bảo mật Wiki Phần mềm Câu chuyện và đánh giá Công nghệ
Cảnh báo cuối cùng của Edward Snowden dành cho các nhà phát triển Bitcoin: “Đặt quyền riêng tư thành ưu tiên ở cấp độ giao thức hoặc có nguy cơ mất nó
10 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH