Báo cáo tin tức Công nghệ
30 Tháng ba, 2023

OpenFlamingo: Khung hình ảnh thành văn bản mã nguồn mở mới từ Meta AI và LAION

Tóm lại

OpenFlamingo là phiên bản mã nguồn mở của mô hình Flamingo của DeepMind, được xây dựng dựa trên LLaMA mô hình ngôn ngữ lớn.

Các nhà phát triển hy vọng tạo ra một hệ thống đa phương thức có thể xử lý các thách thức về ngôn ngữ thị giác và bình đẳng GPT-4sức mạnh và khả năng thích ứng của nó trong việc xử lý dữ liệu đầu vào bằng hình ảnh và văn bản.

Phiên bản nguồn mở của mô hình Flamingo của DeepMind, MởFlamingo, vừa được phát hành. OpenFlamingo về cơ bản là một khuôn khổ cho phép đào tạo và đánh giá các mô hình đa phương thức (LMM) có quy mô lớn. OpenFlamingo được xây dựng dựa trên LLaMA mô hình ngôn ngữ lớn được phát triển bởi Meta AI.

OpenFlamingo: Khung hình ảnh thành văn bản mã nguồn mở mới từ Meta AI và LAION
Tìm hiểu thêm: Cách Sử dụng Midjourney miễn phí mãi mãi: 5 bước đơn giản

Những đóng góp của nhà phát triển cho phiên bản đầu tiên này như sau:

  • Một bộ dữ liệu đa phương thức khá lớn kết hợp các chuỗi văn bản và hình ảnh.
  • Điểm chuẩn để đánh giá học tập trong bối cảnh cho các hoạt động bao gồm tầm nhìn và ngôn ngữ.
  • Một phiên bản sơ bộ của chúng tôi LLaMAdựa trên mô hình OpenFlamingo-9B.

Thông qua OpenFlamingo, các nhà phát triển hy vọng sẽ tạo ra một hệ thống đa phương thức có thể xử lý nhiều thách thức về ngôn ngữ thị giác. Mục đích cuối cùng là bình đẳng GPT-4sức mạnh và khả năng thích ứng của nó trong việc xử lý dữ liệu đầu vào bằng hình ảnh và văn bản. Các nhà phát triển đang phát triển phiên bản nguồn mở của mô hình Flamingo của DeepMind, một LMM có khả năng xử lý và suy luận về hình ảnh, video và văn bản để hoàn thành mục tiêu này. Các nhà phát triển tận tâm phát triển các mô hình nguồn mở hoàn toàn vì họ cho rằng tính minh bạch là yếu tố quan trọng để thúc đẩy hợp tác, thúc đẩy phát triển và dân chủ hóa quyền truy cập vào các LMM tiên tiến.

nhận dạng động vật

Họ đang cung cấp điểm kiểm tra ban đầu cho mô hình OpenFlamingo-9B của chúng tôi. Mặc dù mô hình chưa được tối ưu hóa hoàn toàn, nhưng nó cho thấy triển vọng của dự án. Các nhà phát triển có thể đào tạo các LMM tốt hơn bằng cách hợp tác và nhận phản hồi của cộng đồng. Họ mời công chúng cung cấp đầu vào và thêm vào kho để tham gia vào quá trình phát triển.

Đếm đồ vật

Việc triển khai gần giống với cách triển khai của Flamingo. Các mô hình Flamingo phải được đào tạo trên bộ dữ liệu web quy mô lớn với văn bản xen kẽ và đồ họa để trang bị cho họ các kỹ năng học tập ngắn hạn trong ngữ cảnh. Kiến trúc tương tự đã được đề xuất trong nghiên cứu Flamingo ban đầu (bộ lấy mẫu lại bộ nhận thức, các lớp chú ý chéo) được triển khai trong OpenFlamingo. Tuy nhiên, vì công chúng không thể truy cập dữ liệu đào tạo của Flamingo, nên các nhà phát triển sử dụng bộ dữ liệu nguồn mở để đào tạo các mô hình. Điểm kiểm tra OpenFlamingo-9B mới được công bố đã được đào tạo cụ thể trên 10 triệu mẫu từ LAION-2B và 5 triệu mẫu từ bộ dữ liệu C4 đa phương thức mới.

Các nhà phát triển cũng đang thêm một điểm kiểm tra từ LMM OpenFlamingo-9B chưa hoàn thiện của chúng tôi, dựa trên LLaMA 7B và CLIP ViT/L-14, như một phần của bản phát hành. Mặc dù khái niệm này vẫn đang được phát triển nhưng cộng đồng có thể đã được hưởng lợi rất nhiều từ nó.

Để bắt đầu, hãy xem GitHub nguồn và bản demo.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Orbiter Finance hợp tác với mạng Zulu lớp 2 của Bitcoin và triển khai trên mạng thử nghiệm Lwazi
Kinh doanh Báo cáo tin tức Công nghệ
Orbiter Finance hợp tác với mạng Zulu lớp 2 của Bitcoin và triển khai trên mạng thử nghiệm Lwazi 
7 Tháng Năm, 2024
Sàn giao dịch tiền điện tử Bybit tích hợp USDe của Ethena Labs làm tài sản thế chấp, cho phép các cặp giao dịch BTC-USDe và ETH-USDe
thị trường Báo cáo tin tức Công nghệ
Sàn giao dịch tiền điện tử Bybit tích hợp USDe của Ethena Labs làm tài sản thế chấp, cho phép các cặp giao dịch BTC-USDe và ETH-USDe
7 Tháng Năm, 2024
Ví Bitget giới thiệu GetDrop Airdrop Nền tảng và ra mắt sự kiện Meme Coin đầu tiên với tổng giải thưởng trị giá 130,000 USD
thị trường Báo cáo tin tức Công nghệ
Ví Bitget giới thiệu GetDrop Airdrop Nền tảng và ra mắt sự kiện Meme Coin đầu tiên với tổng giải thưởng trị giá 130,000 USD
7 Tháng Năm, 2024
Từ phản xạ đơn giản đến tác nhân học tập: Kiểm tra các loại tác nhân AI khác nhau và vai trò của chúng trong các ứng dụng hiện đại
Phong cách sống Phần mềm Câu chuyện và đánh giá Công nghệ
Từ phản xạ đơn giản đến tác nhân học tập: Kiểm tra các loại tác nhân AI khác nhau và vai trò của chúng trong các ứng dụng hiện đại
7 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH