Meta ra mắt 'Emu' để cải thiện khả năng tạo hình ảnh AI
Tóm lại
Meta AI đã phát triển một phương pháp cải thiện các mô hình tạo hình ảnh bằng cách sử dụng kim ăn ảnh trong đống cỏ khô.
Quá trình này bao gồm việc đào tạo trước một mô hình khuếch tán trên một tập dữ liệu khổng lồ, sử dụng bộ mã hóa văn bản để đạt được độ phân giải 1024×1024 pixel.
Tập dữ liệu trải qua quá trình lọc rộng rãi, với chuyên môn của con người sẽ loại bỏ các hình ảnh phụ.

Meta AI gần đây đã chia sẻ bài nghiên cứu nêu chi tiết một cách tiếp cận mới được phát triển để nâng cao việc tạo nhãn dán và hình ảnh trong các dịch vụ của mình. Bài báo có tựa đề “Emu: Nâng cao các mô hình tạo hình ảnh bằng cách sử dụng kim ăn ảnh trong Haystack,” nhằm mục đích chứng minh cách một phương pháp đào tạo “điều chỉnh chất lượng” có thể nâng cao đáng kể chất lượng tạo hình ảnh - ngay cả trên một tập dữ liệu nhỏ.
Của Meta Chi tiết mô hình và phương pháp đào tạo trước
Giai đoạn đầu tiên liên quan đến việc đào tạo trước mô hình phổ biến bằng cách sử dụng bộ dữ liệu khổng lồ bao gồm 1.1 tỷ cặp văn bản-hình ảnh từ tài nguyên nội bộ của Meta AI. Giai đoạn này dựa trên mô hình U-Net với 2.8 tỷ tham số. Bộ mã hóa văn bản, cụ thể là CLIP ViT-L và T5-XXL, được sử dụng cùng với mô hình. Mục tiêu cuối cùng của mô hình là tạo ra hình ảnh có độ phân giải 1024×1024 pixel.
Tập dữ liệu của mô hình trải qua quá trình lọc nghiêm ngặt, loại bỏ hơn 200,000 mẫu khỏi nhóm hơn một tỷ mẫu. Nhiều bộ lọc, bao gồm bộ phân loại đánh giá tính thẩm mỹ của hình ảnh, cơ chế loại bỏ nội dung không mong muốn, nhận dạng ký tự quang học (OCR) để loại trừ hình ảnh nặng văn bản cũng như độ phân giải và lọc dựa trên tỷ lệ, được áp dụng. Các số liệu phổ biến, chẳng hạn như lượt thích, cũng ảnh hưởng đến quá trình lọc.
| Sản phẩm liên quan: Meta tiết lộ khả năng tích hợp AI trên các dịch vụ, từ Mô hình Emu sáng tạo đến Kính thông minh |
Trong giai đoạn này, chuyên môn của con người chiếm vị trí trung tâm. Các nhà tổng quát, những cá nhân có khả năng nắm bắt toàn diện về chú thích dữ liệu, đánh giá 200,000 hình ảnh còn lại và tập hợp một tập hợp con gồm 20,000. Mục tiêu chính ở đây là xác định và loại bỏ đáng kể các hình ảnh kém chất lượng trong trường hợp các phương pháp phỏng đoán được sử dụng ở bước trước tỏ ra không đầy đủ.

| Sản phẩm liên quan: Meta giới thiệu 28 nhân vật AI và AI Studio để mở rộng khả năng sáng tạo |
Khả năng tạo hình ảnh của Emu
Đội ngũ chuyên gia nhiếp ảnh, am hiểu sâu về nguyên lý nhiếp ảnh, đảm nhận nhiệm vụ lọc và chọn lọc hình ảnh. Mục tiêu của họ là nhận diện và lưu giữ hình ảnh với chất lượng thẩm mỹ cao nhất. Họ xem xét tỉ mỉ các yếu tố như bố cục, ánh sáng, cách phối màu, độ tương phản, mức độ liên quan theo chủ đề và hình nền.
Công đoạn cuối cùng bao gồm việc tạo ra các chú thích văn bản chất lượng cao một cách tỉ mỉ cho tập dữ liệu được tuyển chọn gồm 2,000 cặp văn bản-hình ảnh này.
Cuối cùng, mô hình huấn luyện trên tập dữ liệu đã tinh chỉnh này, hoàn thành 15,000 bước với kích thước lô là 64. Kích thước lô này tương đối nhỏ so với kích thước lô lớn. mô hình sinh sản. Mặc dù mô hình có thể bị huấn luyện quá mức do mất khả năng xác thực, nhưng các đánh giá của con người lại chỉ ra điều ngược lại. Một hiện tượng tương tự đã được quan sát thấy trong các mô hình ngôn ngữ.
Thông qua quy trình nhiều giai đoạn được phối hợp này, Meta AI đạt được chất lượng cao thế hệ hình ảnh. Phương pháp này không chỉ nhằm mục đích nâng cao lợi ích thiết thực của các dịch vụ của họ mà còn nhấn mạnh tầm quan trọng của việc quản lý cẩn thận và chuyên môn của con người trong việc tinh chỉnh nội dung do AI tạo ra. Để biết thêm chi tiết, bạn có thể khám phá toàn bộ bài viết.


Đọc thêm các chủ đề liên quan:
Trách nhiệm công ty
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viết
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.



