Báo cáo tin tức Công nghệ
19 Tháng Sáu, 2023

SnapFusion: Mô hình chuyển văn bản thành hình ảnh nhanh cho thiết bị di động trong vòng 1.9 giây

Tóm lại

SnapFusion thay đổi việc tạo nội dung bằng cách chạy mô hình khuếch tán văn bản thành hình ảnh trực tiếp trên thiết bị di động, giảm chi phí và giải quyết các vấn đề về quyền riêng tư.

SnapFusion là một mô hình AI chuyển văn bản thành hình ảnh cho phép người dùng tạo ra những hình ảnh tuyệt đẹp từ các mô tả bằng ngôn ngữ tự nhiên, tất cả chỉ trong vòng hai giây trên thiết bị di động của họ. Đã qua rồi cái thời dựa vào GPU cao cấp hoặc dịch vụ dựa trên đám mây để chạy các mô hình phức tạp này. SnapFusion dân chủ hóa việc tạo nội dung bằng cách đặt sức mạnh của việc truyền văn bản thành hình ảnh vào tay người dùng.

SnapFusion: Mô hình chuyển văn bản thành hình ảnh nhanh chóng và hiệu quả cho thiết bị di động trong vòng 1.9 giây
Tín dụng: Midjourney / lili10292#2100

Tạo hình ảnh thực tế từ các mô tả văn bản luôn là một nhiệm vụ đầy thách thức. Các mẫu trước đây yêu cầu kiến ​​trúc mạng lớn và nhiều lần lặp khử nhiễu, làm cho chúng tính toán tốn kém và chậm. Hơn nữa, chạy các mô hình này thường liên quan đến việc gửi dữ liệu người dùng đến các dịch vụ của bên thứ ba, nâng cao mối quan tâm riêng tư.

Để giải quyết những thách thức này, những người tạo ra SnapFusion đã phát triển một kiến ​​trúc mạng hiệu quả và cải tiến quy trình chắt lọc từng bước. Bằng cách xác định các điểm dư thừa trong mô hình ban đầu, họ đã giới thiệu một UNet hiệu quả và giảm tính toán của bộ giải mã hình ảnh thông qua chắt lọc dữ liệu. Ngoài ra, họ đã nâng cao quá trình chưng cất từng bước bằng cách khám phá các chiến lược đào tạo và giới thiệu các kỹ thuật chính quy hóa.

arxiv.org/pdf/2306.00980.pdf

Các thí nghiệm mở rộng trên Bộ dữ liệu MS-COCO đã chứng minh tính ưu việt của SnapFusion. Chỉ với tám bước khử nhiễu, SnapFusion đã đạt được điểm FID và CLIP tốt hơn so với trước đó nhà nước-of-the-nghệ thuật mô hình, Stable Diffusion v1.5, yêu cầu 50 bước. Sự cải thiện đáng chú ý về hiệu quả và hiệu suất này mở ra những khả năng mới cho việc sáng tạo nội dung.

Tác động của SnapFusion vượt xa những thành tựu kỹ thuật của nó. Bằng cách chạy mô hình khuếch tán văn bản thành hình ảnh trực tiếp trên thiết bị di động, nó loại bỏ nhu cầu về GPU đắt tiền và các dịch vụ dựa trên đám mây. Điều này không chỉ giảm chi phí mà còn giải quyết các mối lo ngại về quyền riêng tư liên quan đến việc gửi dữ liệu người dùng cho bên thứ ba. Giờ đây, người dùng có thể thỏa sức sáng tạo và tạo ra những hình ảnh chất lượng cao khi đang di chuyển.

Kích thước tham số của mô hình có thể được giảm thêm để làm cho nó tương thích với các thiết bị biên khác nhau. Ngoài ra, tối ưu hóa mô hình cho các thiết bị di động khác nhau để đạt được suy luận nhanh tốc độ là một chủ đề nghiên cứu đang diễn ra.

Điều cần thiết là phải sử dụng SnapFusion và các công nghệ tương tự một cách có trách nhiệm để ngăn chặn các ứng dụng độc hại. Có thể thực hiện các biện pháp, chẳng hạn như hệ thống phát hiện tự động xác định và gắn cờ nội dung hình ảnh vi phạm quy định. Bằng cách đạt được sự cân bằng giữa đổi mới và cân nhắc về đạo đức, SnapFusion có thể thay đổi việc tạo nội dung trong khi vẫn đảm bảo trải nghiệm người dùng an toàn và có trách nhiệm.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories

Inside Wall Street Memes (WSM): Tiết lộ các tiêu đề

by Viktoria Palchik
07 Tháng Năm, 2024
Tham gia bản tin của chúng tôi.
Tin mới nhất

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
LD Capital, Antalpha Ventures và Highblock Limited hợp lực ra mắt Quỹ thanh khoản ETF Hồng Kông trị giá 128 triệu USD
Kinh doanh thị trường Báo cáo tin tức
LD Capital, Antalpha Ventures và Highblock Limited hợp lực ra mắt Quỹ thanh khoản ETF Hồng Kông trị giá 128 triệu USD
8 Tháng Năm, 2024
Inside Wall Street Memes (WSM): Tiết lộ các tiêu đề
Kinh doanh thị trường Câu chuyện và đánh giá Công nghệ
Inside Wall Street Memes (WSM): Tiết lộ các tiêu đề
7 Tháng Năm, 2024
Khám phá cá voi tiền điện tử: Ai là ai trên thị trường
Kinh doanh thị trường Câu chuyện và đánh giá Công nghệ
Khám phá cá voi tiền điện tử: Ai là ai trên thị trường
7 Tháng Năm, 2024
Orbiter Finance hợp tác với mạng Zulu lớp 2 của Bitcoin và triển khai trên mạng thử nghiệm Lwazi
Kinh doanh Báo cáo tin tức Công nghệ
Orbiter Finance hợp tác với mạng Zulu lớp 2 của Bitcoin và triển khai trên mạng thử nghiệm Lwazi 
7 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH