Báo cáo tin tức
Ngày 30 tháng 2022 năm XNUMX

Chuyển văn bản thành 3D: Google đã phát triển một mạng nơ-ron tạo mô hình 3D từ các mô tả văn bản

Tóm lại

Chuyển văn bản thành 3D mạng lưới thần kinh có thể tạo mô hình 3D từ văn bản

DreamFusion tối ưu hóa các cảnh 3D dựa trên chuyển văn bản thành hình ảnh của Imagen

Mô hình khuếch tán 2D có thể được sử dụng để tổng hợp văn bản thành hình ảnh

Google đã tạo một mạng lưới thần kinh có khả năng tạo mô hình 3D từ mô tả văn bản. Phần tốt nhất là khía cạnh khó khăn nhất thậm chí không cần phải dạy. Imagen đã được sử dụng làm nền tảng cho Text-to-3D.

Chuyển văn bản thành 3D: Google đã phát triển một mạng nơ-ron tạo mô hình 3D từ các mô tả văn bản

Những gì bạn nên biết về Giấc mơ hợp nhất?

Các mô hình khuếch tán được đào tạo trên hàng tỷ cặp hình ảnh-văn bản đã dẫn đến những tiến bộ gần đây trong quá trình tổng hợp văn bản thành hình ảnh. Việc điều chỉnh cách tiếp cận này để tổng hợp 3D sẽ đòi hỏi các bộ dữ liệu quy mô lớn của các nội dung 3D được gắn nhãn cũng như các kiến ​​trúc dữ liệu 3D khử nhiễu hiệu quả, hiện không có sẵn. Trong bài báo này, chúng tôi khắc phục những hạn chế này bằng cách thực hiện tổng hợp văn bản thành 3D với 2D được đào tạo trước. khuếch tán văn bản thành hình ảnh người mẫu. Chúng tôi trình bày sự mất mát dựa trên việc chưng cất mật độ xác suất cho phép sử dụng mô hình khuếch tán 2D làm ưu tiên để tối ưu hóa tham số máy phát điện hình ảnh. Bằng cách sử dụng sự mất mát này, chúng tôi sử dụng phương pháp giảm độ dốc để tối ưu hóa mô hình 3D được khởi tạo ngẫu nhiên (Trường bức xạ thần kinh hoặc NeRF) để các kết xuất 2D của nó từ các góc ngẫu nhiên có mức suy giảm tối thiểu.

Có thể xem mô hình 3D được tạo của văn bản đã chỉ định từ mọi góc độ, được chiếu sáng bằng ánh sáng thay đổi và được kết hợp vào bất kỳ môi trường 3D nào. Phương pháp của nó không yêu cầu dữ liệu đào tạo 3D và không thay đổi đối với mô hình khuếch tán hình ảnh, minh họa hiệu quả của việc sử dụng các mô hình khuếch tán hình ảnh được huấn luyện trước như trước đây.

DreamFusion tạo các mô hình 3D đáng tin cậy với hình thức, độ sâu và các tiêu chuẩn có độ trung thực cao dựa trên chú thích. Các đối tượng được biểu diễn dưới dạng Trường bức xạ thần kinh, với khuếch tán văn bản thành hình ảnh trước như Imagen đang được sử dụng.

Ví dụ về 3D được tạo từ văn bản

Lời nhắc: hình ảnh một con sóc mặc bộ áo giáp thời trung cổ đang chơi saxophone
Gợi ý: hình ảnh một con sóc mặc chiếc váy dạ hội sang trọng đang ngồi trên bánh xe gốm tạo hình một chiếc bát bằng đất sét
Gợi ý: tác phẩm điêu khắc bằng kim loại có độ chi tiết cao về một con sóc mặc áo hoodie màu tím đang lái mô tô
Lời nhắc: tác phẩm điêu khắc bằng gỗ phức tạp về một con sóc mặc bộ áo giáp thời trung cổ cầm thanh katana

Đặt các đối tượng lại với nhau để tạo cảnh

Học như thế nào?

DreamFusion tối ưu hóa cảnh 3D dựa trên chú thích bằng cách sử dụng mô hình tổng quát chuyển văn bản thành hình ảnh của Imagen. Nó đề xuất Lấy mẫu chưng cất điểm (SDS), bao gồm việc tối ưu hóa hàm mất mát để tạo ra các mẫu từ mô hình khuếch tán. Miễn là chúng tôi có thể ánh xạ lại các hình ảnh theo cách khác, SDS cho phép chúng tôi tối ưu hóa các mẫu trong bất kỳ không gian tham số nào, chẳng hạn như không gian 3D. ĐẾN defiĐối với ánh xạ khả vi này, nó sử dụng tham số hóa cảnh 3D gần giống với Trường bức xạ thần kinh hoặc NeRF. Một mình SDS tạo ra hình thức cảnh có thể chấp nhận được, nhưng DreamFusion tăng cường hình học với các kỹ thuật tối ưu hóa và điều chỉnh bổ sung. Các NeRF được đào tạo được sản xuất là mạch lạc, có các quy tắc chuẩn, hình học bề mặt và độ sâu tuyệt vời và có thể được thay thế bằng cách sử dụng mô hình đổ bóng Lambertian.

Đọc các bài liên quan:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
Kinh doanh Báo cáo tin tức Công nghệ
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
3 Tháng Năm, 2024
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
thị trường Báo cáo tin tức Công nghệ
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
3 Tháng Năm, 2024
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
thị trường Báo cáo tin tức Công nghệ
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
3 Tháng Năm, 2024
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
Kinh doanh Báo cáo tin tức Công nghệ
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
3 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH