Báo cáo tin tức Công nghệ
26 Tháng Sáu, 2023

Google giới thiệu AudioPaLM, Mô hình ngôn ngữ AI mạnh mẽ để tạo giọng nói

Tóm lại

AudioPaLM là một mô hình ngôn ngữ mạnh mẽ được phát triển bởi Google kết hợp các mô hình dựa trên văn bản và dựa trên giọng nói để xử lý văn bản và giọng nói liền mạch.

Nó bảo tồn thông tin song ngữ và hoạt động tốt hơn các hệ thống hiện có trong các nhiệm vụ dịch lời nói.

AudioPaLM có thể dịch các ngôn ngữ có dấu và thực hiện chuyển giọng nói để dịch lời nói thành giọng nói.

Google đã tiết lộ một mô hình ngôn ngữ được gọi là Âm thanhPaLM, kết hợp các mô hình ngôn ngữ dựa trên văn bản và dựa trên lời nói để xử lý và tạo lời nói và văn bản một cách liền mạch. Bằng cách hợp nhất các khả năng của PaLM-2âm thanhLM, AudioPaLM cung cấp một kiến ​​trúc đa phương thức thống nhất mở ra nhiều ứng dụng, bao gồm nhận dạng giọng nói và dịch từ giọng nói sang giọng nói.

Google giới thiệu AudioPaLM, Mô hình ngôn ngữ mạnh mẽ để tạo giọng nói
Tín dụng: Metaverse Post (mpost.io)

Một tính năng đáng chú ý của AudioPaLM là khả năng lưu giữ thông tin song ngữ như nhận dạng và ngữ điệu của người nói, nhờ ảnh hưởng của AudioLM. Đồng thời, nó khai thác kiến ​​thức ngôn ngữ có trong các mô hình ngôn ngữ dựa trên văn bản như PaLM-2. Bằng cách khởi tạo AudioPaLM với các trọng số của mô hình ngôn ngữ lớn chỉ có văn bản, mô hình này vượt trội trong xử lý giọng nói, tận dụng dữ liệu đào tạo văn bản mở rộng được sử dụng trong đào tạo trước.

Các khả năng vượt trội của AudioPaLM đã được chứng minh qua nhiều thử nghiệm khác nhau. Nó đã vượt trội so với các hệ thống hiện có trong các tác vụ dịch giọng nói và thể hiện khả năng thực hiện zero-shot dịch lời nói thành văn bản cho các ngôn ngữ không gặp phải trong quá trình đào tạo.

Ngoài ra, AudioPaLM trưng bày các tính năng của mô hình ngôn ngữ âm thanh bằng cách chuyển giọng nói qua các ngôn ngữ dựa trên lời nhắc ngắn.

Google đã thực hiện ví dụ về khả năng của AudioPaLM có sẵn để thăm dò. Khả năng dịch các ngôn ngữ có giọng riêng biệt của mô hình, chẳng hạn như tiếng Ý và tiếng Đức, đã thu hút các nhà nghiên cứu cũng như người dùng. Hơn nữa, khả năng thực hiện chuyển giọng nói thành thạo của nó đối với bản dịch lời nói thành giọng nói khiến nó khác biệt so với các đường cơ sở hiện có, như đã được xác nhận bởi cả số liệu tự động và người đánh giá con người.

Mô hình này rất giỏi trong việc dịch một ngôn ngữ từ âm thanh này sang âm thanh khác, giữ nguyên giọng nói và cảm xúc của một người. Thật thú vị, khi dịch một số ngôn ngữ như tiếng Ý và tiếng Đức, mô hình này có một giọng đáng chú ý và khi dịch các ngôn ngữ khác, chẳng hạn như tiếng Pháp, nó nói với giọng Mỹ hoàn hảo.

Mô hình AudioPaLM với các ví dụ về dịch giọng nói thành giọng nói và nhận dạng giọng nói tự động.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Giao thức cơ sở hạ tầng do ZKP cung cấp ZKBase tiết lộ lộ trình, kế hoạch ra mắt Testnet vào tháng 5
Báo cáo tin tức Công nghệ
Giao thức cơ sở hạ tầng do ZKP cung cấp ZKBase tiết lộ lộ trình, kế hoạch ra mắt Testnet vào tháng 5
9 Tháng Năm, 2024
BLOCKCHANCE và CONF3RENCE hợp nhất cho sự kiện lớn nhất nước Đức Web3 Hội nghị ở Dortmund
Kinh doanh thị trường Phần mềm Câu chuyện và đánh giá Công nghệ
BLOCKCHANCE và CONF3RENCE hợp nhất cho sự kiện lớn nhất nước Đức Web3 Hội nghị ở Dortmund
9 Tháng Năm, 2024
NuLink ra mắt trên Bybit Web3 Nền tảng IDO. Giai đoạn đăng ký kéo dài đến ngày 13 tháng XNUMX
thị trường Báo cáo tin tức Công nghệ
NuLink ra mắt trên Bybit Web3 Nền tảng IDO. Giai đoạn đăng ký kéo dài đến ngày 13 tháng XNUMX
9 Tháng Năm, 2024
UXLINK và Binance hợp tác trong chiến dịch mới, mang đến cho người dùng 20 triệu điểm UXUY và Airdrop Thưởng
thị trường Báo cáo tin tức Công nghệ
UXLINK và Binance hợp tác trong chiến dịch mới, mang đến cho người dùng 20 triệu điểm UXUY và Airdrop Thưởng
9 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH