SoundStorm: Google, Gerçek Zamanlı Ses Çoğaltma Yeteneğine Sahip Korkunç Yapay Zeka Aracını Açıkladı
Kısaca
Google, verimli ve otoregresif olmayan ses üretimi için son teknoloji bir model olan SoundStorm'u tanıttı.
Üretim süresini önemli ölçüde azaltırken yüksek kaliteli ses üretmek için çift yönlü dikkat ve güvene dayalı paralel kod çözme kullanır.
Aynı zamanda doğal diyalogları sentezleme yeteneğine de sahiptir.
Google, yapay zeka teknolojisindeki en son atılımını tanıttı. Ses Fırtınası, verimli ve otoregresif olmayan ses üretimi için son teknoloji bir model. yeteneği ile diyalogları sentezlemek SoundStorm, farklı seslerle, yazılı metinden ses içeriği oluşturma ve gerçekçi podcast'ler oluşturma gibi uygulamalar için yeni olanaklar sunuyor.
Selefinden farklı olarak Ses LMSoundStorm, sesi 30 saniyelik parçalar halinde üreten ve verimliliği artıran yeni bir mimari kullanır. Çift yönlü dikkat ve güvene dayalı paralel kod çözmeyi kullanan model, üretim süresini önemli ölçüde azaltırken yüksek kaliteli ses üretir. SoundStorm, Google'ın TPU-v4 donanımında yalnızca 30 saniyede 0.5 saniyelik ses üretebilir ve bu da önemli bir hız artışına işaret eder.
SoundStorm'un eğitimi, 100,000 saatlik diyalogdan oluşan devasa bir veri seti kullanılarak gerçekleştirildi ve konuşulan dil kalıplarının sağlam bir şekilde anlaşılmasını sağladı. Model, AudioLM tarafından elde edilen ses kalitesini korurken, ses ve akustik koşullarda etkileyici bir tutarlılık elde ediyor. Bu atılım, SoundStorm'u selefinden iki kat daha hızlı hale getirerek ölçeklenebilir ses üretimi potansiyelini gösteriyor.
SoundStorm'un en önemli özelliklerinden biri, SPEAR-TTS'nin metinden anlamsal modelleme aşamasından yararlanarak doğal diyalogları sentezleyebilmesidir. Kullanıcılar, konuşmacı dönüşleri ve kısa sesli komutlar içeren dökümler sağlayarak, konuşulan içeriği ve konuşmacıların seslerini kontrol edebilir. Test sırasında SoundStorm, 30 saniyelik diyalog bölümlerini tek bir TPU-v2'te yalnızca 4 saniyede sentezleme yeteneğini göstererek verimliliğini ve çok yönlülüğünü sergiledi.
Sesli Mesaj
Sentezlenmiş Diyalog
Standart temellerle karşılaştırıldığında, SoundStorm tarafından üretilen ses, AudioLM ile eşdeğer kalitededir ve üstün tutarlılık ve akustik bütünlük gösterir. Özellikle, bir konuşma örneği vermesi istendiğinde, model konuşmacının sesini inanılmaz bir doğrulukla koruyarak gerçekçi diyalog oluşturma kapasitesini büyük ölçüde artırıyor.
SoundStorm'un yetenekleri olağanüstü olsa da olası sorunları fark etmek ve çözmek kritik öneme sahiptir. etik kaygılar. Algoritmaya yönelik eğitim verileri, aksan ve ses özelliklerine ilişkin önyargıları ortaya çıkarabilir. Sesleri taklit etme kapasitesi kötüye kullanılabilir bürünme veya biyometrik tanımlamayı atlatmak için. Google, bu tür kötüye kullanımı önlemek için koruma önlemleri almanın öneminin altını çizer ve tespit edilebilirliğin sağlanması özel sınıflandırıcılar aracılığıyla oluşturulan ses.
Google'ın etik yapay zeka ilkeleri, potansiyel tehlikeleri ve kısıtlamaları ele alma konusundaki sürekli çabalarını yönlendirir. Kuruluş, eğitim verileri ve model çıktıları için çıkarımlar konusunda kapsamlı bir çalışma yapma ihtiyacının farkındadır. Ayrıca, bu teknolojiyi etik bir şekilde kullanmak için sentezlenmiş konuşmayı algılamak için ses filigranı gibi ek yaklaşımları araştırmayı planlıyorlar.
- SoundStorm, yapay zeka destekli ses üretiminde ileriye doğru atılmış büyük bir adımdır ve yüksek kaliteli ve verimli nöral ses kodekinden türetilmiş ses sunumları sağlar. Google, SoundStorm'un daha düşük bellek ve işleme gereksinimlerinin, ses oluşturma araştırmasını daha geniş bir topluluk için daha erişilebilir hale getirmesini beklemektedir. Google, sorumlu AI uygulamalarını korumaya ve SoundStorm'un ve teknoloji geliştikçe bu alandaki karşılaştırılabilir atılımların güvenli ve sorumlu kullanımını sağlamaya kendini adamıştır.
- VADİMicrosoft'un en yeni metinden konuşmaya (TTS) modeli, bu sistemlerin ses üretme biçimini geliştirmede ileriye doğru atılmış büyük bir adımdır. VALL-E bir TTS modeli o sesin yalnızca üç saniyelik bir örneğini duyduktan sonra herhangi bir seste konuşma üretebilen dönüştürücülere dayalı. Bu, yeni bir ses geliştirmek için önemli ölçüde daha uzun bir eğitim süresi gerektiren önceki modellere göre büyük bir gelişmedir.
AI hakkında daha fazlasını okuyun:
Feragatname
Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.
Yazar hakkında
Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.
Daha fazla haberDamir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.