Haber Raporu SMW Teknoloji
Mayıs 30, 2023

SoundStorm: Google, Gerçek Zamanlı Ses Çoğaltma Yeteneğine Sahip Korkunç Yapay Zeka Aracını Açıkladı

Kısaca

Google, verimli ve otoregresif olmayan ses üretimi için son teknoloji bir model olan SoundStorm'u tanıttı.

Üretim süresini önemli ölçüde azaltırken yüksek kaliteli ses üretmek için çift yönlü dikkat ve güvene dayalı paralel kod çözme kullanır.

Aynı zamanda doğal diyalogları sentezleme yeteneğine de sahiptir.

Google, yapay zeka teknolojisindeki en son atılımını tanıttı. Ses Fırtınası, verimli ve otoregresif olmayan ses üretimi için son teknoloji bir model. yeteneği ile diyalogları sentezlemek SoundStorm, farklı seslerle, yazılı metinden ses içeriği oluşturma ve gerçekçi podcast'ler oluşturma gibi uygulamalar için yeni olanaklar sunuyor.

SoundStorm: Google, Gerçek Zamanlı Ses Çoğaltma Yeteneğine Sahip Korkunç Yapay Zeka Aracını Açıkladı
@Midjourney

Selefinden farklı olarak Ses LMSoundStorm, sesi 30 saniyelik parçalar halinde üreten ve verimliliği artıran yeni bir mimari kullanır. Çift yönlü dikkat ve güvene dayalı paralel kod çözmeyi kullanan model, üretim süresini önemli ölçüde azaltırken yüksek kaliteli ses üretir. SoundStorm, Google'ın TPU-v4 donanımında yalnızca 30 saniyede 0.5 saniyelik ses üretebilir ve bu da önemli bir hız artışına işaret eder.

SoundStorm'un eğitimi, 100,000 saatlik diyalogdan oluşan devasa bir veri seti kullanılarak gerçekleştirildi ve konuşulan dil kalıplarının sağlam bir şekilde anlaşılmasını sağladı. Model, AudioLM tarafından elde edilen ses kalitesini korurken, ses ve akustik koşullarda etkileyici bir tutarlılık elde ediyor. Bu atılım, SoundStorm'u selefinden iki kat daha hızlı hale getirerek ölçeklenebilir ses üretimi potansiyelini gösteriyor.

SoundStorm'un en önemli özelliklerinden biri, SPEAR-TTS'nin metinden anlamsal modelleme aşamasından yararlanarak doğal diyalogları sentezleyebilmesidir. Kullanıcılar, konuşmacı dönüşleri ve kısa sesli komutlar içeren dökümler sağlayarak, konuşulan içeriği ve konuşmacıların seslerini kontrol edebilir. Test sırasında SoundStorm, 30 saniyelik diyalog bölümlerini tek bir TPU-v2'te yalnızca 4 saniyede sentezleme yeteneğini göstererek verimliliğini ve çok yönlülüğünü sergiledi.

Sesli Mesaj

Sentezlenmiş Diyalog

Standart temellerle karşılaştırıldığında, SoundStorm tarafından üretilen ses, AudioLM ile eşdeğer kalitededir ve üstün tutarlılık ve akustik bütünlük gösterir. Özellikle, bir konuşma örneği vermesi istendiğinde, model konuşmacının sesini inanılmaz bir doğrulukla koruyarak gerçekçi diyalog oluşturma kapasitesini büyük ölçüde artırıyor.

SoundStorm'un yetenekleri olağanüstü olsa da olası sorunları fark etmek ve çözmek kritik öneme sahiptir. etik kaygılar. Algoritmaya yönelik eğitim verileri, aksan ve ses özelliklerine ilişkin önyargıları ortaya çıkarabilir. Sesleri taklit etme kapasitesi kötüye kullanılabilir bürünme veya biyometrik tanımlamayı atlatmak için. Google, bu tür kötüye kullanımı önlemek için koruma önlemleri almanın öneminin altını çizer ve tespit edilebilirliğin sağlanması özel sınıflandırıcılar aracılığıyla oluşturulan ses.

Google'ın etik yapay zeka ilkeleri, potansiyel tehlikeleri ve kısıtlamaları ele alma konusundaki sürekli çabalarını yönlendirir. Kuruluş, eğitim verileri ve model çıktıları için çıkarımlar konusunda kapsamlı bir çalışma yapma ihtiyacının farkındadır. Ayrıca, bu teknolojiyi etik bir şekilde kullanmak için sentezlenmiş konuşmayı algılamak için ses filigranı gibi ek yaklaşımları araştırmayı planlıyorlar.

  • SoundStorm, yapay zeka destekli ses üretiminde ileriye doğru atılmış büyük bir adımdır ve yüksek kaliteli ve verimli nöral ses kodekinden türetilmiş ses sunumları sağlar. Google, SoundStorm'un daha düşük bellek ve işleme gereksinimlerinin, ses oluşturma araştırmasını daha geniş bir topluluk için daha erişilebilir hale getirmesini beklemektedir. Google, sorumlu AI uygulamalarını korumaya ve SoundStorm'un ve teknoloji geliştikçe bu alandaki karşılaştırılabilir atılımların güvenli ve sorumlu kullanımını sağlamaya kendini adamıştır.
  • VADİMicrosoft'un en yeni metinden konuşmaya (TTS) modeli, bu sistemlerin ses üretme biçimini geliştirmede ileriye doğru atılmış büyük bir adımdır. VALL-E bir TTS modeli o sesin yalnızca üç saniyelik bir örneğini duyduktan sonra herhangi bir seste konuşma üretebilen dönüştürücülere dayalı. Bu, yeni bir ses geliştirmek için önemli ölçüde daha uzun bir eğitim süresi gerektiren önceki modellere göre büyük bir gelişmedir.

AI hakkında daha fazlasını okuyun:

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Daha fazla haber
Damir Yalalov
Damir Yalalov

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Hüküm Günü Geliyor: ABD Mahkemesi Adalet Bakanlığı'nın Savunmasını Değerlendirirken CZ'nin Kaderi Dengede

Changpeng Zhao bugün Seattle'daki bir ABD mahkemesinde cezayla karşı karşıya kalmaya hazırlanıyor.

bilmek Daha

Samourai Cüzdan Kurucuları, Darknet Anlaşmalarında 2 Milyar Dolarlık Kolaylık Sağlamakla Suçlanıyor

Samourai Cüzdan kurucularının tutuklanması, sektör için kayda değer bir gerilemeyi temsil ediyor ve ısrarcı tutumun altını çiziyor ...

bilmek Daha
Yenilikçi Teknoloji Topluluğumuza Katılın
Devamını Oku
Daha fazla
Pantera Capital, TON Blockchain'e Yatırım Yapıyor ve Telegram'ın Kripto Erişilebilirliğini Genişletme Potansiyeline Güvendiğini İfade Ediyor
İşletme Haber Raporu Teknoloji
Pantera Capital, TON Blockchain'e Yatırım Yapıyor ve Telegram'ın Kripto Erişilebilirliğini Genişletme Potansiyeline Güvendiğini İfade Ediyor
Mayıs 2, 2024
Mitosis, Modüler Likidite Protokolünü Geliştirmek İçin Amber Group ve Foresight Ventures'tan 7 Milyon Dolarlık Finansman Sağladı
İşletme Haber Raporu Teknoloji
Mitosis, Modüler Likidite Protokolünü Geliştirmek İçin Amber Group ve Foresight Ventures'tan 7 Milyon Dolarlık Finansman Sağladı
Mayıs 2, 2024
Galxe, Küresel Erişilebilirliği Genişletmek İçin Jambo ile İşbirliği Yapıyor Web3
İşletme Haber Raporu Teknoloji
Galxe, Küresel Erişilebilirliği Genişletmek İçin Jambo ile İşbirliği Yapıyor Web3
Mayıs 2, 2024
Google'ın Med-Gemini'si Bir Öncülük Yapmaya Hazır GPT-4 Sağlık Alanında Üstün Performansıyla
AI Wiki Haberler Yazılım Teknoloji
Google'ın Med-Gemini'si Bir Öncülük Yapmaya Hazır GPT-4 Sağlık Alanında Üstün Performansıyla
Mayıs 2, 2024
CRYPTOMERIA LABS PTE. LTD.