Haber Raporu Teknoloji
Ağustos 30, 2023

VALL-E X: En Tehlikeli Dolandırıcı Yapay Zeka Ses Klonlama Aracı Artık Açık Kaynak

Kısaca

Microsoft'un VALL-E X sıfır atışlı TTS modeli, açık kaynak olarak piyasaya sürüldü ve kullanıcıların gelişmiş metinden konuşmaya sentezini ve ses klonlamayı keşfetmesine olanak tanıdı.

Model, İngilizce, Çince ve Japonca akıcı konuşma sentezini, sıfır atışlı ses klonlamayı, konuşma duygu kontrolünü, sıfır atışlı diller arası konuşma sentezini, vurgu kontrolünü ve akustik ortam adaptasyonunu destekler.

VALL-E X, optimum performans için gereken 6 GB GPU VRAM ile hem CPU hem de GPU üzerinde sorunsuz bir şekilde çalışır.

Açık kaynaklı bir uygulama Microsoft'un VALL-E X sıfır atışlı TTS modeli tanıtıldı, kullanıcıların gelişmiş metin-konuşma sentezi ve ses klonlama alanlarına girmelerine olanak tanır. Bu gelişme, bir genişleme olarak geliyor. Microsoft'un ilk araştırma makalesiuygulamalı keşif için gerekli kod veya önceden eğitilmiş modellerden yoksundu. Bu sürümle teknoloji topluluğu, yeni nesil TTS yeteneklerine yönelik güçlü bir araca erişim kazanıyor.

VALL-E X: En Tehlikeli Dolandırıcı Yapay Zeka Ses Klonlama Aracı Artık Açık Kaynak
VALL-E X: Çok Dilli Metinden Konuşmaya Sentez ve Ses Klonlamada Bir Atılım
İlgili bağlantılar: Microsoft'un VALL-E'si şimdiye kadarki en tehlikeli dolandırıcılık yazılımı gibi görünüyor

VALL-E X, Microsoft tarafından sunulan olağanüstü çok dilli bir metinden konuşmaya modelidir. Orijinal araştırma makalesi bilgilendirici olsa da, pratik uygulamadan yoksundu. kodun veya önceden eğitilmiş modellerin yokluğu. Bu açığı kapatmak için özel ekip, sonuçları yeniden üretme ve kendi VALL-E X modelimizi eğitme zorluğunu üstlendi. Çabalarımızın sonucu artık kamuya açık ve daha geniş bir kitlenin en son TTS teknolojisinin dönüştürücü potansiyelini deneyimlemesini sağlıyor.

VALL-E X birçok çığır açıcı işlevselliğe sahiptir:

  • Çok dilli TTS: Model üç dilde akıcı konuşma sentezini destekler: İngilizce, Çince ve Japonca. Kullanıcılar bu dillerde doğal ve etkileyici konuşma sentezini deneyimleyebilir.
  • Sıfır atışlı Ses Klonlama: Tanıdık olmayan bir konuşmacının sesinin 3 ila 10 saniyelik kısa bir örneğini kaydeden VALL-E X, konuşmacının benzersiz ses özelliklerini yansıtan kişiselleştirilmiş, yüksek kaliteli konuşma üretme kapasitesine sahiptir.
  • Konuşma Duygu Kontrolü: VALL-E X, sentezlenmiş konuşmayı belirli duygularla aşılayabilir ve ses çıkışına, sağlanan akustik komutla uyumlu bir ifade katmanı ekleyebilir.
  • Sıfır Atışlı Diller Arası Konuşma Sentezi: Model, akıcılığı ve aksanı koruyarak farklı bir dilde kişiselleştirilmiş konuşma üretebilir ve tek dil konuşanların dilsel ufuklarını genişletebilir.
  • Vurgu Kontrolü: VALL-E X, aksan denemeleri sunarak kullanıcıların, İngilizce aksanıyla Çince konuşmak veya İngilizce aksanıyla Çince konuşmak gibi çeşitli aksanlarla içerik oluşturmasına olanak tanır.
  • Akustik Ortam Uyarlaması: Model, doğal ve sürükleyici bir konuşma oluşturma deneyimi sunmak için girişin akustik ortamına uyum sağlayarak çeşitli ses komutlarını barındırır.

Üstelik VALL-E X, desteğini Çince ve Japonca dillerini de kapsayacak şekilde genişleterek üç dilde de olağanüstü performans sergiliyor.

Bu, VALL-E X'i farklı dil ortamlarındaki kullanıcılar için çok yönlü ve etkili bir dil destek aracı haline getirir.
İlgili bağlantılar: VALL-E: Microsoft'un yeni sıfır atışlı metinden konuşmaya modeli, herkesin sesini üç saniye içinde çoğaltabilir

VALL-E X'in ses klonlama yetenekleri, kişinin, karakterin veya kişinin kendi sesini kullanarak sesli uyarıların oluşturulmasını kolaylaştırır. Farklı bir sesli komut oluşturmak için gereken tek şey, transkriptle birlikte 3 ila 10 saniyelik bir konuşma örneğidir. Kullanıcı dostu bir grafik arayüz, VALL-E X ile etkileşimi daha da basitleştirerek ses klonlamayı ve çok dilli konuşma sentezini erişilebilir bir çaba haline getirir.

VALL-E X'in hem CPU hem de GPU'da (pytorch 2.0+, CUDA 11.7 ve CUDA 12.0) sorunsuz bir şekilde çalışması dikkat çekicidir. Modelin verimli tasarımı, 6 GB GPU VRAM'inin yük boşaltmadan çalışma için yeterli olmasını sağlar.

İle karşılaştırıldığında Kabuk modeliVALL-E X çeşitli avantajlar sunar:

  • Daha hafiftir ve alanın yalnızca 3/4'ünü kaplar.
  • 4 kat hız artışıyla artırılmış verimlilik.
  • Çince ve Japonca dillerinde üstün kalite.
  • Yabancı aksansız diller arası konuşma sentezi.
  • Kolay ses klonlama yetenekleri.

VRAM gereksinimleriyle ilgili olarak, 6 GB GPU VRAM, VALL-E X'i etkili bir şekilde çalıştırma kriterlerini karşılar. Ancak daha uzun metin üretimi için, en iyi performansın sağlanması amacıyla sesli uyarının ve oluşturulan sesin toplam uzunluğu 22 saniyenin altında kalmalıdır.

MIT Lisansı tarafından yönetilen VALL-E X'in açık kaynaklı lisanslaması, çok dilli metinden konuşmaya sentezleme ve ses klonlama alanında yeni bir erişilebilirlik ve keşif çağını ifade ediyor.

AI hakkında daha fazlasını okuyun:

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Daha fazla haber
Damir Yalalov
Damir Yalalov

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Hot Stories
Bültenimize Katılın.
En Yeni Haberler

Volatilite Ortasında Bitcoin ETF'lerine Yönelik Kurumsal İştah Artıyor

13F başvuruları aracılığıyla yapılan açıklamalar, önemli kurumsal yatırımcıların Bitcoin ETF'leriyle uğraştığını ortaya koyuyor ve Bitcoin ETF'lerinin artan bir şekilde kabul edildiğinin altını çiziyor.

bilmek Daha

Hüküm Günü Geliyor: ABD Mahkemesi Adalet Bakanlığı'nın Savunmasını Değerlendirirken CZ'nin Kaderi Dengede

Changpeng Zhao bugün Seattle'daki bir ABD mahkemesinde cezayla karşı karşıya kalmaya hazırlanıyor.

bilmek Daha
Yenilikçi Teknoloji Topluluğumuza Katılın
Devamını Oku
Daha fazla
Injective, inEVM'ye Yeniden Bağlantı Güvenliği Getirmek İçin AltLayer ile Güçlerini Birleştiriyor
İşletme Haber Raporu Teknoloji
Injective, inEVM'ye Yeniden Bağlantı Güvenliği Getirmek İçin AltLayer ile Güçlerini Birleştiriyor
Mayıs 3, 2024
Masa, MASA Borç Verme Havuzunu Tanıtmak İçin Teller ile İşbirliği Yapıyor, Temelde USDC Borçlanmasını Sağlıyor
Piyasalar Haber Raporu Teknoloji
Masa, MASA Borç Verme Havuzunu Tanıtmak İçin Teller ile İşbirliği Yapıyor, Temelde USDC Borçlanmasını Sağlıyor
Mayıs 3, 2024
Velodrome Önümüzdeki Haftalarda Superchain Beta Sürümünü Piyasaya Sürüyor ve OP Yığın Katmanı 2 Blok Zincirlerine Genişliyor
Piyasalar Haber Raporu Teknoloji
Velodrome Önümüzdeki Haftalarda Superchain Beta Sürümünü Piyasaya Sürüyor ve OP Yığın Katmanı 2 Blok Zincirlerine Genişliyor
Mayıs 3, 2024
CARV, Veri Katmanını Merkezi Olmayan Hale Getirmek ve Ödülleri Dağıtmak İçin Aethir ile Ortaklığını Duyurdu
İşletme Haber Raporu Teknoloji
CARV, Veri Katmanını Merkezi Olmayan Hale Getirmek ve Ödülleri Dağıtmak İçin Aethir ile Ortaklığını Duyurdu
Mayıs 3, 2024
CRYPTOMERIA LABS PTE. LTD.