VALL-E: Microsoft의 새로운 제로 샷 텍스트 음성 변환 모델은 XNUMX초 안에 모든 사람의 음성을 복제할 수 있습니다.
요컨대
모든 음성의 단 XNUMX초 샘플로 트랜스포머 기반 TTS 모델 VALL-E는 모든 목소리로 음성을 생성할 수 있습니다..
이는 보다 자연스러운 소리의 TTS 시스템을 향한 상당한 발전입니다.
그러나 Microsoft는 사용 중인 모델의 몇 가지 샘플을 제공했으며 이것이 TTS 기술의 중요한 발전을 나타내는 것이 분명합니다.
첫 번째 텍스트 음성 변환(TTS) 모델이 출시된 이후 연구원들은 이러한 시스템이 음성을 생성하는 방식을 개선할 방법을 찾고 있습니다. Microsoft의 최신 모델, 발-E, 이와 관련하여 중요한 단계입니다.
VALL-E는 해당 음성의 XNUMX초 샘플만 들은 후 모든 음성으로 음성을 생성할 수 있는 변압기 기반 TTS 모델입니다. 이는 새로운 음성을 생성하기 위해 훨씬 더 긴 교육 기간이 필요했던 이전 모델에 비해 크게 개선된 것입니다.
또한 음성의 억양, 카리스마 및 스타일은 모두 생성된 음성에서 그대로 유지됩니다. 이는 TTS 시스템 사운드를 보다 자연스럽게 만드는 중요한 단계입니다.
이 모델은 변압기 기반이며 Dale-1 모양을 가지고 있습니다. 확산 기반 Dalle-2와 혼동하지 마십시오. 코드가 아직 부족합니다. 그리고 사용자들은 그들이 그것을 게시할 것이라는 약간의 회의론을 가지고 있습니다.
그러나 Microsoft는 작동 중인 모델의 몇 가지 예를 발표했으며 이것이 TTS 기술의 주요 발전임이 분명합니다.
예 #1 :
예 #2:
예 #3 :
AI에 대해 자세히 알아보기:
책임 부인
줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.
저자에 관하여
Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.
더 많은 기사Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.