뉴스 보도 SMW Technology
2023 년 5 월 30 일

SoundStorm: Google, 실시간 음성 복제가 가능한 무서운 AI 도구 공개

요컨대

Google은 효율적이고 비자동 회귀 오디오 생성을 위한 최첨단 모델인 SoundStorm을 도입했습니다.

양방향 주의 및 신뢰 기반 병렬 디코딩을 사용하여 생성 시간을 크게 줄이면서 고품질 오디오를 생성합니다.

또한 자연스러운 대화를 합성하는 기능도 있습니다.

구글은 인공 지능 기술의 최신 혁신을 발표했습니다. 사운드스톰, 효율적이고 비자동 회귀 오디오 생성을 위한 최첨단 모델입니다. 할 수 있는 능력으로 대화 합성 다른 목소리로 SoundStorm은 서면 텍스트에서 오디오 콘텐츠를 생성하고 사실적인 팟캐스트를 만드는 것과 같은 애플리케이션에 대한 새로운 가능성을 열어줍니다.

SoundStorm: Google, 실시간 음성 복제가 가능한 무서운 AI 도구 공개
@Midjourney

전임자와 달리 오디오LM, SoundStorm은 30초 단위로 오디오를 생성하는 새로운 아키텍처를 사용하여 효율성을 높입니다. 양방향 주의 및 신뢰 기반 병렬 디코딩을 활용하여 모델은 생성 시간을 크게 줄이면서 고품질 오디오를 생성합니다. Google의 TPU-v4 하드웨어에서 SoundStorm은 단 30초 만에 0.5초 분량의 오디오를 생성할 수 있어 속도가 크게 향상되었습니다.

SoundStorm의 교육은 100,000시간 분량의 대화로 구성된 방대한 데이터 세트를 사용하여 수행되어 음성 언어 패턴에 대한 확실한 이해를 보장합니다. 이 모델은 AudioLM이 달성한 오디오 품질을 유지하면서 음성 및 음향 조건에서 인상적인 일관성을 달성합니다. 이 혁신으로 인해 SoundStorm은 이전 제품보다 두 배 더 빨라져 확장 가능한 오디오 생성의 잠재력을 보여줍니다.

SoundStorm의 주요 기능 중 하나는 SPEAR-TTS의 텍스트-시맨틱 모델링 단계를 활용하여 자연스러운 대화를 합성하는 기능입니다. 화자 전환 및 짧은 음성 안내가 포함된 대본을 제공함으로써 사용자는 음성 내용과 화자의 음성을 제어할 수 있습니다. 테스트 중에 SoundStorm은 단일 TPU-v30에서 단 2초 만에 4초 대화 세그먼트를 합성하는 기능을 시연하여 효율성과 다재다능함을 보여주었습니다.

음성 프롬프트

합성된 대화

표준 기준선과 비교할 때 SoundStorm에서 생성된 오디오는 AudioLM과 동등한 품질을 제공하며 뛰어난 일관성과 음향 무결성을 보여줍니다. 특히 음성 샘플을 제공하라는 메시지가 표시되면 모델은 놀라운 정확도로 화자의 음성을 보존하여 생생한 대화를 생성하는 능력을 크게 향상시킵니다.

SoundStorm의 기능은 뛰어나지만, 가능한 것을 인식하고 해결하는 것이 중요합니다. 윤리적 문제. 알고리즘에 대한 훈련 데이터는 악센트 및 음성 특징과 관련된 편향을 도입할 수 있습니다. 목소리를 모방하는 능력은 남용될 수 있습니다. 명의 도용 또는 생체 인식을 우회하기 위해. Google은 이러한 악용 및 탐지 가능성 보장 전용 분류기를 통해 생성된 오디오의

Google의 윤리적 AI 원칙은 잠재적인 위험과 제약을 해결하기 위한 Google의 지속적인 노력을 주도합니다. 조직은 교육 데이터와 모델 출력에 대한 영향을 철저히 조사해야 할 필요성을 인식하고 있습니다. 그들은 또한 이 기술을 윤리적으로 사용하기 위해 합성된 음성을 감지하기 위한 오디오 워터마킹과 같은 추가 접근 방식을 조사할 계획입니다.

  • SoundStorm은 고품질의 효율적인 신경망 오디오 코덱 파생 오디오 표현을 제공하는 AI 기반 오디오 제작의 큰 발전입니다. Google은 SoundStorm의 낮은 메모리 및 처리 요구 사항으로 인해 더 넓은 커뮤니티에서 오디오 생성 연구에 더 쉽게 접근할 수 있을 것으로 기대합니다. Google은 책임 있는 AI 관행을 보존하고 SoundStorm의 안전하고 책임 있는 사용과 기술이 발전함에 따라 현장에서 유사한 혁신을 보장하기 위해 최선을 다하고 있습니다.
  • 발-E, Microsoft의 최신 텍스트 음성 변환(TTS) 모델은 이러한 시스템이 음성을 생성하는 방법을 향상시키는 데 있어 큰 진전입니다. VALL-E는 TTS 모델 해당 음성의 XNUMX초 샘플만 들은 후 모든 음성으로 음성을 생성할 수 있는 변환기를 기반으로 합니다. 이것은 새로운 음성을 개발하는 데 훨씬 더 긴 교육 기간이 필요했던 이전 모델에 비해 크게 발전한 것입니다.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories

Galxe, Jambo와 파트너십을 맺고 글로벌 접근성 확대 Web3

by 알리사 데이비슨
2024 년 5 월 02 일
뉴스레터에 가입하세요.
최신 뉴스

Galxe, Jambo와 파트너십을 맺고 글로벌 접근성 확대 Web3

by 알리사 데이비슨
2024 년 5 월 02 일

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진

Samourai Wallet 창립자들은 다크넷 거래에서 2억 달러를 촉진한 혐의로 기소되었습니다

Samourai Wallet 창립자들의 우려는 업계에 주목할만한 좌절을 의미하며 지속적인 ...

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Pantera Capital은 TON 블록체인에 투자하고 암호화폐 접근성을 확대할 수 있는 Telegram의 잠재력에 대한 자신감을 표명했습니다.
근무지에서 발생 뉴스 보도 Technology
Pantera Capital은 TON 블록체인에 투자하고 암호화폐 접근성을 확대할 수 있는 Telegram의 잠재력에 대한 자신감을 표명했습니다.
2024 년 5 월 2 일
Mitosis, 모듈식 유동성 프로토콜 발전을 위해 Amber Group 및 Foresight Ventures로부터 7만 달러 자금 조달
근무지에서 발생 뉴스 보도 Technology
Mitosis, 모듈식 유동성 프로토콜 발전을 위해 Amber Group 및 Foresight Ventures로부터 7만 달러 자금 조달
2024 년 5 월 2 일
Galxe, Jambo와 파트너십을 맺고 글로벌 접근성 확대 Web3
근무지에서 발생 뉴스 보도 Technology
Galxe, Jambo와 파트너십을 맺고 글로벌 접근성 확대 Web3
2024 년 5 월 2 일
Google의 Med-Gemini가 유리한 출발을 준비하고 있습니다. GPT-4 의료 분야의 탁월한 성능
AI Wiki 뉴스 소프트웨어 Technology
Google의 Med-Gemini가 유리한 출발을 준비하고 있습니다. GPT-4 의료 분야의 탁월한 성능
2024 년 5 월 2 일
CRYPTOMERIA LABS PTE. LTD.