뉴스 보도 Technology
2024 년 1 월 03 일

AI 스타트업 MyShell, 정확한 음성 복제를 위한 OpenVoice 알고리즘 출시

요컨대

캐나다 AI 스타트업 MyShell은 즉각적인 음성 복제를 위한 OpenVoice 알고리즘을 오픈 소스로 공개했다고 발표했습니다.

AI 스타트업 MyShell, 정확한 음성 복제를 위한 OpenVoice 알고리즘 출시

Respecher, Voicemod 및 일레븐랩스 – 세 스타트업 모두 한 가지 공통점이 있습니다. 모두 음성 복제를 만들기 위한 알고리즘과 AI 소프트웨어를 제공한다는 것입니다. 이제 새로운 플레이어, 캐나다 AI 스타트업 마이쉘 즉각적인 음성 복제를 위한 OpenVoice 알고리즘을 오픈 소스로 공개했다고 발표했습니다.

MyShell이 ​​업데이트를 공유했습니다. 소셜 미디어 플랫폼 X "단지 작은 오디오 클립을 사용하여 감정부터 악센트, 리듬, 일시정지 및 억양까지 톤을 세밀하게 제어하여 비교할 수 없는 정밀도로 목소리를 복제합니다."

이번 협력을 통해 MIT, MyShell.ai 및 Tsinghua University의 연구원들은 화자의 음성을 복제하고 음성을 생성할 수 있는 OpenVoice를 공개했습니다. 여러 언어, 원본 소스의 간단한 오디오 조각만 사용합니다. 또한 화자의 목소리의 독특한 톤과 색상을 포착합니다.

회사에 따르면 이 알고리즘은 감정, 악센트, 리듬, 일시 중지 및 억양과 같은 중요한 스타일 요소를 추가합니다. 이러한 요소는 음성을 실제처럼 만들고 흥미로운 대화를 만드는 데 중요합니다. 이는 일반적인 텍스트 음성 변환에서 자주 발생하는 지루한 소리를 피하는 데 도움이 됩니다.

음성 복제 AI 모델의 작동 방식

안에 연구 논문, OpenVoice는 음성 복제 AI의 방법론을 공유했습니다. OpenVoice는 두 가지 별개의 요소로 구성됩니다. AI 모델: 텍스트 음성 변환(TTS) 모델 및 "톤 변환기".

이 모델은 스타일 매개변수와 언어를 관리할 수 있으며 영어(미국식 및 영국식 액센트 모두), 중국어 및 일본어 사용자로부터 "30,000개의 문장을 사용한 훈련"을 거쳤습니다. 훈련에는 표현된 감정을 기반으로 샘플에 레이블을 지정하는 작업이 포함되었으며 모델은 이러한 오디오 클립에서 억양, 리듬 및 일시 중지를 학습했습니다.

반면, 톤 변환기 모델은 300,000개 이상의 서로 다른 화자로부터 수집된 20,000개 이상의 오디오 샘플로 구성된 방대한 데이터 세트를 기반으로 훈련되었습니다. 두 경우 모두 사람의 음성 오디오는 단어를 구별하는 특정 소리인 음소로 변환되었으며 벡터 임베딩을 사용하여 표현되었습니다.

"기본 스피커"를 사용하는 TTS 모델은 훈련 과정에서 사용자가 녹음한 오디오에서 파생된 톤과 결합됩니다. 이 두 모델을 함께 사용하면 사용자의 음성을 복제하고 음성 텍스트에 전달되는 감정 표현인 톤 색상을 수정할 수 있습니다.

스타트업은 2023년에 설립되었습니다. 지난해 MyShell은 INCE Capital이 주도하는 시드 펀딩에서 5.6만 달러를 모금했으며 Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC 및 OP Crypto 등 유명 투자자들의 참여를 확인했습니다.

회사에 따르면, 이번 자금은 독점 기술 발전에 도움이 될 것입니다. AI 모델, AI 기반 앱에 특화된 크리에이터 스튜디오 구축, 블록체인 기술 영역 내 활발한 크리에이터 생태계 구축 등을 목표로 하고 있습니다.

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Kumar는 AI/ML, 마케팅 기술, 암호화폐, 블록체인 및 신흥 분야의 역동적인 교차점을 전문으로 하는 숙련된 기술 저널리스트입니다. NFT에스. 업계에서 3년 이상의 경험을 보유한 Kumar는 설득력 있는 내러티브 제작, 통찰력 있는 인터뷰 수행, 포괄적인 통찰력 제공 분야에서 입증된 실적을 확립했습니다. Kumar의 전문 분야는 저명한 업계 플랫폼을 위한 기사, 보고서, 연구 간행물 등 영향력이 큰 콘텐츠를 제작하는 것입니다. 기술 지식과 스토리텔링을 결합한 고유한 기술을 갖춘 Kumar는 복잡한 기술 개념을 다양한 청중에게 명확하고 매력적인 방식으로 전달하는 데 탁월합니다.

더 많은 기사
쿠마르 간다르프
쿠마르 간다르프

Kumar는 AI/ML, 마케팅 기술, 암호화폐, 블록체인 및 신흥 분야의 역동적인 교차점을 전문으로 하는 숙련된 기술 저널리스트입니다. NFT에스. 업계에서 3년 이상의 경험을 보유한 Kumar는 설득력 있는 내러티브 제작, 통찰력 있는 인터뷰 수행, 포괄적인 통찰력 제공 분야에서 입증된 실적을 확립했습니다. Kumar의 전문 분야는 저명한 업계 플랫폼을 위한 기사, 보고서, 연구 간행물 등 영향력이 큰 콘텐츠를 제작하는 것입니다. 기술 지식과 스토리텔링을 결합한 고유한 기술을 갖춘 Kumar는 복잡한 기술 개념을 다양한 청중에게 명확하고 매력적인 방식으로 전달하는 데 탁월합니다.

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
NuLink가 Bybit에서 출시되었습니다 Web3 IDO 플랫폼. 구독 기간이 13월 XNUMX일까지 연장됩니다
시장 뉴스 보도 Technology
NuLink가 Bybit에서 출시되었습니다 Web3 IDO 플랫폼. 구독 기간이 13월 XNUMX일까지 연장됩니다
2024 년 5 월 9 일
UXLINK와 Binance는 사용자에게 20천만 UXUY 포인트를 제공하는 새로운 캠페인을 위해 협력합니다. Airdrop 보상
시장 뉴스 보도 Technology
UXLINK와 Binance는 사용자에게 20천만 UXUY 포인트를 제공하는 새로운 캠페인을 위해 협력합니다. Airdrop 보상
2024 년 5 월 9 일
Side Protocol은 인센티브 테스트넷을 출시하고 내부자 포인트 시스템을 도입하여 사용자가 SIDE 포인트를 얻을 수 있도록 합니다.
시장 뉴스 보도 Technology
Side Protocol은 인센티브 테스트넷을 출시하고 내부자 포인트 시스템을 도입하여 사용자가 SIDE 포인트를 얻을 수 있도록 합니다.
2024 년 5 월 9 일
Web3 2024년 XNUMX월 암호화폐 이벤트: 블록체인 및 암호화폐 분야의 새로운 기술과 새로운 트렌드 탐색 DeFi
요람 근무지에서 발생 시장 Technology
Web3 2024년 XNUMX월 암호화폐 이벤트: 블록체인 및 암호화폐 분야의 새로운 기술과 새로운 트렌드 탐색 DeFi
2024 년 5 월 9 일
CRYPTOMERIA LABS PTE. LTD.