Meta AI, 1,600개 이상의 언어에 대한 자동 음성 인식을 발전시키는 옴니링구얼 ASR 출시
요컨대
Meta AI는 1,600개 이상의 언어에 대한 음성 인식을 제공하는 Omnilingual ASR 시스템을 출시했으며, 350개의 서비스가 부족한 언어에 대한 오픈 소스 모델과 코퍼스를 공개했습니다.
AI와 증강현실을 전문으로 하는 기술 기업 메타의 연구부서, 메타 AI Meta Omnilingual 자동 음성 인식(ASR) 시스템 출시를 발표했습니다.
이 모델 모음은 1,600개 이상의 언어에 대한 자동 음성 인식을 제공하여 전례 없는 규모의 고품질 성능을 달성합니다. 또한, Meta AI는 7억 개의 매개변수를 갖춘 자체 감독 방식의 대규모 다국어 음성 표현 모델인 Omnilingual wav2vec 2.0을 오픈 소스로 공개하여 다양한 다운스트림 음성 작업을 지원하도록 설계되었습니다.
이러한 도구와 함께 이 조직은 또한 전 세계 협력자들과 협력하여 개발한, 서비스가 부족한 350개 언어의 음성을 엄선하여 전사한 모음집인 Omnilingual ASR Corpus를 출시합니다.
자동 음성 인식 기술은 최근 몇 년 동안 발전하여 널리 사용되는 여러 언어에 대해 거의 완벽한 정확도를 달성했습니다. 그러나 기존 AI 아키텍처의 높은 데이터 및 연산 요구량으로 인해 자원이 부족한 언어로의 적용 범위를 확장하는 것은 여전히 어려운 과제였습니다. Omnilingual ASR 시스템은 wav2vec 2.0 음성 인코더를 7억 개의 매개변수로 확장하여 전사되지 않은 원시 음성으로부터 풍부한 다국어 표현을 생성함으로써 이러한 한계를 해결합니다. 두 가지 디코더 변형은 이러한 표현을 문자 토큰으로 매핑합니다. 하나는 연결주의 시간 분류(CTC)를 사용하고, 다른 하나는 대규모 언어 모델과 유사한 변환기 기반 접근 방식을 사용합니다.
LLM에서 영감을 받은 이 ASR 접근 방식은 1,600개 이상의 언어에서 최첨단 성능을 달성했으며, 그 중 78%에서 문자 오류율이 10 미만이었고, 새로운 언어를 추가하는 데 있어 보다 유연한 방법을 도입했습니다.
전문가의 미세 조정이 필요한 기존 시스템과 달리, Omnilingual ASR은 몇 개의 오디오-텍스트 쌍 예시만으로 이전에는 지원되지 않았던 언어를 통합할 수 있으므로, 방대한 데이터, 전문 지식 또는 고성능 컴퓨팅 없이도 전사가 가능합니다. 제로샷(zero-shot) 결과가 아직 완전히 훈련된 시스템에 미치지는 못하지만, 이 방법은 서비스가 부족한 언어를 디지털 생태계로 확장할 수 있는 확장 가능한 방법을 제공합니다.
Meta AI, 옴니링구얼 ASR 제품군 및 코퍼스로 음성 인식 기술 발전
연구 부서는 모든 언어의 음성 기술을 발전시키도록 설계된 포괄적인 모델과 데이터 세트를 발표했습니다. FAIR의 이전 연구를 기반으로 하는 Omnilingual ASR은 저전력 장치를 위한 경량 300M 모델부터 다양한 애플리케이션에서 높은 정확도를 제공하는 7B 모델까지 두 가지 디코더 버전을 포함합니다. 범용 wav2vec 2.0 음성 기반 모델도 여러 크기로 제공되어 ASR 외에도 광범위한 음성 관련 작업을 지원합니다. 모든 모델은 Apache 2.0 라이선스에 따라 제공되며, 데이터 세트는 CC-BY 라이선스를 통해 사용할 수 있습니다. 따라서 연구자, 개발자 및 언어 옹호자들은 PyTorch 생태계에서 FAIR의 오픈소스 fairseq2 프레임워크를 사용하여 음성 솔루션을 조정하고 확장할 수 있습니다.
옴니링구얼 ASR은 공개적으로 이용 가능한 데이터 세트와 커뮤니티에서 수집한 녹음을 결합하여, 역사상 가장 방대하고 언어적으로 다양한 ASR 코퍼스 중 하나를 기반으로 훈련됩니다. 디지털 존재감이 제한적인 언어를 지원하기 위해, 메타 AI 지역 단체들과 협력하여 외딴 지역이나 문서화가 부족한 지역의 원어민을 모집하고 보상함으로써, 현재까지 가장 규모가 크고 자원이 부족한 자발적 ASR 데이터셋인 Omnilingual ASR Corpus를 구축했습니다. 언어 기술 파트너 프로그램을 통한 추가 협업을 통해 전 세계 언어학자, 연구자, 그리고 언어 커뮤니티가 하나로 모였으며, 여기에는 모질라 재단의 Common Voice 및 Lanfrica/NaijaVoices와의 파트너십도 포함됩니다. 이러한 노력을 통해 심층적인 언어적 통찰력과 문화적 맥락을 확보하여, 해당 기술이 지역적 요구를 충족하는 동시에 전 세계 다양한 언어 커뮤니티에 힘을 실어줄 수 있었습니다.
책임 한계
줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.
저자에 관하여
전담 저널리스트인 알리사(Alisa) MPost, 암호화폐, 영지식 증명, 투자 및 광범위한 영역을 전문으로 합니다. Web3. 새로운 트렌드와 기술에 대한 예리한 안목을 바탕으로 그녀는 끊임없이 진화하는 디지털 금융 환경에 대해 독자들에게 정보를 제공하고 참여시키기 위해 포괄적인 취재를 제공합니다.
더 많은 기사
전담 저널리스트인 알리사(Alisa) MPost, 암호화폐, 영지식 증명, 투자 및 광범위한 영역을 전문으로 합니다. Web3. 새로운 트렌드와 기술에 대한 예리한 안목을 바탕으로 그녀는 끊임없이 진화하는 디지털 금융 환경에 대해 독자들에게 정보를 제공하고 참여시키기 위해 포괄적인 취재를 제공합니다.