Nachrichtenbericht Technologie
03. Januar 2024

Das KI-Startup MyShell veröffentlicht den OpenVoice-Algorithmus für präzises Stimmenklonen

In Kürze

Das kanadische KI-Startup MyShell gab bekannt, dass es seinen OpenVoice-Algorithmus für das sofortige Klonen von Stimmen als Open-Source-Lösung bereitgestellt hat.

Das KI-Startup MyShell veröffentlicht den OpenVoice-Algorithmus für präzises Stimmenklonen

Respeecher, Voicemod und ElfLabs – Alle drei Startups haben eines gemeinsam: Sie alle stellen Algorithmen und KI-Software zur Erstellung von Sprachklonen bereit. Jetzt ein neuer Player, ein kanadisches KI-Startup MyShell gab bekannt, dass es seinen OpenVoice-Algorithmus für das sofortige Klonen von Stimmen als Open-Source-Lösung bereitgestellt hat.

MyShell hat das Update am geteilt Social-Media-Plattform X und sagte: „Klonen Sie Stimmen mit beispielloser Präzision, mit detaillierter Kontrolle des Tons, von Emotion über Akzent, Rhythmus, Pausen und Intonation, mit nur einem kleinen Audioclip.“

Im Rahmen der Zusammenarbeit stellten Forscher des MIT, MyShell.ai und der Tsinghua-Universität OpenVoice vor, das die Stimme eines Sprechers nachbilden und darin Sprache erzeugen kann in mehrere Sprachen, wobei nur ein kurzer Audioausschnitt aus der Originalquelle verwendet wird. Es erfasst auch den einzigartigen Ton und die Farbe der Stimme des Sprechers.

Nach Angaben des Unternehmens fügt der Algorithmus entscheidende Stilelemente wie Emotion, Akzent, Rhythmus, Pausen und Intonation hinzu. Diese Elemente sind entscheidend dafür, dass Sprache realistisch klingt und interessante Gespräche entstehen. Es hilft dabei, den langweiligen Klang zu vermeiden, den man bei normaler Text-to-Speech-Funktion oft bekommt.

So funktioniert das Voice-Cloning-KI-Modell

In einer Forschungsarbeit, OpenVoice teilte die Methodik hinter seiner Stimme-Klon-KI mit. OpenVoice besteht aus zwei verschiedenen KI-Modelle: ein Text-to-Speech (TTS)-Modell und ein „Tonkonverter“.

Das Modell kann Stilparameter und Sprachen verwalten und wurde einem „Training mit 30,000 Sätzen“ von Sprechern des Englischen (mit amerikanischem und britischem Akzent), Chinesisch und Japanisch unterzogen. Das Training umfasste die Kennzeichnung der Samples anhand der ausgedrückten Emotionen, und das Modell lernte Intonation, Rhythmus und Pausen aus diesen Audioclips.

Andererseits wurde das Tonwandlermodell anhand eines riesigen Datensatzes von über 300,000 Audioproben von mehr als 20,000 verschiedenen Sprechern trainiert. In beiden Fällen wurde menschliches Sprachaudio in Phoneme umgewandelt – spezifische Laute, die Wörter unterscheiden – und mithilfe von Vektoreinbettungen dargestellt.

Das TTS-Modell verwendet einen „Basislautsprecher“ und kombiniert ihn mit dem Ton, der aus den aufgezeichneten Audiodaten eines Benutzers im Trainingsprozess abgeleitet wird. Zusammen können diese beiden Modelle die Stimme des Benutzers nachbilden und die Tonfarbe – den emotionalen Ausdruck, der im gesprochenen Text vermittelt wird – verändern.

Das Startup wurde im Jahr 2023 gegründet. Im vergangenen Jahr sammelte MyShell unter der Leitung von INCE Capital eine Startkapitalfinanzierung in Höhe von 5.6 Millionen US-Dollar ein und verzeichnete die Beteiligung prominenter Investoren wie unter anderem Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC und OP Crypto.

Nach Angaben des Unternehmens werden die Mittel zur Weiterentwicklung von Eigenentwicklungen beitragen KI-Modelle, die Schaffung eines auf KI-native Apps zugeschnittenen Creator Studio und die Einrichtung eines lebendigen Creator-Ökosystems im Bereich der Blockchain-Technologie.

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Kumar ist ein erfahrener Technologiejournalist mit Spezialisierung auf die dynamischen Schnittstellen von KI/ML, Marketingtechnologie und aufstrebenden Bereichen wie Krypto, Blockchain und NFTS. Mit über drei Jahren Erfahrung in der Branche hat Kumar eine nachgewiesene Erfolgsbilanz bei der Erstellung überzeugender Erzählungen, der Durchführung aufschlussreicher Interviews und der Bereitstellung umfassender Erkenntnisse. Kumars Fachwissen liegt in der Produktion von wirkungsvollen Inhalten, darunter Artikeln, Berichten und Forschungspublikationen für prominente Branchenplattformen. Mit seinen einzigartigen Fähigkeiten, die technisches Wissen und Geschichtenerzählen kombinieren, zeichnet sich Kumar dadurch aus, dass er komplexe technologische Konzepte einem unterschiedlichen Publikum auf klare und ansprechende Weise vermittelt.

Weitere Artikel
Kumar Gandharv
Kumar Gandharv

Kumar ist ein erfahrener Technologiejournalist mit Spezialisierung auf die dynamischen Schnittstellen von KI/ML, Marketingtechnologie und aufstrebenden Bereichen wie Krypto, Blockchain und NFTS. Mit über drei Jahren Erfahrung in der Branche hat Kumar eine nachgewiesene Erfolgsbilanz bei der Erstellung überzeugender Erzählungen, der Durchführung aufschlussreicher Interviews und der Bereitstellung umfassender Erkenntnisse. Kumars Fachwissen liegt in der Produktion von wirkungsvollen Inhalten, darunter Artikeln, Berichten und Forschungspublikationen für prominente Branchenplattformen. Mit seinen einzigartigen Fähigkeiten, die technisches Wissen und Geschichtenerzählen kombinieren, zeichnet sich Kumar dadurch aus, dass er komplexe technologische Konzepte einem unterschiedlichen Publikum auf klare und ansprechende Weise vermittelt.

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
NuLink startet auf Bybit Web3 IDO-Plattform. Abonnementphase verlängert sich bis zum 13. Mai
Märkte Nachrichtenbericht Technologie
NuLink startet auf Bybit Web3 IDO-Plattform. Abonnementphase verlängert sich bis zum 13. Mai
9. Mai 2024
UXLINK und Binance arbeiten an einer neuen Kampagne zusammen und bieten Benutzern 20 Millionen UXUY-Punkte und Airdrop Belohnung
Märkte Nachrichtenbericht Technologie
UXLINK und Binance arbeiten an einer neuen Kampagne zusammen und bieten Benutzern 20 Millionen UXUY-Punkte und Airdrop Belohnung
9. Mai 2024
Side Protocol startet Anreiz-Testnetz und führt Insider-Punktesystem ein, das es Benutzern ermöglicht, SIDE-Punkte zu sammeln
Märkte Nachrichtenbericht Technologie
Side Protocol startet Anreiz-Testnetz und führt Insider-Punktesystem ein, das es Benutzern ermöglicht, SIDE-Punkte zu sammeln
9. Mai 2024
Web3 und Krypto-Events im Mai 2024: Erkundung neuer Technologien und aufkommender Trends in Blockchain und DeFi
Digest Geschäft Märkte Technologie
Web3 und Krypto-Events im Mai 2024: Erkundung neuer Technologien und aufkommender Trends in Blockchain und DeFi
9. Mai 2024