דיווח חדשות SMW טכנולוגיה
מאי 30, 2023

SoundStorm: גוגל חושפת כלי AI מפחיד המסוגל לשכפול קול בזמן אמת

בקיצור

גוגל הציגה את SoundStorm, מודל חדשני ליצירת אודיו יעילה ולא נסיגה אוטומטית.

הוא משתמש בתשומת לב דו כיוונית ובפענוח מקביל מבוסס ביטחון כדי ליצור אודיו באיכות גבוהה תוך צמצום משמעותי של זמן היצירה.

יש לו גם את היכולת לסנתז דיאלוגים טבעיים.

גוגל הציגה את פריצת הדרך האחרונה שלה בטכנולוגיית בינה מלאכותית עם SoundStorm, דגם חדשני להפקת אודיו יעילה ולא נסיגה אוטומטית. עם היכולת לסנתז דיאלוגים עם קולות שונים, SoundStorm פותחת אפשרויות חדשות ליישומים כמו הפקת תוכן אודיו מטקסט כתוב ויצירת פודקאסטים מציאותיים.

SoundStorm: גוגל חושפת כלי AI מפחיד המסוגל לשכפול קול בזמן אמת
@Midjourney

בניגוד לקודמו AudioLM, SoundStorm משתמש בארכיטקטורה חדשנית המייצרת אודיו בנתחים של 30 שניות, מה שמשפר את היעילות. על ידי ניצול תשומת לב דו כיוונית ופענוח מקביל מבוסס ביטחון, הדגם מייצר אודיו באיכות גבוהה תוך צמצום משמעותי של זמן היצירה. בחומרת TPU-v4 של גוגל, SoundStorm יכול להפיק 30 שניות של אודיו ב-0.5 שניות בלבד, מה שמסמן שיפור משמעותי במהירות.

ההדרכה של SoundStorm נערכה באמצעות מערך נתונים עצום של 100,000 שעות של דיאלוג, מה שמבטיח הבנה חזקה של דפוסי שפה מדוברת. הדגם משיג עקביות מרשימה בתנאים קוליים ואקוסטיים תוך שמירה על איכות השמע שהושגה על ידי AudioLM. פריצת דרך זו הופכת את SoundStorm למהיר יותר בשני סדרי גודל מקודמו, מה שמוכיח את הפוטנציאל שלו ליצירת אודיו ניתנת להרחבה.

אחת היכולות המרכזיות של SoundStorm היא היכולת שלה לסנתז דיאלוגים טבעיים על ידי מינוף שלב המודלים של הטקסט לסמנטי של SPEAR-TTS. על ידי אספקת תמלילים עם סיבובי רמקולים והנחיות קוליות קצרות, משתמשים יכולים לשלוט בתוכן המדובר ובקולות של הדוברים. במהלך הבדיקה, SoundStorm הדגימה את היכולת לסנתז קטעי דיאלוג של 30 שניות ב-2 שניות בלבד ב-TPU-v4 יחיד, והציגה את היעילות והרבגוניות שלו.

קול

דיאלוג מסונתז

בהשוואה לקווי בסיס סטנדרטיים, האודיו המופק על ידי SoundStorm הוא באיכות שווה ל-AudioLM ומפגין עקביות מעולה ושלמות אקוסטית. יש לציין, כאשר מתבקשים לתת דגימת דיבור, המודל שומר על קולו של הדובר בדיוק מדהים, ומגביר מאוד את יכולתו ליצור דיאלוג אמיתי.

בעוד שהיכולות של SoundStorm יוצאות מן הכלל, חשוב לזהות ולפתור את האפשרויות דאגות אתיות. נתוני האימון עבור האלגוריתם עשויים להציג הטיות הקשורות להדגשות ותכונות קול. ניתן לנצל לרעה את היכולת לחקות קולות התחזות או לעקוף זיהוי ביומטרי. גוגל מדגישה את המשמעות של הצבת הגנות כדי למנוע שימוש לרעה כזה ו הבטחת יכולת הזיהוי של אודיו שנוצר באמצעות מסווגים ייעודיים.

עקרונות הבינה המלאכותית האתית של גוגל מניעים את מאמציה המתמשכים לטפל בסכנות ובאילוצים פוטנציאליים. הארגון מבין את הצורך במחקר מעמיק של נתוני ההדרכה וההשלכות על תפוקות המודל. הם גם מתכננים לחקור גישות נוספות, כגון סימון מים אודיו, לזיהוי דיבור מסונתז כדי לעשות שימוש אתי בטכנולוגיה זו.

  • SoundStorm הוא צעד גדול קדימה בייצור אודיו המופעל על ידי בינה מלאכותית, ומספק ייצוגי אודיו הנגזרים מ-Codec של אודיו עצביים באיכות גבוהה ויעילה. גוגל צופה כי צרכי הזיכרון והעיבוד הנמוכים של SoundStorm יהפכו את מחקר יצירת האודיו לנגיש יותר לקהילה רחבה יותר. גוגל נשארת מחויבת לשמירה על שיטות AI אחראיות ולהבטחת שימוש בטוח ואחראי ב-SoundStorm ופריצות דרך דומות בתחום ככל שהטכנולוגיה מתפתחת.
  • עֶמֶק, מודל הטקסט לדיבור (TTS) האחרון של מיקרוסופט, הוא צעד ענק קדימה בשיפור האופן שבו מערכות אלו מייצרות קול. VALL-E הוא א דגם TTS מבוסס על שנאים שיכולים ליצור דיבור בכל קול לאחר שמיעת דגימה של שלוש שניות בלבד של הקול הזה. זוהי התקדמות גדולה ביחס לדגמים קודמים, שדרשו תקופת הכשרה ארוכה משמעותית כדי לפתח קול חדש.

קרא עוד על AI:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר

מייסדי ארנק סמוראי הואשמו בהנחיית 2 מיליארד דולר בעסקאות Darknet

החשש של מייסדי ארנק סמוראי מייצג כישלון בולט עבור התעשייה, המדגיש את ...

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קרא עוד
Pantera Capital משקיעה ב-TON Blockchain, מביעה אמון בפוטנציאל של טלגרם להרחיב את נגישות הקריפטו
עסקים דיווח חדשות טכנולוגיה
Pantera Capital משקיעה ב-TON Blockchain, מביעה אמון בפוטנציאל של טלגרם להרחיב את נגישות הקריפטו
מאי 2, 2024
מיטוזיס מגייסת מימון של 7 מיליון דולר מקבוצת Amber ומיזמי Foresight כדי לקדם את פרוטוקול הנזילות המודולרי שלה
עסקים דיווח חדשות טכנולוגיה
מיטוזיס מגייסת מימון של 7 מיליון דולר מקבוצת Amber ומיזמי Foresight כדי לקדם את פרוטוקול הנזילות המודולרי שלה
מאי 2, 2024
Galxe משתפת פעולה עם Jambo כדי להרחיב את הנגישות הגלובלית ל Web3
עסקים דיווח חדשות טכנולוגיה
Galxe משתפת פעולה עם Jambo כדי להרחיב את הנגישות הגלובלית ל Web3
מאי 2, 2024
ה-Med-Gemini של גוגל מוכנה לתת ראש בראש GPT-4 עם ביצועים מעולים בתחום הבריאות
AI Wiki חֲדָשׁוֹת תוכנה טכנולוגיה
ה-Med-Gemini של גוגל מוכנה לתת ראש בראש GPT-4 עם ביצועים מעולים בתחום הבריאות
מאי 2, 2024
CRYPTOMERIA LABS PTE. בע"מ.