דיווח חדשות טכנולוגיה
מאי 23, 2023

Meta פיתחה AI דיבור בקוד פתוח שמזהה למעלה מ-4,000 שפות מדוברות

בקיצור

פרויקט ה-MMS של החברה יכול לזהות למעלה מ-4,000 שפות.

כמו רוב פרויקטי הבינה המלאכותית האחרים שלה שהוכרזו בפומבי, Meta משתפת את המודלים והקוד שלה כדי לסייע בשמירה על גיוון השפה.

באמצעות עבודה זו, הם מקווים לתרום תרומה קטנה לשימור מגוון השפה המדהים של העולם.

meta יצרה מודל שפת AI שהוא טוויסט מרענן ChatGPT. הקוד הפתוח פרויקט MMS נוצרה כדי לשמר את מגוון השפות ולעודד מחקר ויכולה לזהות יותר מ-4,000 שפות מדוברות ולהפיק טקסט (דיבור) בלמעלה מ-1,100. לחברה יש שוחרר בפומבי המודלים והקוד שלה היום כדי לקדם את מטרותיה.

"אנחנו משתפים בפומבי את היצירות והקוד שלנו כדי לעודד אחרים בקהילת המחקר להתבסס על העבודה שלנו", כתבה מטה. "באמצעות המאמץ הזה, אנו מקווים לשמר את מגוון השפה האדיר של העולם."

Meta פיתחה AI דיבור בקוד פתוח שמזהה למעלה מ-4,000 שפות מדוברות

הקושי באימון מזהי דיבור ומודלים של טקסט לדיבור על כמויות גדולות של אודיו ללא תוויות תמלול אופייני. תוויות הן קריטיות ל למידת מכונה, שיכול לזהות ולסווג נכון נתונים. עם זאת, עבור שפות שייעלמו בעשורים הקרובים, "הנתונים האלה פשוט לא קיימים", כפי שמסבירה מטה.

Meta השתמשה בהקלטות אודיו של טקסטים דתיים כדי לאסוף נתונים בצורה לא שגרתית. "השתמשנו בתרגומים של טקסטים דתיים כמו התנ"ך, שנחקרו בהרחבה למחקר תרגום שפות מבוסס טקסט בשפות רבות מכיוון שהם מתורגמים לשפות רבות ושונות", אמרה החברה. חילפנו הקלטות אודיו של אנשים שקוראים את הטקסטים האלה בשפות שונות מתרגומים זמינים לציבור." החוקרים של Meta הוסיפו למעלה מ-4,000 שפות ל- מודל.

הגישה נשמעת כמו מתכון למודל בינה מלאכותית מוטה מאוד המעדיף תפיסות עולם נוצריות. עם זאת, לפני שאתה לועג לרעיון, שקול אותו מנקודת המבט של Meta: חוקרים מאמינים שזה המקרה מכיוון שהם משתמשים בסיווג זמני של CTC קונקציוניסטי (או מודל רצף לרצף או סוג רצף) שהוא הרבה יותר מוגבל במונחים של כוח חישוב לעומת מודלים גדולים לשפה (הידוע גם כסוגי רצף) או מודלים עוקבים לזיהוי דיבור. מטה אומר שזה לא גרם להטיה גברית בהקלטות הדתיות שהוקלטו על ידי רוב הדוברים.

Meta השתמשה ב-wav2vec 2.0, מודל "למידת ייצוג דיבור בפיקוח עצמי", כדי לאמן wav2vec 2.0 מודל יישור מה שהופך את הנתונים לשמישים יותר. מודל הדיבור בפיקוח עצמי שמטה פיקחה בעצמה מנתונים לא מתויגים הוביל לתוצאות מצוינות. Meta מצא כי דגמי הדיבור הרב-לשוניים הניבו ביצועים טובים בהשוואה למודלים קיימים וכיסו פי 10 שפות, במיוחד בהשוואה ל Whisper. Meta השיגה מחצית משיעור השגיאות במילה, בעוד שדיבור רב-לשוני מסיבי כיסה פי 11 שפות.

Meta אומרת שהמודלים החדשים של דיבור לטקסט אינם מושלמים. לדוגמה, הם עלולים לתרגם לא נכון מילים או ביטויים, מה שעלול לגרום לדיבור פוגעני ו/או שגוי, כתבה החברה. הפיתוח האחראי של טכנולוגיות AI חייב להתבצע באמצעות שיתוף פעולה בין קהילת AI.

מכיוון ש-Meta פרסמה MMS למחקר בקוד פתוח, היא מקווה שהיא יכולה להפוך את המגמה של היעלמות השימוש בשפה. בחזון זה, טכנולוגיה מסייעת, TTS ואפילו טכנולוגיה מדומה ומציאות רבודה עשויים לאפשר לכולם לדבר וללמוד בשפות האם שלו. הוא קבע, "אנו מדמיינים עולם שבו לטכנולוגיה יש השפעה הפוכה, המניעה אנשים לשמור על שפותיהם בחיים מכיוון שהם יכולים לגשת למידע ולהשתמש בטכנולוגיה על ידי דיבור בשפה המועדפת עליהם".

  • לאחרונה, מטה הודיע תוצאות פיננסיות לרבעון הראשון של 2023. למרות מאמצי הארגון מחדש האחרונים, החברה הפתיעה את המשקיעים עם עלייה בלתי צפויה במכירות ברבעון הראשון. המניות זינקו ביום רביעי ב-12%.

קרא עוד מאמרים קשורים:

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

מאמרים נוספים
דמיר יללוב
דמיר יללוב

דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט. 

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

התיאבון המוסדי גדל לקראת תעודות סל של ביטקוין על רקע תנודתיות

גילויים באמצעות הגשת 13F חושפים משקיעים מוסדיים בולטים שמתעסקים בתעודות סל של ביטקוין, מה שמדגיש הסכמה גוברת של ...

יודע יותר

יום גזר הדין מגיע: גורלה של CZ באיזון כאשר בית המשפט האמריקני שוקל את הטענה של DOJ

צ'אנגפנג ג'או עומד היום בפני גזר דין בבית משפט אמריקאי בסיאטל.

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
Injective מאחדת כוחות עם AltLayer כדי להביא אבטחה מחדש ל-inEVM
עסקים דיווח חדשות טכנולוגיה
Injective מאחדת כוחות עם AltLayer כדי להביא אבטחה מחדש ל-inEVM
מאי 3, 2024
מאסה משתפת פעולה עם Teller כדי להציג את מאגר ההלוואות של MASA, מאפשרת הלוואות ב-USDC על בסיס
שוקי דיווח חדשות טכנולוגיה
מאסה משתפת פעולה עם Teller כדי להציג את מאגר ההלוואות של MASA, מאפשרת הלוואות ב-USDC על בסיס
מאי 3, 2024
Velodrome משיקה את גרסת הבטא של Superchain בשבועות הקרובים ומתרחבת ברחבי OP Stack Layer 2 Blockchains
שוקי דיווח חדשות טכנולוגיה
Velodrome משיקה את גרסת הבטא של Superchain בשבועות הקרובים ומתרחבת ברחבי OP Stack Layer 2 Blockchains
מאי 3, 2024
CARV מכריזה על שותפות עם Aethir לביזור שכבת הנתונים שלה ולחלוקת תגמולים
עסקים דיווח חדשות טכנולוגיה
CARV מכריזה על שותפות עם Aethir לביזור שכבת הנתונים שלה ולחלוקת תגמולים
מאי 3, 2024
CRYPTOMERIA LABS PTE. בע"מ.