Meta פיתחה AI דיבור בקוד פתוח שמזהה למעלה מ-4,000 שפות מדוברות
בקיצור
פרויקט ה-MMS של החברה יכול לזהות למעלה מ-4,000 שפות.
כמו רוב פרויקטי הבינה המלאכותית האחרים שלה שהוכרזו בפומבי, Meta משתפת את המודלים והקוד שלה כדי לסייע בשמירה על גיוון השפה.
באמצעות עבודה זו, הם מקווים לתרום תרומה קטנה לשימור מגוון השפה המדהים של העולם.
meta יצרה מודל שפת AI שהוא טוויסט מרענן ChatGPT. הקוד הפתוח פרויקט MMS נוצרה כדי לשמר את מגוון השפות ולעודד מחקר ויכולה לזהות יותר מ-4,000 שפות מדוברות ולהפיק טקסט (דיבור) בלמעלה מ-1,100. לחברה יש שוחרר בפומבי המודלים והקוד שלה היום כדי לקדם את מטרותיה.
"אנחנו משתפים בפומבי את היצירות והקוד שלנו כדי לעודד אחרים בקהילת המחקר להתבסס על העבודה שלנו", כתבה מטה. "באמצעות המאמץ הזה, אנו מקווים לשמר את מגוון השפה האדיר של העולם."
הקושי באימון מזהי דיבור ומודלים של טקסט לדיבור על כמויות גדולות של אודיו ללא תוויות תמלול אופייני. תוויות הן קריטיות ל למידת מכונה, שיכול לזהות ולסווג נכון נתונים. עם זאת, עבור שפות שייעלמו בעשורים הקרובים, "הנתונים האלה פשוט לא קיימים", כפי שמסבירה מטה.
Meta השתמשה בהקלטות אודיו של טקסטים דתיים כדי לאסוף נתונים בצורה לא שגרתית. "השתמשנו בתרגומים של טקסטים דתיים כמו התנ"ך, שנחקרו בהרחבה למחקר תרגום שפות מבוסס טקסט בשפות רבות מכיוון שהם מתורגמים לשפות רבות ושונות", אמרה החברה. חילפנו הקלטות אודיו של אנשים שקוראים את הטקסטים האלה בשפות שונות מתרגומים זמינים לציבור." החוקרים של Meta הוסיפו למעלה מ-4,000 שפות ל- מודל.
הגישה נשמעת כמו מתכון למודל בינה מלאכותית מוטה מאוד המעדיף תפיסות עולם נוצריות. עם זאת, לפני שאתה לועג לרעיון, שקול אותו מנקודת המבט של Meta: חוקרים מאמינים שזה המקרה מכיוון שהם משתמשים בסיווג זמני של CTC קונקציוניסטי (או מודל רצף לרצף או סוג רצף) שהוא הרבה יותר מוגבל במונחים של כוח חישוב לעומת מודלים גדולים לשפה (הידוע גם כסוגי רצף) או מודלים עוקבים לזיהוי דיבור. מטה אומר שזה לא גרם להטיה גברית בהקלטות הדתיות שהוקלטו על ידי רוב הדוברים.
Meta השתמשה ב-wav2vec 2.0, מודל "למידת ייצוג דיבור בפיקוח עצמי", כדי לאמן wav2vec 2.0 מודל יישור מה שהופך את הנתונים לשמישים יותר. מודל הדיבור בפיקוח עצמי שמטה פיקחה בעצמה מנתונים לא מתויגים הוביל לתוצאות מצוינות. Meta מצא כי דגמי הדיבור הרב-לשוניים הניבו ביצועים טובים בהשוואה למודלים קיימים וכיסו פי 10 שפות, במיוחד בהשוואה ל Whisper. Meta השיגה מחצית משיעור השגיאות במילה, בעוד שדיבור רב-לשוני מסיבי כיסה פי 11 שפות.
Meta אומרת שהמודלים החדשים של דיבור לטקסט אינם מושלמים. לדוגמה, הם עלולים לתרגם לא נכון מילים או ביטויים, מה שעלול לגרום לדיבור פוגעני ו/או שגוי, כתבה החברה. הפיתוח האחראי של טכנולוגיות AI חייב להתבצע באמצעות שיתוף פעולה בין קהילת AI.
מכיוון ש-Meta פרסמה MMS למחקר בקוד פתוח, היא מקווה שהיא יכולה להפוך את המגמה של היעלמות השימוש בשפה. בחזון זה, טכנולוגיה מסייעת, TTS ואפילו טכנולוגיה מדומה ומציאות רבודה עשויים לאפשר לכולם לדבר וללמוד בשפות האם שלו. הוא קבע, "אנו מדמיינים עולם שבו לטכנולוגיה יש השפעה הפוכה, המניעה אנשים לשמור על שפותיהם בחיים מכיוון שהם יכולים לגשת למידע ולהשתמש בטכנולוגיה על ידי דיבור בשפה המועדפת עליהם".
- לאחרונה, מטה הודיע תוצאות פיננסיות לרבעון הראשון של 2023. למרות מאמצי הארגון מחדש האחרונים, החברה הפתיעה את המשקיעים עם עלייה בלתי צפויה במכירות ברבעון הראשון. המניות זינקו ביום רביעי ב-12%.
קרא עוד מאמרים קשורים:
- 4,000 אנשים עברו פסיכותרפיה של רובוט AI מבלי שידעו זאת
- שיבוש ההפרעה: כיצד כתובות הטלפורט הפלאק של Stage Meta ישתלטו על המטאברס.
- FTC מרסן את שאיפות ה-VR של Meta בתביעה
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
דמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.
מאמרים נוספיםדמיר הוא ראש הצוות, מנהל המוצר והעורך ב Metaverse Post, המכסה נושאים כגון AI/ML, AGI, LLMs, Metaverse ו Web3-בתחומים משיקים. המאמרים שלו מושכים קהל עצום של למעלה ממיליון משתמשים מדי חודש. נראה שהוא מומחה עם ניסיון של 10 שנים בקידום אתרים ושיווק דיגיטלי. דמיר הוזכר ב-Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ופרסומים אחרים. הוא נודד בין איחוד האמירויות, טורקיה, רוסיה וחבר העמים כנווד דיגיטלי. דמיר סיים תואר ראשון בפיזיקה, שלדעתו נתן לו את כישורי החשיבה הביקורתית הדרושים כדי להצליח בנוף המשתנה ללא הרף של האינטרנט.