דיווח חדשות טכנולוגיה
ינואר 25, 2024

AI4Bharat משחרר את 'Airavata', LLM מותאם אישית לשיפור השפה ההינדית במודלים של AI

בקיצור

AI4Bharat של הודו הכריזה על שחרורו של "Airavata", LLM לשיפור התמיכה בשפה ההינדית בדגמי AI, שנבנה על ידי כוונון עדין של OpenHathi.

AI4Bharat משחרר את 'Airavat', LLM מותאם אישית לתמיכה משופרת בשפה ההינדית

מעבדת המחקר בינה מלאכותית של המכון ההודי להשכלה גבוהה IIT Madras AI4Bharat הוציאה את Airavata, דגם המותאם להוראות להינדי. על פי ההודעה, המודל נבנה על ידי כוונון עדין של OpenHathi של Sarvam AI, עם מערכי נתונים הינדיים מגוונים כדי להפוך אותו למתאים יותר למשימות מסייעות.

הינדי היא השפה המדוברת ביותר בהודו עם למעלה מ-43% דוברי אם.

"נכון לעכשיו, Airavata תומכת בהינדית, אבל אנחנו מתכננים להרחיב את זה לכל 22 השפות ההודיות המתוכננות בקרוב", אמרה מעבדת AI ב- פוסט לינקדאין. חשוב לציין שהביצועים של מודלים גדולים לשפה (LLMs) מסתמך על מערכי נתונים של כוונון הוראות באיכות גבוהה. עם זאת, יש מחסור של מערכי נתונים מגוונים הזמינים עבור הינדית.

התקדמות גדולה נעשתה גם בפיתוח מערכי נתונים עבור אימון מקדים כמו RedPajama; כוונון הוראות כמו Alpaca, UltraChat, Dolly, OpenAssistant, LMSYS-Chat; ומדדי הערכה כמו AlpacaEval, MT-Bench. עם זאת, רוב ההתקדמות הללו התרכזו בעיקר בשפה האנגלית.

"ישנה תמיכה מוגבלת בשפות הודיות, אשר ניתן לייחס להכללה אגבית של כמה נתוני שפה הודית שחמקו דרך מסנני הנתונים במהלך ההכשרה המוקדמת של מודלים לשפות אלה. עם זאת, ייצוג הנתונים, היעילות של טוקנייזרים וביצוע משימות עבור שפות הודיות נמצאים בהרבה מאחורי זה של אנגלית", AI4Bharat Labs נאמר בהצהרתו.

"הביצועים בשפות הודיות, אפילו במודלים של קוד סגור כמו ChatGPT, GPT-4 ואחרים, נחותים בהשוואה לאנגלית", הוסיף.

AI4Bharat משחרר מערכי נתונים של כוונון הוראות

צוות AI4Bharat גם פרסם את כוונון ההוראות מערכי נתונים משמש עבור המודל כדי לאפשר מחקר נוסף עבור IndicLLMs.

"Airavata" מסתמכת על מערכי נתונים שנאספו על ידי אדם, הידידותיים להסכמי רישוי לפיתוח מודלים מותאמים להוראות. הצוות נמנע במיוחד משימוש בנתונים שנוצרו ממודלים קנייניים כמו GPT-4 כי זה יגדיל את העלויות ויגביל את השימוש החופשי בדגמים אלה ביישומים אחרים עקב מגבלות רישוי.

במקום זאת, הצוות מאמין כי מערכי נתונים שנאספו על ידי אדם הם גישה בת קיימא יותר לבניית מודלים עבור רוב השפות ההודיות.

עם זאת, Airavata, כמו לימודי LLM אחרים, נתקלת באתגרים אופייניים. אלה כוללים אפשרות להזיה, מה שמוביל למידע מפוברק ועשויים להיאבק עם דיוק בנושאים מורכבים או מיוחדים. קיים גם סיכון של הפקת תוכן מעורר התנגדות או מוטה.

הצוות הבהיר כי המודל מיועד למטרות מחקר ואינו מומלץ לכל מקרה של שימוש בייצור.

בעבר, מעבדת AI4Bharat השיקה פלטפורמת יצירת וידאו בקוד פתוח - Chitralekha - הכוללת מערכת ניהול כוח אדם המאפשרת את תהליך ההמרה המלא של סרטון משפה אחת לאחרת, המכסה תמלול, תרגום ודיבור עבור השפה המתורגמת.

הוא נוצר בשיתוף פעולה עם EkStep - קרן ללא מטרות רווח והצוות שהיה גורם מרכזי בפיתוח פרויקט Aadhaar בהודו.

בנוסף, AI4Bharat יזמה את תהליך הגיוס לתוכנית תושב הבינה המלאכותית והעמית שלה לקדנציה 2024-25. תכנית קדם-דוקטורט שנמשכת שנה זו מדגישה עבודה אינטנסיבית ב עיבוד שפה טבעית (NLP), פרויקטים של דיבור וחזון.

כתב ויתור

בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.

על המחבר

קומאר הוא עיתונאי טכנולוגי מנוסה עם התמחות בצמתים דינמיים של AI/ML, טכנולוגיית שיווק ותחומים מתפתחים כמו קריפטו, בלוקצ'יין ו NFTס. עם ניסיון של למעלה מ-3 שנים בתעשייה, קומאר ביסס רקורד מוכח ביצירת נרטיבים מרתקים, ביצוע ראיונות מעוררי תובנות ומתן תובנות מקיפות. המומחיות של קומאר טמונה בהפקת תוכן בעל השפעה גבוהה, כולל מאמרים, דוחות ופרסומי מחקר עבור פלטפורמות בולטות בתעשייה. עם מערך מיומנויות ייחודי המשלב ידע טכני וסיפור סיפורים, קומאר מצטיין בהעברת מושגים טכנולוגיים מורכבים לקהלים מגוונים בצורה ברורה ומרתקת.

מאמרים נוספים
קומאר גנדהרב
קומאר גנדהרב

קומאר הוא עיתונאי טכנולוגי מנוסה עם התמחות בצמתים דינמיים של AI/ML, טכנולוגיית שיווק ותחומים מתפתחים כמו קריפטו, בלוקצ'יין ו NFTס. עם ניסיון של למעלה מ-3 שנים בתעשייה, קומאר ביסס רקורד מוכח ביצירת נרטיבים מרתקים, ביצוע ראיונות מעוררי תובנות ומתן תובנות מקיפות. המומחיות של קומאר טמונה בהפקת תוכן בעל השפעה גבוהה, כולל מאמרים, דוחות ופרסומי מחקר עבור פלטפורמות בולטות בתעשייה. עם מערך מיומנויות ייחודי המשלב ידע טכני וסיפור סיפורים, קומאר מצטיין בהעברת מושגים טכנולוגיים מורכבים לקהלים מגוונים בצורה ברורה ומרתקת.

Hot Stories
הצטרף לניוזלטר שלנו.
חדשות אחרונות

מ-Ripple ל-DAO הירוק הגדול: כיצד פרויקטים של מטבעות קריפטו תורמים לצדקה

בואו לחקור יוזמות המנצלות את הפוטנציאל של מטבעות דיגיטליים למטרות צדקה.

יודע יותר

AlphaFold 3, Med-Gemini ואחרים: הדרך בינה מלאכותית משנה את שירותי הבריאות ב-2024

בינה מלאכותית מתבטאת בדרכים שונות בתחום הבריאות, מחשיפת מתאמים גנטיים חדשים ועד העצמת מערכות כירורגיות רובוטיות...

יודע יותר
הצטרף לקהילת הטכנולוגיה החדשנית שלנו
למידע נוסף
קראו עוד
אסימון WLD של Worldcoin יתמודד עם לחץ מכירה אגרסיבי עם פתיחת נעילה נוספת בחודשים הקרובים, מזהיר DeFi2 Bybit Trader
שוקי דיווח חדשות טכנולוגיה
אסימון WLD של Worldcoin יתמודד עם לחץ מכירה אגרסיבי עם פתיחת נעילה נוספת בחודשים הקרובים, מזהיר DeFi2 Bybit Trader
מאי 14, 2024
קריפטו Exchange Coinbase Experiences מערכת כשל, כספי המשתמשים מאובטחים חברת Wile חוקרת בעיה
שוקי דיווח חדשות טכנולוגיה
קריפטו Exchange Coinbase Experiences מערכת כשל, כספי המשתמשים מאובטחים חברת Wile חוקרת בעיה
מאי 14, 2024
מ-Ripple ל-DAO הירוק הגדול: כיצד פרויקטים של מטבעות קריפטו תורמים לצדקה
אָנָלִיזָה האנוסים Wiki עסקים חינוך סגנון חיים שוקי תוכנה טכנולוגיה
מ-Ripple ל-DAO הירוק הגדול: כיצד פרויקטים של מטבעות קריפטו תורמים לצדקה
מאי 13, 2024
AlphaFold 3, Med-Gemini ואחרים: הדרך בינה מלאכותית משנה את שירותי הבריאות ב-2024
AI Wiki אָנָלִיזָה תקציר דעה עסקים שוקי דיווח חדשות תוכנה סיפורים וסקירות טכנולוגיה
AlphaFold 3, Med-Gemini ואחרים: הדרך בינה מלאכותית משנה את שירותי הבריאות ב-2024
מאי 13, 2024
CRYPTOMERIA LABS PTE. בע"מ.