AI4Bharat تطلق "Airavata"، وهو برنامج LLM مخصص لتحسين اللغة الهندية في نماذج الذكاء الاصطناعي
في سطور
أعلنت شركة AI4Bharat الهندية عن إطلاق برنامج "Airavata"، وهو برنامج ماجستير في القانون لتحسين دعم اللغة الهندية في نماذج الذكاء الاصطناعي، والذي تم إنشاؤه بواسطة الضبط الدقيق لـ OpenHathi.
مختبر أبحاث الذكاء الاصطناعي التابع لمعهد التعليم العالي الهندي IIT Madras AI4Bharat صدر Airavata، وهو نموذج مضبوط للتعليمات للغة الهندية. وفقًا للإعلان، تم بناء النموذج من خلال الضبط الدقيق لـ OpenHathi الخاص بـ Sarvam AI، مع مجموعات بيانات هندية متنوعة لجعله أكثر ملاءمة للمهام المساعدة.
الهندية هي اللغة الأكثر استخدامًا في الهند حيث يتحدثها أكثر من 43% من السكان الأصليين.
وقال مختبر الذكاء الاصطناعي في مؤتمر صحفي: "في الوقت الحالي، يدعم Airavata اللغة الهندية، ولكننا نخطط لتوسيع هذا ليشمل جميع اللغات الهندية المقررة البالغ عددها 22 لغة قريبًا". ينكدين المشاركة. ومن المهم أن نلاحظ أن أداء نماذج اللغات الكبيرة (LLMs) تعتمد على مجموعات بيانات ضبط التعليمات عالية الجودة. ومع ذلك، هناك ندرة في مجموعات البيانات المتنوعة المتاحة للغة الهندية.
كما تم إحراز تقدم كبير في تطوير مجموعات البيانات للتدريب المسبق مثل RedPajama؛ ضبط التعليمات مثل Alpaca وUltraChat وDolly وOpenAssistant وLMSYS-Chat؛ ومعايير التقييم مثل AlpacaEval وMT-Bench. ومع ذلك، فإن معظم هذه التطورات تركزت في الغالب على اللغة الإنجليزية.
"هناك بعض الدعم المحدود للغات الهندية، والذي يمكن أن يعزى إلى التضمين العرضي لبعض بيانات اللغة الهندية التي تسللت عبر مرشحات البيانات أثناء التدريب المسبق لنماذج اللغة هذه. ومع ذلك، فإن تمثيل البيانات، وفعالية الرموز المميزة، وأداء المهام للغات الهندية يتخلف بشكل كبير عن اللغة الإنجليزية،" AI4Bharat Labs قالت في بيانها.
"الأداء في اللغات الهندية، حتى في النماذج مغلقة المصدر مثل ChatGPT, GPT-4 وأضافت، وغيرها، أنها أقل جودة مقارنة باللغة الإنجليزية.
AI4Bharat تطلق مجموعات بيانات ضبط التعليمات
أصدر فريق AI4Bharat أيضًا ضبط التعليمات قواعد البيانات يستخدم للنموذج لتمكين إجراء مزيد من البحث عن IndicLLMs.
تعتمد "Airavata" على مجموعات البيانات التي ينظمها الإنسان والتي تكون صديقة لاتفاقيات الترخيص لتطوير نماذج مضبوطة للتعليمات. يتجنب الفريق على وجه التحديد استخدام البيانات الناتجة عن نماذج خاصة مثل GPT-4 لأنه من شأنه أن يزيد التكاليف ويحد من الاستخدام المجاني لهذه النماذج في التطبيقات الأخرى بسبب قيود الترخيص.
وبدلاً من ذلك، يعتقد الفريق أن مجموعات البيانات التي ينظمها الإنسان هي نهج أكثر استدامة لبناء نماذج لمعظم اللغات الهندية.
ومع ذلك، تواجه Airavata، مثل غيرها من حاملي شهادات LLM، تحديات نموذجية. وتشمل هذه احتمالية الهلوسة، مما يؤدي إلى معلومات ملفقة وقد يواجه صعوبة في الدقة في المواضيع المعقدة أو المتخصصة. هناك أيضًا خطر إنتاج محتوى مرفوض أو متحيز.
وأوضح الفريق أن النموذج مخصص لأغراض البحث ولا يوصى به لأي حالات استخدام إنتاجية.
في السابق، أطلق مختبر AI4Bharat منصة مفتوحة المصدر لترجمة الفيديو - Chitralekha - والتي تتضمن نظام إدارة القوى العاملة الذي يسهل عملية الترجمة الإبداعية الكاملة لمقطع فيديو من لغة إلى أخرى، ويغطي النسخ والترجمة والتعليق الصوتي للغة المترجمة.
تم إنشاؤه بالتعاون مع EkStep - وهي مؤسسة غير ربحية والفريق الذي كان له دور فعال في تطوير مشروع Aadhaar في الهند.
بالإضافة إلى ذلك، بدأت AI4Bharat عملية التوظيف لبرنامج المقيمين والمنتسبين للذكاء الاصطناعي للفترة 2024-25. يركز برنامج ما قبل الدكتوراه الذي يستمر لمدة عام على العمل المكثف في معالجة اللغة الطبيعية (البرمجة اللغوية العصبية) ومشاريع الكلام والرؤية.
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
كومار هو صحفي تقني ذو خبرة ومتخصص في التقاطعات الديناميكية للذكاء الاصطناعي/التعلم الآلي، وتكنولوجيا التسويق، والمجالات الناشئة مثل العملات المشفرة، وسلسلة الكتل، NFTس. مع أكثر من 3 سنوات من الخبرة في الصناعة، أنشأ كومار سجلاً حافلًا في صياغة روايات مقنعة، وإجراء مقابلات ثاقبة، وتقديم رؤى شاملة. تكمن خبرة كومار في إنتاج محتوى عالي التأثير، بما في ذلك المقالات والتقارير والمنشورات البحثية لمنصات الصناعة البارزة. بفضل مجموعة المهارات الفريدة التي تجمع بين المعرفة التقنية وسرد القصص، يتفوق كومار في توصيل المفاهيم التكنولوجية المعقدة إلى جماهير متنوعة بطريقة واضحة وجذابة.
المزيد من المقالاتكومار هو صحفي تقني ذو خبرة ومتخصص في التقاطعات الديناميكية للذكاء الاصطناعي/التعلم الآلي، وتكنولوجيا التسويق، والمجالات الناشئة مثل العملات المشفرة، وسلسلة الكتل، NFTس. مع أكثر من 3 سنوات من الخبرة في الصناعة، أنشأ كومار سجلاً حافلًا في صياغة روايات مقنعة، وإجراء مقابلات ثاقبة، وتقديم رؤى شاملة. تكمن خبرة كومار في إنتاج محتوى عالي التأثير، بما في ذلك المقالات والتقارير والمنشورات البحثية لمنصات الصناعة البارزة. بفضل مجموعة المهارات الفريدة التي تجمع بين المعرفة التقنية وسرد القصص، يتفوق كومار في توصيل المفاهيم التكنولوجية المعقدة إلى جماهير متنوعة بطريقة واضحة وجذابة.