ERNIE-ViLG 2.0: مدل جدید تبدیل متن به تصویر بایدو بهتر از Dalle-2 و Stable Diffusion
به طور خلاصه
هم Dalle-2 و هم Stable Diffusion به طور قابل توجهی از ERNIE-ViLG 2.0 بهتر عمل کردند
ERNIE-ViLG 2.0 یک مدل متن به تصویر است که عملکرد بهتری نسبت به Dalle-2 و Stable Diffusion، دو مورد از محبوب ترین مدل های متن به تصویر موجود در حال حاضر. مدل جدید توسط تیمی از محققان بایدو طراحی و آموزش داده شد و نتایج خیره کننده است.
نتایج نشان داد که ERNIE-ViLG 2.0 به طور قابل توجهی بهتر از Dalle-2 و Stable Diffusion. این یک دستاورد قابل توجه است و قدرت چارچوب ERNIE را نشان می دهد. این Metaverse Post تیم ERNIE-ViLG 2.0 را با Stable Diffusion زیر است:
این نتایج برای این فرضیه که ERNIE-ViLG 2.0 موثرتر است، پشتیبانی قوی میکند سیستم متن به تصویر از هر دو Dalle-2 و Stable Diffusion.
معماری Unet از Stable Diffusion به عنوان مبنا در نظر گرفته شده است، اما با تغییرات:
- ترکیبی از متخصصان حذف نویز: 10 شبکه عصبی به جای یک شبکه وجود دارد که هر کدام فقط مسئول مراحل انتشار خاصی هستند.
- دانش متنی: به طور خودکار کلمات موجود در پرس و جو را مجدداً وزن کرد تا کلمات کلیدی وزن بیشتری پیدا کنند.
- دانش بصری: در طول تمرین، اشیاء در نتایج نسل میانی شناسایی شدند و وزن تابع از دست دادن در مناطق دارای اشیا افزایش یافت.
در نتیجه، بزرگترین جهان مدل متن به تصویر با 24 میلیارد پارامتر (10 برابر بزرگتر از SD) برای آموزش مدل تولید شد.
اعلان ها به سادگی از چینی به انگلیسی به صورت خودکار در آن ترجمه می شوند صورت در آغوش گرفته نسخه ی نمایشی عمومی قبل از ارسال به هوش مصنوعی. بسیاری از ویژگی ها از این سرچشمه می گیرند.
- ERNIE چهره های عمومی بین المللی را نمی شناسد. به عنوان مثال، ERNIE آرنولد شوارتزنگر را نمی شناسد. مطمئناً موارد مورد علاقه محلی در چین را دارد.
- در نتیجه، روش استفاده از نام افراد مشهور باعث افزایش چشمگیر کیفیت می شود چهره ها شکست می خورد
- به دلیل ترجمه از زبان چینی می توانید انتظار کمی اعوجاج داشته باشید، بنابراین اگر چینی صحبت نمی کنید ممکن است شگفتی هایی در انتظار شما باشد.
- حتی درباره گرگ روتکوفسکی چیزی نمی داند.
مقالات مرتبط را بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.