گزارش خبری پیشرفته
نوامبر 17، 2022

انویدیا eDiff-I را معرفی کرد: هوش مصنوعی مولد جدید برای ترکیب متن و تصویر با انتقال فوری سبک ها

به طور خلاصه

انویدیا eDiff-I را راه اندازی می کند تا به کسب و کارها کمک کند تا تصاویری با کیفیت بالا و جذاب ایجاد کنند

تکنیک eDiff-I به طور منظم کیفیت سنتز بیشتری نسبت به DALL-E2 و Stable diffusion

eDiff-I یک ابزار جدید ایجاد محتوای هوش مصنوعی است که فراهم می کند قابلیت های بی سابقه ترکیب متن به تصویر برای بازاریابان و مشاغل، همانطور که اخیرا توسط کارت گرافیک Nvidia. با eDiff-I، کسب‌وکارها می‌توانند به سرعت و به راحتی تصاویری با کیفیت بالا و جذاب بدون نیاز به تجهیزات گران قیمت یا کمک حرفه‌ای ایجاد کنند. eDiff-I از پردازش زبان طبیعی (NLP) برای تفسیر ورودی کاربر و تولید تصاویر مربوطه استفاده می کند. سپس هوش مصنوعی تصاویر را تجزیه و تحلیل می کند و بر اساس زمینه مناسب ترین آنها را انتخاب می کند. نتیجه یک تصویر با کیفیت بالا و ظاهری حرفه ای است که می تواند برای اهداف مختلفی مانند مطالب بازاریابی، پست های رسانه های اجتماعی، کمپین های ایمیل و موارد دیگر استفاده شود.

eDiff-I یک است نسل بعدی هوش مصنوعی ابزار ایجاد محتوا که بی سابقه ای را ارائه می دهد متن به تصویر سنتز، انتقال سریع سبک و نقاشی بصری با کلمات. به عنوان یک مدل انتشار برای ایجاد تصاویر بصری از متن، eDiff-I در پاسخ به یافته تجربی مبنی بر اینکه رفتار مدل‌های انتشار در مراحل مختلف نمونه‌برداری متفاوت است، آموزش مجموعه‌ای از شبکه‌های نویز زدایی متخصص را پیشنهاد می‌کند، که هر کدام برای یک بازه نویز خاص تخصص دارند.

انویدیا eDiff-I را معرفی کرد: هوش مصنوعی مولد جدید برای ترکیب متن و تصویر با انتقال فوری سبک ها

تعبیه‌های متنی T5، جاسازی‌های تصویر CLIP، و جاسازی‌های متن CLIP پایه‌ای برای مفهوم eDiff-I فراهم می‌کنند. این متدولوژی می‌تواند در پاسخ به هر درخواست متنی، گرافیک‌های فوتورئالیستی تولید کند.

علاوه بر ترکیب متن به تصویر، دو قابلیت اضافی را ارائه می‌کند: (1) انتقال سبک، که به ما امکان می‌دهد سبک نمونه تولید شده را با استفاده از یک تصویر سبک مرجع کنترل کنیم، و (2) "نقاشی با کلمات"، یک ابزار که به کاربران اجازه می دهد تا با نقاشی نقشه های تقسیم بندی روی بوم، تصاویری ایجاد کنند.

خط لوله
خط لوله

خط لوله از یک آبشار از سه مدل انتشار تشکیل شده است: یک مدل پایه که می‌تواند نمونه‌هایی با وضوح 64×64 ایجاد کند و دو پشته با وضوح فوق‌العاده که به‌تدریج می‌توانند تصاویر را به‌ترتیب به وضوح‌های 256×256 و 1024×1024 نمونه‌برداری کنند. مدل ها T5 XXL و جاسازی متن را پس از دریافت یک عنوان به عنوان ورودی محاسبه می کنند. این تعبیه‌های تصویر ممکن است به عنوان بردار سبک استفاده شوند. سپس، این جاسازی ها را به آبشار ما وارد کنید مدل های انتشارکه به تدریج تصاویری با رزولوشن 1024*1024 تولید می کنند.

رویکرد eDiff-I در مقایسه با الگوریتم‌های متن به تصویر منبع باز، به طور مداوم منجر به کیفیت سنتز بهتری می‌شود.Stable diffusion) و (DALL-E2).

نتایج
نتایج

هنگامی که از تعبیه‌های تصویر CLIP استفاده می‌شود، رویکرد eDiff-I انتقال سبک را تسهیل می‌کند. eDiff-I ابتدا استخراج می کند کلیپ جاسازی های تصویر از یک تصویر سبک مرجع، که می تواند به عنوان یک بردار مرجع سبک استفاده شود. یک مرجع سبک در شکل زیر در پانل سمت چپ دیده می شود. نتایج زمانی که تهویه سبک روشن است در پانل مرکزی نمایش داده می شود. نتایج زمانی که تهویه سبک خاموش است در پانل سمت راست نمایش داده می شود. وقتی شرطی‌سازی سبک اعمال می‌شود، مدل eDiff-I خروجی‌هایی ایجاد می‌کند که مطابق با سبک عنوان ورودی نیز هستند. وقتی تهویه سبک خاموش است، عکس‌هایی با ظاهر طبیعی تولید می‌شوند.

انتقال سبک
انتقال سبک

کاربران روش eDiff-I با انتخاب عبارات و نوشتن آنها روی تصویر می توانند محل قرارگیری چیزهایی را که در اعلان متن فهرست شده اند تغییر دهند. پس از آن، مدل از اعلان و نقشه ها برای ایجاد تصاویر که هم با عنوان و هم با نقشه ورودی سازگار هستند.

مقالات مرتبط را بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید

بنیانگذاران کیف پول سامورایی متهم به تسهیل 2 میلیارد دلار در معاملات Darknet شدند

دلهره از بنیانگذاران کیف پول سامورای نشان دهنده یک شکست قابل توجه برای صنعت است که تاکیدی بر ادامه دار بودن ...

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Pantera Capital در بلاک چین TON سرمایه گذاری می کند و به پتانسیل تلگرام برای گسترش دسترسی به رمزنگاری اعتماد دارد
کسب و کار گزارش خبری پیشرفته
Pantera Capital در بلاک چین TON سرمایه گذاری می کند و به پتانسیل تلگرام برای گسترش دسترسی به رمزنگاری اعتماد دارد
ممکن است 2، 2024
میتوز 7 میلیون دلار از Amber Group و Foresight Ventures برای پیشبرد پروتکل نقدینگی مدولار خود جمع آوری می کند.
کسب و کار گزارش خبری پیشرفته
میتوز 7 میلیون دلار از Amber Group و Foresight Ventures برای پیشبرد پروتکل نقدینگی مدولار خود جمع آوری می کند.
ممکن است 2، 2024
Galxe با Jambo همکاری می کند تا دسترسی جهانی را گسترش دهد Web3
کسب و کار گزارش خبری پیشرفته
Galxe با Jambo همکاری می کند تا دسترسی جهانی را گسترش دهد Web3
ممکن است 2، 2024
Google's Med-Gemini آماده است تا شروعی به کار کند GPT-4 با عملکرد برتر آن در مراقبت های بهداشتی
AI Wiki رسانه نرم افزار پیشرفته
Google's Med-Gemini آماده است تا شروعی به کار کند GPT-4 با عملکرد برتر آن در مراقبت های بهداشتی
ممکن است 2، 2024
CRYPTOMERIA LABS PTE. محدود