انویدیا eDiff-I را معرفی کرد: هوش مصنوعی مولد جدید برای ترکیب متن و تصویر با انتقال فوری سبک ها
به طور خلاصه
انویدیا eDiff-I را راه اندازی می کند تا به کسب و کارها کمک کند تا تصاویری با کیفیت بالا و جذاب ایجاد کنند
تکنیک eDiff-I به طور منظم کیفیت سنتز بیشتری نسبت به DALL-E2 و Stable diffusion
eDiff-I یک ابزار جدید ایجاد محتوای هوش مصنوعی است که فراهم می کند قابلیت های بی سابقه ترکیب متن به تصویر برای بازاریابان و مشاغل، همانطور که اخیرا توسط کارت گرافیک Nvidia. با eDiff-I، کسبوکارها میتوانند به سرعت و به راحتی تصاویری با کیفیت بالا و جذاب بدون نیاز به تجهیزات گران قیمت یا کمک حرفهای ایجاد کنند. eDiff-I از پردازش زبان طبیعی (NLP) برای تفسیر ورودی کاربر و تولید تصاویر مربوطه استفاده می کند. سپس هوش مصنوعی تصاویر را تجزیه و تحلیل می کند و بر اساس زمینه مناسب ترین آنها را انتخاب می کند. نتیجه یک تصویر با کیفیت بالا و ظاهری حرفه ای است که می تواند برای اهداف مختلفی مانند مطالب بازاریابی، پست های رسانه های اجتماعی، کمپین های ایمیل و موارد دیگر استفاده شود.
eDiff-I یک است نسل بعدی هوش مصنوعی ابزار ایجاد محتوا که بی سابقه ای را ارائه می دهد متن به تصویر سنتز، انتقال سریع سبک و نقاشی بصری با کلمات. به عنوان یک مدل انتشار برای ایجاد تصاویر بصری از متن، eDiff-I در پاسخ به یافته تجربی مبنی بر اینکه رفتار مدلهای انتشار در مراحل مختلف نمونهبرداری متفاوت است، آموزش مجموعهای از شبکههای نویز زدایی متخصص را پیشنهاد میکند، که هر کدام برای یک بازه نویز خاص تخصص دارند.
تعبیههای متنی T5، جاسازیهای تصویر CLIP، و جاسازیهای متن CLIP پایهای برای مفهوم eDiff-I فراهم میکنند. این متدولوژی میتواند در پاسخ به هر درخواست متنی، گرافیکهای فوتورئالیستی تولید کند.
علاوه بر ترکیب متن به تصویر، دو قابلیت اضافی را ارائه میکند: (1) انتقال سبک، که به ما امکان میدهد سبک نمونه تولید شده را با استفاده از یک تصویر سبک مرجع کنترل کنیم، و (2) "نقاشی با کلمات"، یک ابزار که به کاربران اجازه می دهد تا با نقاشی نقشه های تقسیم بندی روی بوم، تصاویری ایجاد کنند.
خط لوله از یک آبشار از سه مدل انتشار تشکیل شده است: یک مدل پایه که میتواند نمونههایی با وضوح 64×64 ایجاد کند و دو پشته با وضوح فوقالعاده که بهتدریج میتوانند تصاویر را بهترتیب به وضوحهای 256×256 و 1024×1024 نمونهبرداری کنند. مدل ها T5 XXL و جاسازی متن را پس از دریافت یک عنوان به عنوان ورودی محاسبه می کنند. این تعبیههای تصویر ممکن است به عنوان بردار سبک استفاده شوند. سپس، این جاسازی ها را به آبشار ما وارد کنید مدل های انتشارکه به تدریج تصاویری با رزولوشن 1024*1024 تولید می کنند.
رویکرد eDiff-I در مقایسه با الگوریتمهای متن به تصویر منبع باز، به طور مداوم منجر به کیفیت سنتز بهتری میشود.Stable diffusion) و (DALL-E2).
هنگامی که از تعبیههای تصویر CLIP استفاده میشود، رویکرد eDiff-I انتقال سبک را تسهیل میکند. eDiff-I ابتدا استخراج می کند کلیپ جاسازی های تصویر از یک تصویر سبک مرجع، که می تواند به عنوان یک بردار مرجع سبک استفاده شود. یک مرجع سبک در شکل زیر در پانل سمت چپ دیده می شود. نتایج زمانی که تهویه سبک روشن است در پانل مرکزی نمایش داده می شود. نتایج زمانی که تهویه سبک خاموش است در پانل سمت راست نمایش داده می شود. وقتی شرطیسازی سبک اعمال میشود، مدل eDiff-I خروجیهایی ایجاد میکند که مطابق با سبک عنوان ورودی نیز هستند. وقتی تهویه سبک خاموش است، عکسهایی با ظاهر طبیعی تولید میشوند.
کاربران روش eDiff-I با انتخاب عبارات و نوشتن آنها روی تصویر می توانند محل قرارگیری چیزهایی را که در اعلان متن فهرست شده اند تغییر دهند. پس از آن، مدل از اعلان و نقشه ها برای ایجاد تصاویر که هم با عنوان و هم با نقشه ورودی سازگار هستند.
مقالات مرتبط را بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.