گزارش خبری
اکتبر 06، 2022

گوگل با راه اندازی یک مولد جدید متن به ویدئو، AI Imagen Video، بر متا غلبه کرد. 

به طور خلاصه

Imagen Video گوگل تلاش می کند تا به تولید کننده ویدیو کمک کند تا به برنامه های قاتل تبدیل شود

طولی نکشید که گوگل به Make-a-Video از متا پاسخ داد. با استفاده از یک پیام متنی، تصویر ویدئو ممکن است یک ویدیوی خارق العاده تولید کند. نتایج، علیرغم تعدادی از ایرادات، پیشرفت فوق العاده ای بالاتر از وضعیت هنر است.

در مقایسه با مولد Text-to-Video AI فیس بوک ساخت یک ویدیو، نتایج به طور قابل توجهی بهتر است. با این حال، این استراتژی همچنین مستلزم نظارت بیشتر بود. برخلاف Imagen Video، جایی که کارگران خرد برای حاشیه نویسی فیلم ها با توضیحات نوشته شده سخت کار می کردند، Make-a-Scene از ویدیوهای بدون برچسب برای آموزش استفاده می کرد.

ورود به جزئیات معماری بیهوده است. شما باید در مورد آن در مقاله بخوانید اینجا کلیک نمایید. ما فقط می‌توانیم تأیید کنیم که 16 فریم ابتدا از جاسازی متن رمزگذار T5 با وضوح 48×24 با 3 فریم در ثانیه تولید می‌شود، و سپس توسط تعدادی از مدل‌های انتشار به فیلم نهایی 128 فریم ارتقا می‌یابد. در 1280×768 و 24 فریم در ثانیه.

Imagen Video چیست؟

Imagen Video روشی برای ایجاد ویدئوهای متنی شرطی بر اساس یک سری مدل های انتشار ویدئو است. Imagen Video فیلم های با کیفیت بالا از پیام های متنی با ترکیب یک مدل تولید ویدیوی پایه با یک سری از مدل‌های ویدئویی با وضوح فوق‌العاده مکانی و زمانی به هم پیوسته. در حالی که سیستم را به‌عنوان یک سیستم با کیفیت بالا ارتقا می‌دهند، تیم انتخاب‌های طراحی را بررسی کنید.defiمدل تبدیل متن به ویدئو، از جمله تصمیم به پارامترسازی مدل‌های انتشار و انتخاب مدل‌های کاملاً پیچیده زمانی و مکانی با وضوح فوق‌العاده در وضوح‌های خاص. علاوه بر این، نتایج حاصل از کار قبلی روی تولید تصویر مبتنی بر انتشار را تأیید و در زمینه به کار می‌برد تولید ویدیو. سپس مدل‌های ویدئویی برای نمونه‌برداری سریع و با کیفیت بالا، تحت تقطیر تدریجی با راهنمایی بدون طبقه‌بندی قرار می‌گیرند.

تیم تحقیقاتی گوگل ادعا می کند که این سیستم توضیحات متنی و یک فیلم 16 فریمی تولید می کند سه فریم در ثانیه با وضوح 24 در 48 پیکسل. این سیستم فریم‌های اضافی را مقیاس‌بندی کرده و «پیش‌بینی» می‌کند و یک ویدیوی نهایی با ۱۲۸ فریم با سرعت ۲۴ فریم در ثانیه و وضوح ۷۲۰p (۱۲۸۰×۷۶۸) ایجاد می‌کند. 128 میلیون جفت تصویر-متن وجود دارد و 24 میلیون جفت ویدیو-متن برای آموزش Imagen Video استفاده شده است.

نمونه های تصویری Imagen

حتی اگر صرفاً به این دلیل که استفاده از هوش مصنوعی برای ساخت ویدیو سریعتر و کم هزینه تر است، بدون شک چنین فناوری هایی در همه جا به کار خواهند رفت.

علاقه مند به خواندن بیشتر هستید؟ در اینجا چند موضوع اضافی برای بررسی وجود دارد:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

دیوانگی DOGE: تجزیه و تحلیل افزایش ارزش اخیر Dogecoin (DOGE)

صنعت کریپتوکارنسی به سرعت در حال گسترش است و میم کوین ها برای یک رشد قابل توجه آماده می شوند. دوج کوین (DOGE)، ...

بیشتر بدانید

تکامل محتوای تولید شده توسط هوش مصنوعی در Metaverse

ظهور محتوای مولد هوش مصنوعی یکی از جذاب ترین تحولات در محیط مجازی است.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
اسکرول ارتقاء شبکه اصلی برنولی را تکمیل می‌کند، کاهش 10 برابری هزینه‌های تراکنش را پیش‌بینی می‌کند
گزارش خبری پیشرفته
اسکرول ارتقاء شبکه اصلی برنولی را تکمیل می‌کند، کاهش 10 برابری هزینه‌های تراکنش را پیش‌بینی می‌کند
آوریل 29، 2024
OKX Jumpstart Runecoin را فهرست می‌کند، BTC Staking را برای کسب توکن‌های RUNE فعال می‌کند.
بازارها گزارش خبری پیشرفته
OKX Jumpstart Runecoin را فهرست می‌کند، BTC Staking را برای کسب توکن‌های RUNE فعال می‌کند.
آوریل 29، 2024
معاملات برتر این هفته، سرمایه گذاری های عمده در هوش مصنوعی، فناوری اطلاعات، Web3و Crypto (22-26.04)
هضم کسب و کار بازارها پیشرفته
معاملات برتر این هفته، سرمایه گذاری های عمده در هوش مصنوعی، فناوری اطلاعات، Web3و Crypto (22-26.04)
آوریل 26، 2024
نظرات Vitalik Buterin در مورد تمرکز PoW، اشاره کرد که این مرحله موقتی بود تا زمان PoS
گزارش خبری پیشرفته
نظرات Vitalik Buterin در مورد تمرکز PoW، اشاره کرد که این مرحله موقتی بود تا زمان PoS
آوریل 26، 2024
CRYPTOMERIA LABS PTE. محدود