گزارش خبری
اکتبر 06، 2022

گوگل با راه اندازی یک مولد جدید متن به ویدئو، AI Imagen Video، بر متا غلبه کرد. 

به طور خلاصه

Imagen Video گوگل تلاش می کند تا به تولید کننده ویدیو کمک کند تا به برنامه های قاتل تبدیل شود

طولی نکشید که گوگل به Make-a-Video از متا پاسخ داد. با استفاده از یک پیام متنی، تصویر ویدئو ممکن است یک ویدیوی خارق العاده تولید کند. نتایج، علیرغم تعدادی از ایرادات، پیشرفت فوق العاده ای بالاتر از وضعیت هنر است.

در مقایسه با مولد Text-to-Video AI فیس بوک ساخت یک ویدیو، نتایج به طور قابل توجهی بهتر است. با این حال، این استراتژی همچنین مستلزم نظارت بیشتر بود. برخلاف Imagen Video، جایی که کارگران خرد برای حاشیه نویسی فیلم ها با توضیحات نوشته شده سخت کار می کردند، Make-a-Scene از ویدیوهای بدون برچسب برای آموزش استفاده می کرد.

ورود به جزئیات معماری بیهوده است. شما باید در مورد آن در مقاله بخوانید اینجا کلیک نمایید. ما فقط می‌توانیم تأیید کنیم که 16 فریم ابتدا از جاسازی متن رمزگذار T5 با وضوح 48×24 با 3 فریم در ثانیه تولید می‌شود، و سپس توسط تعدادی از مدل‌های انتشار به فیلم نهایی 128 فریم ارتقا می‌یابد. در 1280×768 و 24 فریم در ثانیه.

Imagen Video چیست؟

Imagen Video روشی برای ایجاد ویدئوهای متنی شرطی بر اساس یک سری مدل های انتشار ویدئو است. Imagen Video فیلم های با کیفیت بالا از پیام های متنی با ترکیب یک مدل تولید ویدیوی پایه با یک سری از مدل‌های ویدئویی با وضوح فوق‌العاده مکانی و زمانی به هم پیوسته. در حالی که سیستم را به‌عنوان یک سیستم با کیفیت بالا ارتقا می‌دهند، تیم انتخاب‌های طراحی را بررسی کنید.defiمدل تبدیل متن به ویدئو، از جمله تصمیم به پارامترسازی مدل‌های انتشار و انتخاب مدل‌های کاملاً پیچیده زمانی و مکانی با وضوح فوق‌العاده در وضوح‌های خاص. علاوه بر این، نتایج حاصل از کار قبلی روی تولید تصویر مبتنی بر انتشار را تأیید و در زمینه به کار می‌برد تولید ویدیو. سپس مدل‌های ویدئویی برای نمونه‌برداری سریع و با کیفیت بالا، تحت تقطیر تدریجی با راهنمایی بدون طبقه‌بندی قرار می‌گیرند.

تیم تحقیقاتی گوگل ادعا می کند که این سیستم توضیحات متنی و یک فیلم 16 فریمی تولید می کند سه فریم در ثانیه با وضوح 24 در 48 پیکسل. این سیستم فریم‌های اضافی را مقیاس‌بندی کرده و «پیش‌بینی» می‌کند و یک ویدیوی نهایی با ۱۲۸ فریم با سرعت ۲۴ فریم در ثانیه و وضوح ۷۲۰p (۱۲۸۰×۷۶۸) ایجاد می‌کند. 128 میلیون جفت تصویر-متن وجود دارد و 24 میلیون جفت ویدیو-متن برای آموزش Imagen Video استفاده شده است.

نمونه های تصویری Imagen

حتی اگر صرفاً به این دلیل که استفاده از هوش مصنوعی برای ساخت ویدیو سریعتر و کم هزینه تر است، بدون شک چنین فناوری هایی در همه جا به کار خواهند رفت.

علاقه مند به خواندن بیشتر هستید؟ در اینجا چند موضوع اضافی برای بررسی وجود دارد:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

از Ripple تا The Big Green DAO: چگونه پروژه های ارزهای دیجیتال به خیریه کمک می کنند

بیایید طرح‌هایی را بررسی کنیم که از پتانسیل ارزهای دیجیتال برای اهداف خیریه استفاده می‌کنند.

بیشتر بدانید

AlphaFold 3، Med-Gemini، و دیگران: روشی که هوش مصنوعی مراقبت های بهداشتی را در سال 2024 متحول می کند

هوش مصنوعی به روش های مختلفی در مراقبت های بهداشتی ظاهر می شود، از کشف همبستگی های ژنتیکی جدید تا توانمندسازی سیستم های جراحی رباتیک...

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
هشدار کمیسیون اوراق بهادار هنگ کنگ در مورد کلاهبرداری های Deepfake که صنعت کریپتو را هدف قرار می دهد: پیامدهایی برای ایمنی سرمایه گذاران
شیوه زندگی دوربین های مداربسته Wiki نرم افزار داستان ها و نقدها پیشرفته
هشدار کمیسیون اوراق بهادار هنگ کنگ در مورد کلاهبرداری های Deepfake که صنعت کریپتو را هدف قرار می دهد: پیامدهایی برای ایمنی سرمایه گذاران
ممکن است 14، 2024
همکاری Ripple و Evmos در توسعه زنجیره جانبی XRP Ledger EVM با فناوری EvmOS
کسب و کار گزارش خبری پیشرفته
همکاری Ripple و Evmos در توسعه زنجیره جانبی XRP Ledger EVM با فناوری EvmOS
ممکن است 14، 2024
5ireChain "Testnet Thunder: GA" را برای تست استرس شبکه راه اندازی می کند و از کاربران دعوت می کند تا در آن شرکت کنند. Airdrop پاداش
گزارش خبری پیشرفته
5ireChain "Testnet Thunder: GA" را برای تست استرس شبکه راه اندازی می کند و از کاربران دعوت می کند تا در آن شرکت کنند. Airdrop پاداش
ممکن است 14، 2024
برای تسهیل تجارت و نقل و انتقالات یکپارچه دارایی، تقویت پذیرش بیت کوین، شرکا را پشته می کند
کسب و کار گزارش خبری پیشرفته
برای تسهیل تجارت و نقل و انتقالات یکپارچه دارایی، تقویت پذیرش بیت کوین، شرکا را پشته می کند
ممکن است 14، 2024
CRYPTOMERIA LABS PTE. محدود