AI Wiki Изкуство / КАРТИНИ образование Софтуер Технологии
Април 24, 2024

Възходът на Сора: Как AI е Redefiсъздаване на пейзажа на видео съдържание

Накратко

Sora е прогресивен AI модел за преобразуване на текст във видео, който обещава напълно да промени играта на създаване на видео.

Adobe наскоро разкри планове за интегриране на генеративни AI инструменти в своите Premiere Pro софтуер. Този ход, който включва предоставяне на достъп на потребителите до инструменти като OpenAISora директно в Premiere Pro е насочена към обогатяване на софтуера с възможности, базирани на AI, като манипулиране на сцени и премахване на разсейването.

Въпреки че OpenAISora на Sora в момента не е достъпна за обществеността, Adobe демонстрира интегрирането си в Premiere Pro като експериментална функция, без да предоставя конкретна времева линия за нейното пускане.

Sora е прогресивен AI модел за текст към видео, който привлече вниманието поради обещанието си да промени изцяло играта за създаване на видео. Обещаващ инструмент с изключителен ефект за всеки, който има нещо общо с видеопродукция, дизайн на движение и анимация, тази технология носи и решаващи предизвикателства.

Нека проучим всички аспекти на невероятната и дългоочаквана Сора.

Текст към видео?

По същество Sora е проектиран да прави реалистични и визуално завладяващи видеоклипове, генерирани от текстови подкани. Като иновативно приложение на AI, Sora има за цел да рационализира процеса на видео продукция и да предложи нови възможности за наративни процеси и визуална комуникация.

Функционалността на Sora се корени в способността му да интерпретира и изпълнява текстови команди за създаване на завладяващо видео съдържание. Използвайки усъвършенствани техники за задълбочено обучение и разбиране на езика, Sora обработва въведен текст и изгражда съответните визуални сцени с герои, настройки и движение. Този процес включва усъвършенствано взаимодействие между обработката на естествения език и видео синтеза, произвеждайки изход, който е в съответствие с предоставените текстови подкани.

При разработването на Sora, OpenAIЕкипът на подчертава значението на създаването на AI модел, който капсулира дълбоко разбиране на езика и стабилно разбиране на принципите на визуалното разказване на истории. Чрез интегриране на най-съвременните постижения в разбирането на естествения език и видео синтеза, дизайнът на Sora дава приоритет на сплотеното сливане на езиково изразяване и визуално представяне.

Как изобщо е възможно?

И така, Sora функционира като дифузионен модел, подобен на други генеративни AI, които работят с текст към изображение. Това означава, че Sora започва всеки кадър със статичен шум, след което трансформира изображенията в изображения, които ще приличат на дадената подкана и описание на това, което се очаква. Това е възможно благодарение на машинното обучение. Видеоклиповете Sora могат да обхващат до 60 секунди.

Обръщайки внимание на времевата последователност, Sora въвежда иновации, като разглежда множество видеокадри едновременно, осигурявайки кохерентност, докато обектите се движат в сцената.

Включвайки както дифузионни, така и трансформаторни модели, Sora следва хибриден подход, подобен на GPTтрансформаторна архитектура. Jack Qiao подчертава допълващите се силни страни на тези модели, като дифузията превъзхожда генерирането на текстура, но липсва глобална композиция, докато трансформаторите превъзхождат при определяне на оформлението на високо ниво. Комбинацията използва способността на трансформатора да организира петна, докато дифузионният модел попълва детайли.

В реализацията на Sora, изображенията са подразделени на триизмерни петна, за да се приспособят към временната устойчивост. Това отразява процеса на токенизация в езиковите модели, където пачовете представляват елементи от набор от изображения. Освен това се прилага стъпка за намаляване на размерността, за да се рационализира изчислителната ефективност.

За да подобри прецизността на видеото, Sora използва техника за повторно записване, подобна на DALL E 3, Където GPT пренаписва потребителските подкани с допълнителни подробности преди генериране на видео. Това служи като форма на автоматично бързо усъвършенстване, гарантиращо вярно придържане към въвеждането на потребителя.

Колко добра е Сора сега?

OpenAI признава няколко ограничения в текущата итерация на Sora. Трябва да се отбележи, че на Sora липсва присъщо разбиране на физиката, което означава, че може да не се придържа последователно към физическите принципи на реалния свят.

Като пример, моделът не успява да схване причинно-следствените връзки, което води до потенциални несъответствия. По същия начин пространственото позициониране на обектите може да показва неестествени промени.

Що се отнася до надеждността, състоянието на Sora остава несигурно. Макар че OpenAI е представил примери, които демонстрират високо качество, не е ясно до каква степен е настъпило селективно показване. В приложенията за текст към изображение генерирането на множество изображения и изборът на най-доброто е обичайна практика. Точният брой изображения, произведени от OpenAI екип за демонстриране на видеоклиповете в тяхната анонсираща статия не се разкрива. Тази липса на прозрачност може потенциално да попречи на приемането, особено ако се изисква генериране на стотици или хиляди видеоклипове, за да се получи само един използваем резултат. За да облекчим тази несигурност, трябва да изчакаме по-широка достъпност на инструмента.

Къде ще бъде полезна Sora?

Възможностите на Sora се простират до създаване на видео от нулата, удължаване на съществуващи кадри и безпроблемно запълване на липсващи кадри във видеоклипове.

Подобно на начина, по който AI инструментите за генериране на текст към изображение направиха революция в създаването на изображения без технически умения за редактиране, Sora има за цел да опрости видео продукцията, без да се нуждае от опит в редактирането на изображения. Ето някои основни сценарии за приложение:

  • Sora дава възможност за създаване на кратки видеоклипове, пригодени за социални медийни платформи като TikTok, Instagram Reels и YouTube Shorts. Той е особено отличен в създаването на съдържание, което може да е трудно или непрактично за заснемане с помощта на традиционни методи.
  • Традиционно скъпите начинания, като създаване на реклами, промоционални видеоклипове и демонстрации на продукти, могат значително да бъдат опростени с AI инструменти за преобразуване на текст към видео като Sora, които предлагат рентабилни решения.
  • Дори ако видеоклиповете, генерирани от AI, не са интегрирани в крайните продукти, те служат като ценни инструменти за бързо илюстриране на концепции. Създателите на филми могат да използват AI за макети на сцени преди заснемането, докато дизайнерите могат да визуализират продуктите преди производството. Например, компания за играчки може да наеме Sora, за да създаде AI макет на нова играчка на пиратски кораб, за да оцени неговата осъществимост преди масовото производство.
  • Синтетичните данни се оказват безценни в ситуации, когато съображения за поверителност или осъществимост възпрепятстват използването на реални данни. Въпреки че обикновено се прилагат към цифрови данни като финансови записи и лична информация, синтетичните данни с подобни свойства могат да бъдат генерирани за по-широка достъпност. В областта на видеото синтетичните данни са полезни за обучение на системи за компютърно зрение.

Предизвикателства, свързани със Сора

  • Като нововъведен продукт, рисковете на Sora все още не са напълно изяснени; обаче се очаква те да бъдат подобни на тези, които се срещат при моделите текст към изображение.
  • Без достатъчно предпазни мерки Sora има потенциала да създаде неприемливо или неподходящо съдържание, като видеоклипове, съдържащи насилие, графични изображения, сексуално явен материал, унизително представяне на определени групи и популяризиране или възхвала на незаконни дейности. Това, което представлява неподходящо съдържание, може да се различава значително в зависимост от потребителя (като дете срещу възрастен) и обстоятелствата, при които се генерират видеоклиповете (като образователен видеоклип за опасностите от фойерверки, който неволно показва графични сцени).
  • Примерните видеоклипове, споделени от OpenAI демонстрират, че една от забележителните способности на Sora е нейното умение да създава въображаеми сценарии, които надхвърлят реалността. Независимо от това, тази способност също го прави уязвим за генериране на „дълбока фалшива” видеоклипове, където истински лица или ситуации са променени, за да предадат неистини, независимо дали неволно (дезинформация) или умишлено (дезинформация). Такова съдържание може да доведе до значителни последици.
  • Резултатите, получени от генеративни AI модели, са присъщо свързани с данните, върху които са били обучени. Следователно културни пристрастия или стереотипи, вградени в данните за обучението, могат да се появят в генерираните видеоклипове, което вероятно увековечава подобни проблеми.

Какво прави OpenAI Какво прави екипът, за да предотврати рисковете, споменати по-горе?

Понастоящем Sora е достъпна изключително за „червен отбор” изследователи — експерти, натоварени с идентифицирането и смекчаването на потенциални проблеми с модела. Тези изследователи се стремят да генерират съдържание, което може да показва посочените рискове, позволявайки OpenAI за да разгледаме и коригираме всички опасения преди публичното пускане на Sora.

Може ли Сора да ме остави без работа?

Капацитетът на Sora да произвежда видео съдържание от най-високо ниво, базирано на текстови сигнали, има потенциала да предизвика забележителни трансформации в рамките на творческия пейзаж на заетостта. Конвенционалните позиции във видеографията, специалните ефекти и анимацията рискуват да остареят в лицето на такъв напредък. Въпреки че някои творци могат да се завъртят чрез усъвършенстване на експертен опит в надзора на функциите на ИИ, етичното използване на ИИ и насочване на творческата посока за използване на възможностите на ИИ, осъществимостта на този преход за всички остава несигурна.

От друга страна, чрез намаляване на техническите и финансови пречки, свързани с видео продукцията, Sora има потенциала да даде възможност на по-широк кръг от хора да създават висококачествено съдържание. Тази демократизация може да насърчи подем в разпространението на разнообразно и изобретателно съдържание. Въпреки че може да се наложи утвърдени медийни субекти и създатели на съдържание да коригират и въведат иновативни подходи, тази еволюция може да предвещава положителни резултати.

Така или иначе, след масовото пускане, Sora несъмнено ще предизвика промени във видео и свързаните с него индустрии, както и в създаването на лично съдържание.

Дългосрочни последици от OpenAI Сора

Тъй като Sora се утвърждава в професионалните работни процеси, нейното трайно въздействие се разгръща:

Отключване на случаи на употреба с висока стойност: Интеграцията на Sora в различни индустрии обещава трансформиращи приложения, включително:

  • Ускорено производство на съдържание: Sora рационализира създаването на медии в секторите на VR, AR, игрите и традиционните развлечения, като ускорява производствените цикли и улеснява идеята.
  • Персонализирани изживявания: Появява се персонализирано съдържание, курирано от Sora, за да отговаря на индивидуалните предпочитания, прекроявайки развлекателните и образователни парадигми, за да отговарят на различни стилове на учене и вкусове.
  • Адаптиране в реално време: Динамичното редактиране на видео, активирано от Sora, позволява модификации на съдържанието в движение, съобразени с предпочитанията на аудиторията и обратна връзка в реално време.
  • Размиване на дигиталните граници: Синергията на Sora с VR и AR размива границите между физическите и цифровите сфери, представяйки нови завладяващи изживявания и интерактивни възможности за разказване на истории.

По същество появата на Sora предвещава трансформираща ера в създаването на съдържание, управлявано от AI, прекроявайки индустрии, разкази и потребителски изживявания по дълбок начин.

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Жаухазин е копирайтър и специалност социология. Очарована от сложната динамика на науката и технологиите, тя навлиза дълбоко в царството на Web3 с пламенна страст към блокчейн.

Още статии
Жаухазин Шаден
Жаухазин Шаден

Жаухазин е копирайтър и специалност социология. Очарована от сложната динамика на науката и технологиите, тя навлиза дълбоко в царството на Web3 с пламенна страст към блокчейн.

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Преминаването на Доналд Тръмп към крипто: от противник към защитник и какво означава това за пазара на криптовалути в САЩ
Бизнес пазари Истории и рецензии Технологии
Преминаването на Доналд Тръмп към крипто: от противник към защитник и какво означава това за пазара на криптовалути в САЩ
Май 10, 2024
Layer3 ще пусне L3 токен това лято, разпределяйки 51% от общото предлагане на общността
пазари Новини Технологии
Layer3 ще пусне L3 токен това лято, разпределяйки 51% от общото предлагане на общността
Май 10, 2024
Последното предупреждение на Едуард Сноудън към биткойн разработчиците: „Направете поверителността приоритет на ниво протокол или рискувайте да я загубите
пазари Охрана Wiki Софтуер Истории и рецензии Технологии
Последното предупреждение на Едуард Сноудън към биткойн разработчиците: „Направете поверителността приоритет на ниво протокол или рискувайте да я загубите
Май 10, 2024
Захранван от оптимизъм Ethereum Layer 2 Network Mint ще пусне основната си мрежа на 15 май
Новини Технологии
Захранван от оптимизъм Ethereum Layer 2 Network Mint ще пусне основната си мрежа на 15 май
Май 10, 2024
CRYPTOMERIA LABS PTE. LTD.