AI Wiki Art vzdelanie Softvér Technológia
Apríla 24, 2024

The Rise of Sora: How AI is Redefining krajiny tvorby videoobsahu

Stručne

Sora je progresívny model umelej inteligencie s prevodom textu na video, ktorý sľubuje úplnú zmenu hry tvorby videa.

Spoločnosť Adobe nedávno odhalila plány na integráciu generatívnych nástrojov AI Premiere Pro softvér. Tento krok zahŕňa udelenie prístupu používateľom k nástrojom, ako napr OpenAISora priamo v rámci Premiere Pro je zameraný na obohatenie softvéru o funkcie poháňané AI, ako je manipulácia so scénou a odstraňovanie rozptýlenia.

Hoci OpenAISora v súčasnosti nie je verejnosti prístupná, spoločnosť Adobe demonštrovala svoju integráciu do Premiere Pro ako experimentálnu funkciu bez poskytnutia konkrétnej časovej osi pre jej vydanie.

Sora je progresívny model umelej inteligencie s prevodom textu na video, ktorý si získal pozornosť vďaka prísľubu úplne zmeniť hru na tvorbu videa. Táto technológia je sľubným nástrojom extrémneho efektu pre každého, kto má niečo spoločné s videoprodukciou, motion designom a animáciou, no zároveň prináša zásadné výzvy.

Poďme preskúmať všetky aspekty neuveriteľnej a očakávanej Sory.

Text na video?

Sora je v podstate navrhnutá tak, aby vytvárala realistické a vizuálne podmanivé videá generované z textových výziev. Ako inovatívna aplikácia AI má Sora za cieľ zefektívniť proces výroby videa a ponúknuť nové možnosti pre naratívne procesy a vizuálnu komunikáciu.

Funkcionalita Sora je zakorenená v jej schopnosti interpretovať a vykonávať textové príkazy na vytváranie pútavého video obsahu. Sora využíva pokročilé techniky hlbokého učenia a porozumenie jazyka, spracováva vstupný text a vytvára zodpovedajúce vizuálne scény s postavami, nastaveniami a pohybom. Tento proces zahŕňa dômyselnú súhru medzi spracovaním prirodzeného jazyka a syntézou videa, výsledkom čoho je výstup, ktorý je v tesnom súlade s poskytnutými textovými výzvami.

Pri vývoji Sora, OpenAITím zdôraznil dôležitosť vytvorenia modelu AI, ktorý zahŕňa hlboké porozumenie jazyka a silné pochopenie princípov vizuálneho rozprávania. Integráciou najmodernejších pokrokov v porozumení prirodzeného jazyka a video syntéze uprednostňuje Sora dizajn súdržné spojenie jazykového vyjadrenia a vizuálnej reprezentácie.

Ako je to vôbec možné?

Sora teda funguje ako difúzny model podobný iným generatívnym AI, ktoré pracujú s textom na obrázok. To znamená, že Sora spustí každý snímok so statickým šumom, potom transformuje obrázky na zobrazenia, ktoré budú pripomínať danú výzvu a popis toho, čo sa očakáva. Je to možné vďaka strojovému učeniu. Videá Sora môžu trvať až 60 sekúnd.

Sora rieši dočasnú konzistenciu a inovuje tým, že zohľadňuje viac snímok videa súčasne, čím zabezpečuje koherenciu pri pohybe objektov v rámci scény.

Sora, ktorá zahŕňa difúzne aj transformátorové modely, sleduje hybridný prístup podobný GPTarchitektúra transformátora. Jack Qiao vyzdvihuje doplnkové silné stránky týchto modelov, pričom difúzia vyniká pri vytváraní textúry, ale chýba jej globálne zloženie, zatiaľ čo transformátory vynikajú pri určovaní rozloženia na vysokej úrovni. Kombinácia využíva schopnosť transformátora organizovať záplaty, zatiaľ čo model difúzie vypĺňa detaily.

V implementácii Sora sú obrázky rozdelené do trojrozmerných polí, aby sa prispôsobili časovej perzistencii. To odzrkadľuje proces tokenizácie v jazykových modeloch, kde záplaty predstavujú prvky množiny obrázkov. Okrem toho sa na zefektívnenie výpočtovej účinnosti aplikuje krok redukcie rozmerov.

Na zvýšenie vernosti videa využíva Sora techniku ​​prepisovania podobnú DALL E 3, Vyznačujúci sa tým, GPT prepíše používateľské výzvy s ďalšími podrobnosťami pred generovaním videa. Slúži ako forma automatického rýchleho spresnenia, ktoré zaisťuje verné dodržiavanie vstupov používateľa.

Aká dobrá je teraz Sora?

OpenAI uznáva niekoľko obmedzení v súčasnej iterácii Sora. Je pozoruhodné, že Sora chýba prirodzené pochopenie fyziky, čo znamená, že nemusí dôsledne dodržiavať fyzikálne princípy skutočného sveta.

Napríklad model nedokáže pochopiť vzťahy príčina-následok, čo má za následok potenciálne nezrovnalosti. Podobne priestorové umiestnenie objektov môže vykazovať neprirodzené posuny.

Pokiaľ ide o spoľahlivosť, postavenie spoločnosti Sora zostáva neisté. Hoci OpenAI predstavil príklady, ktoré preukazujú vysokú kvalitu, nie je jasné, do akej miery došlo k selektívnemu predvádzaniu. V aplikáciách na prevod textu na obrázok je bežnou praxou generovanie viacerých obrázkov a výber toho najlepšieho. Presný počet obrázkov vytvorených OpenAI tím, ktorý predstaví videá v ich oznamovacom článku, nie je zverejnený. Tento nedostatok transparentnosti by mohol potenciálne brániť prijatiu, najmä ak je na získanie len jedného použiteľného výsledku potrebné vygenerovať stovky alebo tisíce videí. Aby sme túto neistotu zmiernili, musíme počkať na širšiu dostupnosť nástroja.

Kde bude Sora užitočná?

Možnosti spoločnosti Sora sa rozširujú na vytváranie videa od začiatku, predlžovanie existujúcich záznamov a bezproblémové dopĺňanie chýbajúcich snímok vo videách.

Podobne ako generatívne nástroje AI pre prevod textu na obrázok spôsobili revolúciu vo vytváraní obrázkov bez technických zručností úpravy, Sora sa snaží zjednodušiť produkciu videa bez potreby odborných znalostí v oblasti úpravy obrázkov. Tu sú niektoré primárne scenáre aplikácie:

  • Sora umožňuje vytváranie krátkych videí prispôsobených pre platformy sociálnych médií, ako sú TikTok, Instagram Reels a YouTube Shorts. Vyniká najmä pri vytváraní obsahu, ktorý môže byť náročné alebo nepraktické nafilmovať pomocou tradičných metód.
  • Tradične môžu byť nákladné činnosti, ako je produkcia reklám, propagačných videí a predvádzanie produktov, výrazne zjednodušené pomocou nástrojov umelej inteligencie s prevodom textu na video, ako je Sora, ktoré ponúkajú nákladovo efektívne riešenia.
  • Aj keď videá generované AI nie sú integrované do finálnych produktov, slúžia ako cenné nástroje na rýchle znázornenie konceptov. Filmári môžu využiť AI na makety scén pred natáčaním, zatiaľ čo dizajnéri môžu vizualizovať produkty pred výrobou. Napríklad hračkárska spoločnosť by mohla zamestnať Sora na vytvorenie AI makety novej hračky pirátskej lode, aby zhodnotila jej realizovateľnosť pred sériovou výrobou.
  • Syntetické údaje sa ukazujú ako neoceniteľné v situáciách, keď obavy o súkromie alebo realizovateľnosť bránia použitiu skutočných údajov. Zatiaľ čo sa zvyčajne používajú na numerické údaje, ako sú finančné záznamy a osobne identifikovateľné informácie, je možné generovať syntetické údaje s podobnými vlastnosťami pre širšiu dostupnosť. V oblasti videa sú syntetické údaje užitočné na trénovanie systémov počítačového videnia.

Výzvy spojené so Sorou

  • Riziká Sora ako novo predstaveného produktu ešte nie sú úplne objasnené; očakáva sa však, že budú podobné tým, s ktorými sa stretávame pri modeloch text-to-image.
  • Bez dostatočných záruk má Sora potenciál vytvárať nevhodný alebo nevhodný obsah, ako sú videá obsahujúce násilie, grafické snímky, sexuálne explicitný materiál, hanlivé reprezentácie určitých skupín a propagácia alebo oslavovanie nezákonných aktivít. To, čo predstavuje nevhodný obsah, sa môže značne líšiť v závislosti od používateľa (napríklad dieťa verzus dospelý) a okolností, za ktorých sa videá vytvárajú (napríklad vzdelávacie video o nebezpečenstvách ohňostrojov, ktoré neúmyselne zobrazujú grafické scény).
  • Príklady videí zdieľané používateľom OpenAI demonštrovať, že jednou z pozoruhodných schopností Sory je jej zručnosť vytvárať imaginatívne scenáre, ktoré presahujú realitu. Táto schopnosť ho však robí zraniteľným voči vytváraniu „hlboké falošné” videá, kde sú skutoční jednotlivci alebo situácie zmenené tak, aby vyjadrovali nepravdy, či už neúmyselne (dezinformácie) alebo zámerne (dezinformácie). Takýto obsah môže viesť k závažným následkom.
  • Výsledky vytvorené generatívnymi modelmi AI sú neodmysliteľne spojené s údajmi, na ktorých boli trénované. Preto sa vo vygenerovaných videách môžu objaviť kultúrne predsudky alebo stereotypy vložené do tréningových údajov, čo môže viesť k podobným problémom.

Čo robí OpenAI Ako tím predchádzať rizikám uvedeným vyššie?

V súčasnosti je Sora prístupná výhradne pre „červený tím“výskumníci – odborníci, ktorých úlohou je identifikovať a zmierniť potenciálne problémy s modelom. Títo výskumníci sa snažia vytvárať obsah, ktorý môže vykazovať načrtnuté riziká OpenAI riešiť a napraviť akékoľvek obavy pred zverejnením Sory.

Môže mi Sora nechať menej práce?

Schopnosť spoločnosti Sora produkovať špičkový videoobsah založený na textových podnetoch má potenciál podnietiť pozoruhodné transformácie v rámci kreatívneho pracovného prostredia. Konvenčné pozície vo videografii, špeciálne efekty a animácie riskujú zastaranie zoči-voči takýmto pokrokom. Zatiaľ čo niektorí kreatívi sa môžu otáčať zdokonaľovaním odborných znalostí v oblasti dohľadu nad funkciami AI, etickým využívaním AI a usmerňovaním kreatívneho smerovania na využitie schopností AI, uskutočniteľnosť tohto prechodu pre všetkých zostáva neistá.

Na druhej strane, znížením technických a finančných prekážok spojených s produkciou videa má Sora potenciál umožniť širšiemu spektru jednotlivcov vytvárať vysokokvalitný obsah. Táto demokratizácia môže podporiť nárast rôznorodej a invenčnej distribúcie obsahu. Hoci si to môže vyžadovať, aby etablované mediálne subjekty a tvorcovia obsahu prispôsobili a zaviedli inovatívne prístupy, tento vývoj by mohol byť predzvesťou pozitívnych výsledkov.

Tak či onak, po masovom vydaní Sora nepochybne spôsobí zmeny vo videu a súvisiacich odvetviach, ako aj v tvorbe osobného obsahu.

Dlhodobé dôsledky OpenAI Sora

Keď sa Sora zakorení v profesionálnych pracovných postupoch, jej trvalý vplyv sa rozvíja:

Odomknutie prípadov použitia s vysokou hodnotou: Integrácia spoločnosti Sora naprieč odvetviami sľubuje transformačné aplikácie, vrátane:

  • Zrýchlená produkcia obsahu: Sora zefektívňuje vytváranie médií v sektoroch VR, AR, hier a tradičnej zábavy, urýchľuje výrobné cykly a uľahčuje nápady.
  • Personalizované zážitky: Objaví sa obsah šitý na mieru, ktorý pripravila spoločnosť Sora, aby zodpovedal individuálnym preferenciám, čím sa pretvoria zábavné a vzdelávacie paradigmy tak, aby vyhovovali rôznym štýlom učenia a vkusu.
  • Adaptácia v reálnom čase: Dynamická úprava videa, ktorú umožňuje Sora, umožňuje priebežné úpravy obsahu, vyhovujúce preferenciám publika a spätnej väzbe v reálnom čase.
  • Rozostrenie digitálnych hraníc: Synergia spoločnosti Sora s VR a AR stiera hranice medzi fyzickými a digitálnymi sférami a prináša nové pohlcujúce zážitky a možnosti interaktívneho rozprávania.

Príchod Sora v podstate ohlasuje transformatívnu éru vo vytváraní obsahu poháňaného umelou inteligenciou, pretvárajúc priemysel, príbehy a skúsenosti používateľov hlbokými spôsobmi.

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Zhauhazyn je copywriter a sociológia. Fascinovaná zložitou dynamikou vedeckých a technologických štúdií sa ponorí hlboko do ríše Web3 s vrúcnou vášňou pre blockchain.

Ďalšie články
Zhauhazyn Shaden
Zhauhazyn Shaden

Zhauhazyn je copywriter a sociológia. Fascinovaná zložitou dynamikou vedeckých a technologických štúdií sa ponorí hlboko do ríše Web3 s vrúcnou vášňou pre blockchain.

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Od zvlnenia k veľkému zelenému DAO: Ako kryptomenové projekty prispievajú k charite

Poďme preskúmať iniciatívy, ktoré využívajú potenciál digitálnych mien na charitatívne účely.

vedieť viac

AlphaFold 3, Med-Gemini a ďalší: Spôsob, akým AI transformuje zdravotnú starostlivosť v roku 2024

Umelá inteligencia sa v zdravotníctve prejavuje rôznymi spôsobmi, od odhaľovania nových genetických korelácií až po posilnenie robotických chirurgických systémov...

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Token WLD spoločnosti Worldcoin bude čeliť agresívnemu predajnému tlaku s ďalšími odomknutiami v nasledujúcich mesiacoch, varuje DeFi2 Bybit Trader
trhy Novinová správa Technológia
Token WLD spoločnosti Worldcoin bude čeliť agresívnemu predajnému tlaku s ďalšími odomknutiami v nasledujúcich mesiacoch, varuje DeFi2 Bybit Trader
Môže 14, 2024
Zážitky z krypto výmeny Coinbase Zlyhanie systému, fondy používateľov sú zabezpečené podvodom Spoločnosť vyšetruje problém
trhy Novinová správa Technológia
Zážitky z krypto výmeny Coinbase Zlyhanie systému, fondy používateľov sú zabezpečené podvodom Spoločnosť vyšetruje problém
Môže 14, 2024
Od zvlnenia k veľkému zelenému DAO: Ako kryptomenové projekty prispievajú k charite
Analýza Crypto Wiki firmy vzdelanie Životný štýl trhy Softvér Technológia
Od zvlnenia k veľkému zelenému DAO: Ako kryptomenové projekty prispievajú k charite
Môže 13, 2024
AlphaFold 3, Med-Gemini a ďalší: Spôsob, akým AI transformuje zdravotnú starostlivosť v roku 2024
AI Wiki Analýza výťah Názor firmy trhy Novinová správa Softvér Príbehy a recenzie Technológia
AlphaFold 3, Med-Gemini a ďalší: Spôsob, akým AI transformuje zdravotnú starostlivosť v roku 2024
Môže 13, 2024
CRYPTOMERIA LABS PTE. LTD.