AI Wiki Sining Edukasyon software Teknolohiya
Abril 24, 2024

The Rise of Sora: How AI is Redefisa Landscape ng Paglikha ng Nilalaman ng Video

Sa madaling sabi

Ang Sora ay isang progresibong text-to-video AI na modelo na nangangako na ganap na baguhin ang laro ng paggawa ng video.

Inihayag kamakailan ng Adobe ang mga plano upang isama ang mga generative AI tool sa nito Premiere Pro software. Ang hakbang na ito, na kinabibilangan ng pagbibigay sa mga user ng access sa mga tool tulad ng OpenAIAng Sora ni Sora mismo sa loob ng Premiere Pro, ay naglalayong pagyamanin ang software na may mga kakayahan na pinapagana ng AI tulad ng pagmamanipula ng eksena at pag-alis ng distraction.

Bagaman OpenAIAng Sora ni Sora ay kasalukuyang hindi naa-access sa publiko, ipinakita ng Adobe ang pagsasama nito sa Premiere Pro bilang isang pang-eksperimentong tampok nang hindi nagbibigay ng isang partikular na timeline para sa paglabas nito.

Ang Sora ay isang progresibong text-to-video AI model na nakakuha ng atensyon dahil sa pangako nitong ganap na baguhin ang laro ng paggawa ng video. Isang promising tool na may matinding epekto para sa lahat na may kinalaman sa paggawa ng video, disenyo ng paggalaw, at animation, nagdadala rin ang teknolohiyang ito ng mahahalagang hamon.

Tuklasin natin ang lahat ng facet ng hindi kapani-paniwala at pinaka-inaasahang Sora.

Text sa Video?

Talagang idinisenyo ang Sora upang gumawa ng parang buhay at biswal na mapang-akit na mga video na nabuo mula sa mga text prompt. Bilang isang makabagong aplikasyon ng AI, layunin ni Sora na i-streamline ang proseso ng paggawa ng video at mag-alok ng mga bagong posibilidad para sa mga proseso ng pagsasalaysay at visual na komunikasyon.

Ang functionality ni Sora ay nakaugat sa kakayahan nitong magbigay-kahulugan at magsagawa ng mga textual na utos upang lumikha ng nakakahimok na nilalamang video. Gamit ang mga advanced na diskarte sa malalim na pag-aaral at pag-unawa sa wika, pinoproseso ni Sora ang input ng text at gagawa ng kaukulang mga visual na eksena na may mga character, setting, at galaw. Ang prosesong ito ay nagsasangkot ng isang sopistikadong interplay sa pagitan ng natural na pagpoproseso ng wika at synthesis ng video, na gumagawa ng output na malapit na umaayon sa mga ibinigay na textual prompt.

Sa pagbuo ng Sora, OpenAIBinigyang-diin ng koponan ang kahalagahan ng paglikha ng isang modelo ng AI na sumasaklaw sa isang malalim na pag-unawa sa wika at isang matatag na kaalaman sa mga prinsipyo ng visual na pagkukuwento. Sa pamamagitan ng pagsasama-sama ng mga makabagong pagsulong sa natural na pag-unawa sa wika at synthesis ng video, ang disenyo ni Sora ay inuuna ang magkakaugnay na pagsasanib ng linguistic na pagpapahayag at visual na representasyon.

Paano Ito Kahit Posible?

Kaya, gumagana ang Sora bilang isang modelo ng pagsasabog na katulad ng iba pang mga generative AI na gumagana sa text-to-image. Nangangahulugan ito na sinisimulan ni Sora ang bawat frame na may static na ingay, pagkatapos ay binabago ang mga imahe sa mga paglalarawan na magiging katulad ng ibinigay na prompt at paglalarawan ng kung ano ang inaasahan. Posible ito salamat sa machine learning. Maaaring umabot ng hanggang 60 segundo ang mga Sora video.

Sa pagtugon sa temporal consistency, nagbabago si Sora sa pamamagitan ng pagsasaalang-alang ng maraming video frame nang sabay-sabay, na tinitiyak ang pagkakaugnay-ugnay habang gumagalaw ang mga bagay sa loob ng eksena.

Isinasama ang parehong mga modelo ng pagsasabog at transpormer, sinusunod ni Sora ang isang hybrid na diskarte na katulad nito GPTarkitektura ng transpormer. Itinatampok ni Jack Qiao ang mga pantulong na lakas ng mga modelong ito, na may diffusion na napakahusay sa pagbuo ng texture ngunit kulang sa pandaigdigang komposisyon, samantalang ang mga transformer ay mahusay sa mataas na antas ng pagpapasiya ng layout. Ang kumbinasyon ay gumagamit ng kakayahan ng transpormer na ayusin ang mga patch habang ang diffusion model ay pumupuno sa mga detalye.

Sa pagpapatupad ni Sora, ang mga imahe ay nahahati sa tatlong-dimensional na mga patch upang mapaunlakan ang temporal na pagtitiyaga. Sinasalamin nito ang proseso ng tokenization sa mga modelo ng wika, kung saan ang mga patch ay kumakatawan sa mga elemento ng isang hanay ng mga larawan. Bukod pa rito, inilapat ang isang hakbang sa pagbabawas ng dimensionality upang i-streamline ang kahusayan sa pag-compute.

Upang mapahusay ang katapatan ng video, gumagamit si Sora ng isang recaptioning technique na katulad ng DALL E 3, Kung saan GPT muling isinusulat ang mga senyas ng user na may karagdagang detalye bago ang pagbuo ng video. Ito ay nagsisilbing isang paraan ng awtomatikong agarang pagpipino, na tinitiyak ang tapat na pagsunod sa input ng user.

Gaano Kaganda si Sora Ngayon?

OpenAI kinikilala ang ilang mga limitasyon sa kasalukuyang pag-ulit ng Sora. Kapansin-pansin, walang likas na kaalaman si Sora sa pisika, ibig sabihin ay maaaring hindi ito patuloy na sumunod sa mga pisikal na prinsipyo sa totoong mundo.

Bilang halimbawa, nabigo ang modelo na maunawaan ang mga ugnayang sanhi-at-epekto, na nagreresulta sa mga potensyal na hindi pagkakapare-pareho. Gayundin, ang spatial na pagpoposisyon ng mga bagay ay maaaring magpakita ng mga hindi natural na pagbabago.

Pagdating sa pagiging maaasahan, ang katayuan ng Sora ay nananatiling hindi tiyak. Bagaman OpenAI ay nagpakita ng mga halimbawang nagpapakita ng mataas na kalidad, hindi malinaw kung hanggang saan naganap ang piling pagpapakita. Sa mga text-to-image na application, ang pagbuo ng maraming larawan at pagpili ng pinakamahusay ay karaniwang kasanayan. Ang eksaktong bilang ng mga larawang ginawa ng OpenAI koponan upang ipakita ang mga video sa kanilang artikulo ng anunsyo ay hindi isiniwalat. Ang kakulangan ng transparency na ito ay maaaring makahadlang sa pag-aampon, lalo na kung ang pagbuo ng daan-daan o libu-libong mga video ay kinakailangan upang makakuha ng isang magagamit na resulta lamang. Upang maibsan ang kawalan ng katiyakan na ito, kailangan nating maghintay para sa mas malawak na accessibility ng tool.

Saan Magagamit si Sora?

Ang mga kakayahan ni Sora ay umaabot sa paggawa ng video mula sa simula, pagpapahaba ng kasalukuyang footage, at tuluy-tuloy na pagpuno ng mga nawawalang frame sa loob ng mga video.

Katulad ng kung paano binago ng text-to-image generative AI na mga tool ang paglikha ng larawan nang walang mga teknikal na kasanayan sa pag-edit, layunin ni Sora na pasimplehin ang paggawa ng video nang hindi nangangailangan ng kadalubhasaan sa pag-edit ng larawan. Narito ang ilang pangunahing sitwasyon ng aplikasyon:

  • Binibigyang-daan ni Sora ang paglikha ng mga short-form na video na iniakma para sa mga social media platform gaya ng TikTok, Instagram Reels, at YouTube Shorts. Ito ay partikular na mahusay sa paggawa ng nilalaman na maaaring mahirap o hindi praktikal sa pelikula gamit ang mga tradisyonal na pamamaraan.
  • Ayon sa kaugalian, ang mga mamahaling pagsisikap tulad ng paggawa ng mga advertisement, mga video na pang-promosyon, at mga demonstrasyon ng produkto ay maaaring pasimplehin nang malaki gamit ang mga text-to-video AI tool tulad ng Sora, na nag-aalok ng mga cost-effective na solusyon.
  • Kahit na ang mga video na binuo ng AI ay hindi isinama sa mga huling produkto, nagsisilbi ang mga ito bilang mahalagang tool para sa mabilis na paglalarawan ng mga konsepto. Maaaring gamitin ng mga filmmaker ang AI para sa mga scene mockup bago ang shooting, habang ang mga designer ay maaaring mag-visualize ng mga produkto bago ang paggawa. Halimbawa, maaaring gamitin ng isang kumpanya ng laruan si Sora upang lumikha ng AI mockup ng isang bagong laruang barko ng pirata upang suriin ang pagiging posible nito bago ang mass production.
  • Ang sintetikong data ay nagpapatunay na napakahalaga sa mga sitwasyon kung saan ang mga alalahanin sa privacy o pagiging posible ay pumipigil sa paggamit ng totoong data. Bagama't karaniwang inilalapat sa numerical na data gaya ng mga financial record at personal na nakakapagpakilalang impormasyon, ang synthetic na data na may mga katulad na katangian ay maaaring mabuo para sa mas malawak na accessibility. Sa larangan ng video, ang synthetic na data ay kapaki-pakinabang para sa pagsasanay ng mga computer vision system.

Mga hamon na nauugnay kay Sora

  • Bilang isang bagong ipinakilala na produkto, ang mga panganib ni Sora ay hindi pa ganap na naipaliwanag; gayunpaman, ang mga ito ay inaasahang magiging katulad ng mga nakatagpo sa mga modelo ng text-to-image.
  • Kung walang sapat na pag-iingat, may potensyal si Sora na lumikha ng hindi kanais-nais o hindi naaangkop na nilalaman, tulad ng mga video na naglalaman ng karahasan, graphic na imahe, tahasang sekswal na materyal, mapanlait na representasyon ng mga partikular na grupo, at ang pag-promote o pagpuri sa mga ilegal na aktibidad. Ang bumubuo ng hindi naaangkop na nilalaman ay maaaring mag-iba nang malaki depende sa user (tulad ng isang bata kumpara sa isang nasa hustong gulang) at ang mga pangyayari kung saan nabuo ang mga video (tulad ng isang pang-edukasyon na video sa mga panganib sa paputok na hindi sinasadyang nagpapakita ng mga graphic na eksena).
  • Ang mga halimbawang video na ibinahagi ni OpenAI ipakita na ang isa sa mga kapansin-pansing kakayahan ni Sora ay ang husay nito sa paglikha ng mga mapanlikhang senaryo na higit pa sa katotohanan. Gayunpaman, ang kakayahang ito ay ginagawa rin itong mahina sa pagbuo ng "malalim na pekeng” na mga video, kung saan ang mga tunay na indibidwal o sitwasyon ay binago upang maghatid ng mga kasinungalingan, hindi man sinasadya (maling impormasyon) o sadyang (disinformation). Ang ganitong nilalaman ay maaaring humantong sa malaking kahihinatnan.
  • Ang mga resultang ginawa ng mga generative na modelo ng AI ay likas na naka-link sa data kung saan sila sinanay. Samakatuwid, ang mga kultural na bias o stereotype na naka-embed sa data ng pagsasanay ay maaaring lumitaw sa mga nabuong video, na posibleng nagpapatuloy sa mga katulad na problema.

Ano ang OpenAI Ginagawa ng Koponan upang Pigilan ang Mga Panganib na Binanggit sa Itaas?

Sa kasalukuyan, ang Sora ay eksklusibong naa-access sa "pulang koponan” mga mananaliksik—mga eksperto na may katungkulan sa pagtukoy at pagpapagaan ng mga potensyal na isyu sa modelo. Ang mga mananaliksik na ito ay nagsisikap na bumuo ng nilalaman na maaaring magpakita ng mga panganib na nakabalangkas, na nagpapahintulot OpenAI upang tugunan at itama ang anumang mga alalahanin bago ilabas sa publiko si Sora.

Maaari ba akong Iwan ni Sora sa Trabaho?

Ang kapasidad ng Sora na gumawa ng top-tier na nilalamang video batay sa mga textual na pahiwatig ay may potensyal na mag-udyok ng mga kapansin-pansing pagbabago sa loob ng malikhaing landscape ng trabaho. Ang mga kumbensyonal na posisyon sa loob ng videography, mga espesyal na epekto, at animation ay nanganganib sa pagkaluma sa harap ng mga naturang pagsulong. Bagama't maaaring mag-pivot ang ilang creative sa pamamagitan ng pagpapahusay ng kadalubhasaan sa pangangasiwa sa mga function ng AI, etikal na paggamit ng AI, at paggabay sa creative na direksyon upang magamit ang mga kakayahan ng AI, nananatiling hindi sigurado ang pagiging posible ng transition na ito para sa lahat.

Sa kabilang banda, sa pamamagitan ng pagbabawas sa teknikal at pinansyal na mga hadlang na nauugnay sa paggawa ng video, may potensyal si Sora na bigyang kapangyarihan ang isang mas malawak na hanay ng mga indibidwal na gumawa ng mataas na kalidad na nilalaman. Ang demokratisasyong ito ay maaaring magsulong ng pagsulong sa iba't-ibang at mapag-imbentong pamamahagi ng nilalaman. Bagama't maaaring mangailangan ng mga itinatag na entity ng media at mga tagalikha ng nilalaman na ayusin at ipakilala ang mga makabagong diskarte, ang ebolusyong ito ay maaaring magpahiwatig ng mga positibong resulta.

Sa alinmang paraan, pagkatapos ng mass release, walang alinlangang magdudulot si Sora ng mga pagbabago sa video at mga kaugnay na industriya, gayundin sa paggawa ng personal na content.

Pangmatagalang Implikasyon ng OpenAI Sora

Habang si Sora ay nagiging matatag sa mga propesyonal na daloy ng trabaho, ang pangmatagalang epekto nito ay nagbubukas:

Pag-unlock ng mga High-Value Use Case: Ang pagsasama ni Sora sa mga industriya ay nangangako ng mga pagbabagong aplikasyon, kabilang ang:

  • Pinabilis na Paggawa ng Nilalaman: Pinapabilis ni Sora ang paggawa ng media sa VR, AR, gaming, at tradisyonal na sektor ng entertainment, pinapabilis ang mga ikot ng produksyon at pinapadali ang pag-iisip.
  • Mga Personalized na Karanasan: Lumilitaw ang iniangkop na content na na-curate ni Sora upang tumugma sa mga indibidwal na kagustuhan, na muling hinuhubog ang entertainment at mga paradigma na pang-edukasyon upang umangkop sa magkakaibang istilo at panlasa sa pag-aaral.
  • Real-Time Adaptation: Ang dynamic na pag-edit ng video na pinagana ni Sora ay nagbibigay-daan para sa on-the-fly na mga pagbabago sa content, tumutugon sa mga kagustuhan ng audience at feedback sa real-time.
  • Blurring Digital Boundaries: Ang synergy ni Sora sa VR at AR ay nagpapalabo ng mga linya sa pagitan ng pisikal at digital na mga realm, na nagpapakita ng mga nobelang nakaka-engganyong karanasan at interactive na pagkakataon sa pagkukuwento.

Sa esensya, ang pagdating ng Sora ay nagbabadya ng isang pagbabagong panahon sa paglikha ng nilalaman na hinimok ng AI, muling paghubog ng mga industriya, mga salaysay, at mga karanasan ng user sa malalim na paraan.

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Zhauhazyn ay isang copywriter at sociology major. Nabighani sa masalimuot na dynamics ng Science and Technology Studies, malalim ang kanyang pinag-aralan sa larangan ng Web3 na may taimtim na pagnanasa para sa blockchain.

Mas marami pang artikulo
Zhauhazyn Shaden
Zhauhazyn Shaden

Si Zhauhazyn ay isang copywriter at sociology major. Nabighani sa masalimuot na dynamics ng Science and Technology Studies, malalim ang kanyang pinag-aralan sa larangan ng Web3 na may taimtim na pagnanasa para sa blockchain.

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Ang Paglipat ni Donald Trump sa Crypto: Mula sa Kalaban hanggang sa Tagapagtaguyod, at Ano ang Kahulugan Nito para sa US Cryptocurrency Market
Negosyo markets Mga Kuwento at Pagsusuri Teknolohiya
Ang Paglipat ni Donald Trump sa Crypto: Mula sa Kalaban hanggang sa Tagapagtaguyod, at Ano ang Kahulugan Nito para sa US Cryptocurrency Market
Mayo 10, 2024
Layer3 Upang Ilunsad ang L3 Token Ngayong Tag-init, Naglalaan ng 51% Ng Kabuuang Supply Sa Komunidad
markets Ulat sa Balita Teknolohiya
Layer3 Upang Ilunsad ang L3 Token Ngayong Tag-init, Naglalaan ng 51% Ng Kabuuang Supply Sa Komunidad
Mayo 10, 2024
Ang Pangwakas na Babala ni Edward Snowden sa Mga Nag-develop ng Bitcoin: “Gawing Priyoridad sa Antas ng Protokol ang Pagkapribado o Panganib na Mawala Ito
markets Katiwasayan Wiki software Mga Kuwento at Pagsusuri Teknolohiya
Ang Pangwakas na Babala ni Edward Snowden sa Mga Nag-develop ng Bitcoin: “Gawing Priyoridad sa Antas ng Protokol ang Pagkapribado o Panganib na Mawala Ito
Mayo 10, 2024
Optimism-Powered Ethereum Layer 2 Network Mint Upang Ilunsad ang Mainnet Nito Sa Mayo 15
Ulat sa Balita Teknolohiya
Optimism-Powered Ethereum Layer 2 Network Mint Upang Ilunsad ang Mainnet Nito Sa Mayo 15
Mayo 10, 2024
CRYPTOMERIA LABS PTE. LTD.