AI Wiki Seni Pendidikan Perangkat lunak Teknologi

24 April, 2024

Bangkitnya Sora: Bagaimana AI itu Redefining Lanskap Pembuatan Konten Video

by Zhauhazyn Shaden

Diterbitkan: 24 April 2024 pukul 8 Diperbarui: 06 April 24 pukul 2024

by Anastasiia O

Diedit dan diperiksa faktanya: 24 April 2024 pukul 8

Singkatnya

Sora adalah model AI teks-ke-video progresif yang menjanjikan untuk mengubah permainan pembuatan video sepenuhnya.

Adobe baru-baru ini mengungkapkan rencana untuk mengintegrasikan alat AI generatif ke dalamnya Premiere Pro perangkat lunak. Langkah ini, termasuk memberikan pengguna akses ke alat seperti OpenAISora langsung dalam Premiere Pro, bertujuan untuk memperkaya perangkat lunak dengan kemampuan yang didukung AI seperti manipulasi adegan dan penghapusan gangguan.

Meskipun OpenAISora saat ini tidak dapat diakses oleh publik, Adobe mendemonstrasikan integrasinya ke Premiere Pro sebagai fitur eksperimental tanpa memberikan jadwal spesifik untuk peluncurannya.

Kami sangat senang mengumumkan terobosan #GeneratifAI fitur yang didukung oleh yang baru #AdobeFirefly model video. Intip Penambahan Objek, Penghapusan Objek, dan Perluasan Generatif. Semua akan segera hadir #PremierePro! 💥 https://t.co/Yg1NxffVNR pic.twitter.com/wa5ivFXAPG
—Adobe (@Adobe) 15 April, 2024

Sora adalah model AI teks-ke-video progresif yang mendapat perhatian karena janjinya untuk mengubah permainan pembuatan video sepenuhnya. Sebagai alat yang menjanjikan dengan efek ekstrem bagi semua orang yang terlibat dalam produksi video, desain gerak, dan animasi, teknologi ini juga membawa tantangan penting.

Mari jelajahi semua aspek Sora yang luar biasa dan sangat dinantikan.

Teks ke Video?

Pada dasarnya Sora dirancang untuk membuat video yang hidup dan menawan secara visual yang dihasilkan dari perintah teks. Sebagai aplikasi AI yang inovatif, Sora bertujuan untuk menyederhanakan proses produksi video dan menawarkan kemungkinan baru untuk proses narasi dan komunikasi visual.

Fungsionalitas Sora berakar pada kemampuannya untuk menafsirkan dan menjalankan perintah tekstual untuk membuat konten video yang menarik. Memanfaatkan teknik pembelajaran mendalam dan pemahaman bahasa tingkat lanjut, Sora memproses teks masukan dan membuat adegan visual yang sesuai dengan karakter, latar, dan gerakan. Proses ini melibatkan interaksi canggih antara pemrosesan bahasa alami dan sintesis video, menghasilkan keluaran yang sangat selaras dengan petunjuk tekstual yang diberikan.

Dalam mengembangkan Sora, OpenAITim menekankan pentingnya menciptakan model AI yang merangkum pemahaman mendalam tentang bahasa dan pemahaman yang kuat tentang prinsip-prinsip pengisahan cerita visual. Dengan mengintegrasikan kemajuan mutakhir dalam pemahaman bahasa alami dan sintesis video, desain Sora memprioritaskan perpaduan kohesif antara ekspresi linguistik dan representasi visual.

Bagaimana Bahkan Mungkin?

Jadi, Sora berfungsi sebagai model difusi mirip dengan AI generatif lainnya yang bekerja dengan teks-ke-gambar. Artinya, Sora memulai setiap frame dengan noise statis, lalu mengubah gambar menjadi penggambaran yang menyerupai perintah yang diberikan dan deskripsi dari apa yang diharapkan. Hal ini dimungkinkan berkat pembelajaran mesin. Video Sora dapat berdurasi hingga 60 detik.

Mengatasi konsistensi temporal, Sora berinovasi dengan mempertimbangkan beberapa frame video secara bersamaan, memastikan koherensi saat objek bergerak dalam adegan.

Menggabungkan model difusi dan transformator, Sora mengikuti pendekatan hybrid GPTarsitektur transformator. Jack Qiao menyoroti kekuatan yang saling melengkapi dari model-model ini, dengan difusi yang unggul dalam menghasilkan tekstur tetapi kurang dalam komposisi global, sedangkan transformator unggul dalam penentuan tata letak tingkat tinggi. Kombinasi ini memanfaatkan kemampuan transformator untuk mengatur patch sementara model difusi mengisi secara detail.

Dalam implementasi Sora, gambar dibagi lagi menjadi patch tiga dimensi untuk mengakomodasi persistensi temporal. Hal ini mencerminkan proses tokenisasi dalam model bahasa, di mana patch mewakili elemen dari sekumpulan gambar. Selain itu, langkah pengurangan dimensi diterapkan untuk menyederhanakan efisiensi komputasi.

Untuk meningkatkan fidelitas video, Sora menggunakan teknik pembuatan ulang yang serupa dengan DALL E 3, Dimana GPT menulis ulang perintah pengguna dengan detail tambahan sebelum pembuatan video. Ini berfungsi sebagai bentuk penyempurnaan cepat otomatis, memastikan kepatuhan yang setia terhadap masukan pengguna.

Seberapa Baik Sora Sekarang?

OpenAI mengakui beberapa keterbatasan dalam iterasi Sora saat ini. Khususnya, Sora kurang memahami fisika, yang berarti ia mungkin tidak secara konsisten mematuhi prinsip-prinsip fisik dunia nyata.

Sebagai contoh, model tersebut gagal memahami hubungan sebab-akibat, sehingga berpotensi menimbulkan inkonsistensi. Demikian pula, posisi spasial objek mungkin menunjukkan pergeseran yang tidak wajar.

Dalam hal keandalan, status Sora masih belum pasti. Meskipun OpenAI telah menyajikan contoh yang menunjukkan kualitas tinggi, namun tidak jelas sejauh mana penayangan selektif telah terjadi. Dalam aplikasi teks-ke-gambar, menghasilkan banyak gambar dan memilih yang terbaik adalah praktik umum. Jumlah pasti gambar yang dihasilkan oleh OpenAI tim untuk menampilkan video dalam artikel pengumuman mereka tidak diungkapkan. Kurangnya transparansi ini berpotensi menghambat adopsi, terutama jika diperlukan ratusan atau ribuan video untuk mendapatkan satu hasil yang dapat digunakan saja. Untuk mengurangi ketidakpastian ini, kita harus menunggu aksesibilitas yang lebih luas terhadap alat ini.

Dimana Sora Akan Berguna?

Kemampuan Sora mencakup pembuatan video dari awal, pemanjangan rekaman yang ada, dan pengisian bingkai yang hilang dalam video dengan mulus.

Mirip dengan bagaimana alat AI generatif teks-ke-gambar merevolusi pembuatan gambar tanpa keterampilan pengeditan teknis, Sora bertujuan untuk menyederhanakan produksi video tanpa memerlukan keahlian mengedit gambar. Berikut adalah beberapa skenario aplikasi utama:

Sora memungkinkan pembuatan video pendek yang disesuaikan untuk platform media sosial seperti TikTok, Instagram Reels, dan YouTube Shorts. Ia khususnya unggul dalam menyusun konten yang mungkin sulit atau tidak praktis untuk difilmkan menggunakan metode tradisional.
Secara tradisional, upaya mahal seperti memproduksi iklan, video promosi, dan demonstrasi produk dapat disederhanakan secara signifikan dengan alat AI teks-ke-video seperti Sora, yang menawarkan solusi hemat biaya.
Meskipun video yang dihasilkan AI tidak diintegrasikan ke dalam produk akhir, video tersebut berfungsi sebagai alat yang berharga untuk mengilustrasikan konsep dengan cepat. Pembuat film dapat memanfaatkan AI untuk maket adegan sebelum pengambilan gambar, sementara desainer dapat memvisualisasikan produk sebelum diproduksi. Misalnya, sebuah perusahaan mainan dapat mempekerjakan Sora untuk membuat tiruan AI dari mainan kapal bajak laut baru untuk mengevaluasi kelayakannya sebelum produksi massal.
Data sintetis terbukti sangat berharga dalam situasi di mana masalah privasi atau kelayakan menghalangi penggunaan data nyata. Meskipun biasanya diterapkan pada data numerik seperti catatan keuangan dan informasi identitas pribadi, data sintetis dengan properti serupa dapat dihasilkan untuk aksesibilitas yang lebih luas. Di bidang video, data sintetis berguna untuk melatih sistem visi komputer.

Tantangan yang terkait dengan Sora

Sebagai produk yang baru diperkenalkan, risiko Sora belum sepenuhnya dijelaskan; namun, model tersebut diperkirakan serupa dengan model teks-ke-gambar.
Tanpa perlindungan yang memadai, Sora berpotensi membuat konten yang tidak pantas atau tidak pantas, seperti video yang berisi kekerasan, gambar grafis, materi seksual eksplisit, representasi yang menghina kelompok tertentu, dan promosi atau pengagungan aktivitas ilegal. Apa yang dimaksud dengan konten tidak pantas bisa sangat berbeda tergantung pada penggunanya (misalnya anak-anak versus orang dewasa) dan kondisi saat video tersebut dibuat (misalnya video edukasi tentang bahaya kembang api yang secara tidak sengaja menampilkan adegan vulgar).
Contoh video yang dibagikan oleh OpenAI menunjukkan bahwa salah satu kemampuan penting Sora adalah keahliannya dalam menciptakan skenario imajinatif yang melampaui kenyataan. Meskipun demikian, kemampuan ini juga membuatnya rentan untuk menghasilkan “palsu besar” video, yang menampilkan individu atau situasi asli diubah untuk menyampaikan kebohongan, baik secara tidak sengaja (misinformasi) maupun sengaja (disinformasi). Konten semacam itu dapat menimbulkan konsekuensi besar.
Hasil yang dihasilkan oleh model AI generatif secara inheren terkait dengan data yang menjadi dasar pelatihannya. Oleh karena itu, bias budaya atau stereotip yang tertanam dalam data pelatihan mungkin muncul dalam video yang dihasilkan, sehingga mungkin melanggengkan masalah serupa.

Apa yang OpenAI Tim Lakukan untuk Mencegah Resiko yang Disebutkan di Atas?

Saat ini, Sora secara eksklusif dapat diakses oleh “tim Merah” peneliti—para ahli yang bertugas mengidentifikasi dan memitigasi potensi masalah pada model. Para peneliti ini berusaha untuk menghasilkan konten yang mungkin menunjukkan risiko yang digariskan, memungkinkan OpenAI untuk mengatasi dan memperbaiki masalah apa pun sebelum rilis publik Sora.

Bisakah Sora Meninggalkanku Tanpa Pekerjaan?

Kapasitas Sora untuk memproduksi konten video papan atas berdasarkan petunjuk tekstual berpotensi memicu transformasi penting dalam lanskap lapangan kerja kreatif. Posisi konvensional dalam videografi, efek khusus, dan animasi berisiko menjadi usang karena kemajuan tersebut. Meskipun beberapa pekerja kreatif mungkin melakukan perubahan dengan mengasah keahlian dalam mengawasi fungsi AI, pemanfaatan AI yang etis, dan mengarahkan arahan kreatif untuk memanfaatkan kemampuan AI, kelayakan transisi ini untuk semua pihak masih belum pasti.

Di sisi lain, dengan mengurangi hambatan teknis dan finansial yang terkait dengan produksi video, Sora berpotensi memberdayakan lebih banyak individu untuk membuat konten berkualitas tinggi. Demokratisasi ini dapat mendorong peningkatan distribusi konten yang bervariasi dan inventif. Meskipun entitas media dan pembuat konten yang sudah mapan perlu menyesuaikan dan memperkenalkan pendekatan inovatif, evolusi ini dapat memberikan hasil yang positif.

Bagaimanapun, setelah rilis massal, Sora pasti akan menyebabkan perubahan pada video dan industri terkait, serta pembuatan konten pribadi.

Implikasi Jangka Panjang dari OpenAI sora

Ketika Sora sudah mengakar dalam alur kerja profesional, dampaknya yang bertahan lama pun terungkap:

Membuka Kasus Penggunaan Bernilai Tinggi: Integrasi Sora di seluruh industri menjanjikan aplikasi transformatif, termasuk:

Produksi Konten yang Dipercepat: Sora menyederhanakan pembuatan media di sektor VR, AR, game, dan hiburan tradisional, mempercepat siklus produksi dan memfasilitasi ide.
Pengalaman yang Dipersonalisasi: Konten yang disesuaikan yang dikurasi oleh Sora agar sesuai dengan preferensi individu muncul, membentuk kembali paradigma hiburan dan pendidikan agar sesuai dengan beragam gaya dan selera belajar.
Adaptasi Real-Time: Pengeditan video dinamis yang diaktifkan oleh Sora memungkinkan modifikasi konten secara langsung, memenuhi preferensi penonton dan umpan balik secara real-time.
Mengaburkan Batasan Digital: Sinergi Sora dengan VR dan AR mengaburkan batas antara dunia fisik dan digital, menghadirkan pengalaman baru yang mendalam dan peluang bercerita interaktif.

Intinya, kemunculan Sora menandai era transformatif dalam pembuatan konten berbasis AI, yang membentuk kembali industri, narasi, dan pengalaman pengguna secara mendalam.

Tags:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Zhauhazyn adalah seorang copywriter dan jurusan sosiologi. Terpesona oleh dinamika rumit Studi Sains dan Teknologi, ia mendalami bidang ilmu pengetahuan dan teknologi Web3 dengan hasrat kuat untuk blockchain.

lebih artikel

Zhauhazyn Shaden