Terobosan AI Generatif Video Wan2.2 Bisa Ikuti Kepatuhan Hukum Fisika

Editor
6 bulan yang lalu

Produksi video bergaya sinematik seringkali membutuhkan keahlian teknis tinggi, perangkat lunak yang rumit, dan waktu yang lama. Hal ini menjadi hambatan bagi banyak kreator dan pengembang yang ingin menghasilkan konten video berkualitas tinggi dengan cepat dan mudah. Ada kebutuhan yang jelas untuk alat yang dapat menyederhanakan proses ini, sambil tetap mempertahankan kontrol kreatif dan kualitas visual yang unggul.

AI Generatif Video Wan2.2

Alibaba telah merilis Wan2.2, model generasi video besar sumber terbuka pertama di industri yang menggabungkan arsitektur Mixture of Experts (MoE). Wan2.2 secara signifikan akan meningkatkan kemampuan kreator dan pengembang untuk menghasilkan video bergaya sinematik hanya dengan satu klik. Seri Wan2.2 ini mencakup model text to video Wan2.2 T2V A14B dan model image to video Wan2.2 I2V A14B, serta Wan2.2 TI2V 5B, model hibrida yang mendukung tugas pembuatan video dari teks maupun gambar dalam satu kerangka kerja terpadu.

Dibangun di atas arsitektur MoE dan dilatih dengan data estetika yang dikurasi secara cermat, Wan2.2 T2V A14B dan Wan2.2 I2V A14B menghasilkan video dengan kualitas dan estetika tingkat sinematik. Model-model ini menawarkan kendali yang tepat kepada kreator atas dimensi-dimensi kunci seperti pencahayaan, waktu dalam sehari, tone warna, sudut kamera, ukuran frame, komposisi, panjang fokus, dan lain-lain. Dua model MoE ini juga menunjukkan peningkatan signifikan dalam menghasilkan gerakan yang kompleks, termasuk ekspresi wajah yang jelas, gerakan tangan yang dinamis, dan gerakan olahraga yang rumit. Selain itu, model-model ini memberikan representasi realistis dengan peningkatan kemampuan mengikuti instruksi dan kepatuhan terhadap hukum fisika.

Dua Tujuh Miliar Parameter Untuk Konsumsi Komputasi

Untuk mengatasi masalah konsumsi komputasi yang tinggi dalam pembuatan video yang disebabkan oleh token yang panjang, Wan2.2 T2V A14B dan Wan2.2 I2V A14B menerapkan desain dua ahli dalam proses denoising model difusi. Desain ini mencakup seorang ahli high noise yang berfokus pada tata letak pemandangan secara keseluruhan, dan seorang ahli low noise untuk menyempurnakan detail dan tekstur. Meskipun kedua model ini terdiri dari total 27 miliar parameter, hanya 14 miliar parameter yang diaktifkan per langkah, sehingga mengurangi konsumsi komputasi hingga 50%.

Wan2.2 menggabungkan penyetelan estetika yang fine grained melalui sistem prompt yang terinspirasi sinematik, yang mengkategorikan dimensi kunci seperti pencahayaan, iluminasi, komposisi, dan tone warna. Pendekatan ini memungkinkan Wan2.2 untuk secara akurat menafsirkan dan menyampaikan niat estetika pengguna selama proses pembuatan. Untuk meningkatkan kemampuan generalisasi dan keragaman kreatif, Wan2.2 dilatih pada kumpulan data yang jauh lebih besar, menampilkan peningkatan 65,6% dalam data gambar dan 83,2% dalam data video dibandingkan dengan Wan2.1.

Wan2.2 juga memperkenalkan model hibridanya, Wan2.2 TI2V 5B sebuah model padat yang memanfaatkan arsitektur 3D VAE kompresi tinggi untuk mencapai rasio kompresi temporal dan spasial 4x16x16, meningkatkan rasio kompresi informasi keseluruhan hingga 64. TI2V 5B dapat menghasilkan video 720P berdurasi 5 detik dalam beberapa menit hanya dengan satu GPU kelas konsumen, memungkinkan efisiensi dan skalabilitas bagi pengembang dan pembuat konten. Model Wan2.2 tersedia untuk diunduh di Hugging Face dan GitHub, serta komunitas open-source Alibaba Cloud, ModelScope.