
(Source: Alibaba cloud)
Popularitas konten video yang terus melonjak di berbagai platform digital menciptakan permintaan tinggi akan alat bantu kreasi dan penyuntingan yang efisien. Menjawab kebutuhan ini, perusahaan teknologi tak henti berinovasi untuk menyederhanakan proses yang seringkali rumit tersebut. Dalam langkah terbarunya, Alibaba memperkenalkan Wan 2.1-VACE (Video All-in-one Creation and Editing), model sumber terbuka yang dirancang khusus untuk merevolusi pembuatan dan penyuntingan video.
Wan 2.1-VACE adalah model sumber terbuka pertama di industri yang menyediakan solusi terpadu untuk berbagai tugas pembuatan dan penyuntingan video. Sebagai bagian dari seri Wan2.1, yang merupakan model besar generasi video milik Alibaba, VACE menggabungkan berbagai fungsi pemrosesan video dalam satu model tunggal. Tujuannya ialah untuk menyederhanakan proses kreasi video, meningkatkan efisiensi, dan produktivitas para kreator konten.
Model ini mendukung pembuatan video dengan input multimodal, termasuk teks, gambar, dan video. Ini berarti pengguna dapat memulai proses kreasi dari berbagai jenis masukan sesuai kebutuhan mereka. Selain itu, VACE menawarkan kemampuan penyuntingan video yang komprehensif, seperti mereferensikan gambar atau frame, pengubahan konten video melalui teknik pengeditan, memodifikasi area terpilih dalam video, dan ekstensi spasial-temporal. Fitur-fitur ini memungkinkan kombinasi tugas yang fleksibel, sehingg dapat membuka ruang kreativitas yang lebih luas bagi pengguna.
Pengguna dapat menciptakan video yang menampilkan subjek interaktif berdasarkan contoh gambar, atau menghidupkan gambar statis dengan menambahkan efek gerakan alami. Fitur video repainting memungkinkan pengguna melakukan pose transfer, kontrol gerakan, kontrol kedalaman, dan recolorization. Model ini juga mendukung penambahan, modifikasi, atau penghapusan area spesifik dalam video tanpa memengaruhi lingkungan sekitarnya. Kemampuan ekstensi batas video juga hadir, memungkinkan pengisian konten secara cerdas untuk memperkaya pengalaman visual.
Sebagai model AI all-in-one, Wan 2.1-VACE memberikan banyak fleksibilitas. Pengguna dapat dengan mulus menggabungkan berbagai fungsi untuk menghasilkan potensi inovatif yang luar biasa. Contohnya, pengguna bisa mengubah gambar statis menjadi video sambil mengontrol gerakan objek dengan menentukan lintasan gerak. Mereka juga dapat mengganti karakter atau objek dengan referensi yang ditentukan, menganimasikan karakter yang direferensikan, mengontrol pose, dan bahkan memperluas gambar vertikal secara horizontal untuk membuat video horizontal dengan menambahkan elemen baru melalui referensi.
Wan 2.1-VACE memanfaatkan beberapa teknologi inovatif dalam konstruksi dan desainnya, denga mempertimbangkan kebutuhan tugas penyuntingan video yang berbeda. Antarmuka terpadunya, yang disebut Video Condition Unit (VCU), mendukung pemrosesan terpadu dari berbagai masukan multimodal seperti teks, gambar, video, dan mask. Model ini juga menggunakan struktur Context Adapter yang menyuntikkan berbagai konsep tugas menggunakan representasi formal dimensi temporal dan spasial.
Alibaba menyediakan model Wan 2.1-VACE dalam dua versi, yaitu 14 miliar parameter dan 1,3 miliar parameter, yang dapat diunduh secara gratis di Hugging Face, GitHub, serta komunitas sumber terbuka Alibaba Cloud, ModelScope.








