Kling O1 Model AI Video Multimodal Terbaik Saat Ini

devadmin
2 bulan yang lalu

Kling O1 resmi meluncur sebagai model video multimodal terpadu pertama di dunia. Dengan konsistensi karakter tingkat industri, skill combo, dan antarmuka prompt multimodal, model ini menyatukan seluruh proses pembuatan dan penyuntingan video dalam satu alur terpadu.

Kuaishou Technology melalui Kling AI memperkenalkan Kling O1, yang diposisikan sebagai model video multimodal terpadu pertama di industri. Berbasis arsitektur Multimodal Visual Language (MVL), model ini menggabungkan pembuatan video berbasis referensi, text-to-video, start end frame generation, video in-painting, modifikasi video, style re-rendering, hingga shot extension dalam satu engine terpadu. Dengan pendekatan unified workflow, kreator tidak perlu lagi berpindah model untuk menyelesaikan proyek, karena seluruh generasi dan penyuntingan dilakukan dalam satu alur konsisten.

Antarmuka prompt multimodal Kling O1 memungkinkan penyuntingan tingkat lanjut melalui perintah percakapan sederhana. Tanpa masking atau keyframing manual, pengguna cukup mengetikkan instruksi seperti “hapus orang lewat,” “transisi dari siang ke senja,” atau “ganti bajunya.” Model kemudian menafsirkan logika visual dan melakukan rekonstruksi semantik hingga tingkat piksel, mencakup penggantian subjek, perbaikan konten, hingga penataan ulang gaya visual secara menyeluruh.

Latar yang Stabil serta Kemampuan Skill Combo

Kling O1 mengatasi tantangan terbesar dalam adopsi video AI, yaitu ketidakkonsistenan karakter dan latar antar shot. Dengan kemampuan “memori seperti sutradara,” model mempertahankan identitas subjek utama, properti, dan latar meski kamera bergerak dinamis. Pada skenario multi-subjek, Kling O1 mampu melacak tiap karakter secara mandiri, menjaga keaslian visual di setiap bingkai dan menghasilkan konsistensi tingkat industri.

Model ini juga mendukung Skill Combo, yang memungkinkan dua atau lebih operasi dijalankan sekaligus. Pengguna dapat menggabungkan penyisipan subjek dengan modifikasi latar, atau menghasilkan video dari gambar referensi sambil mengubah gaya artistik. Fitur ini memperluas fleksibilitas kreatif secara signifikan.

Untuk durasi, Kling O1 mendukung pembuatan video 3 hingga 10 detik, dan kemampuan first last frame juga akan diperluas ke rentang durasi yang sama.

Selain model video, Kling AI turut memperkenalkan Kling O1 Image Model. Model gambar ini mendukung hingga sepuluh referensi gambar dan menawarkan empat keunggulan utama, yaitu retensi fitur yang tinggi, detail editing yang presisi, kontrol gaya visual yang konsisten, serta keluaran kreatif yang ekspresif. Seluruh pipeline, dari pembuatan gambar dasar hingga penyuntingan detail lanjutan, dilakukan dalam satu alur terpadu.

Aplikasi Kreatif untuk Industri Kreatif

Dengan kemampuan generasi dan penyuntingan yang terintegrasi, Kling O1 cocok untuk berbagai skenario produksi. Dalam pembuatan film dan televisi, model ini menjaga kontinuitas karakter, kostum, dan properti secara konsisten lintas adegan. Untuk kreator media sosial, prompt sederhana seperti dapat menghasilkan rekonstruksi visual otomatis pada tingkat piksel.

Di ranah periklanan dan e-commerce, Kling O1 mengurangi biaya produksi yang biasanya memerlukan sesi pemotretan luring. Pengguna dapat mengunggah gambar produk, model, dan latar, kemudian menghasilkan berbagai video showcase dalam hitungan detik. Fitur virtual runway juga memungkinkan peragaan busana digital 24 jam sehari, dengan tekstur kain dan detail visual yang direplikasi secara realistis.

Inovasi ini didukung oleh arsitektur generatif terpadu berbasis Multimodal Transformer dengan multimodal comprehension dan long-context. Seluruh fungsi generasi, penyuntingan, dan pemahaman video disatukan dalam satu fondasi, menghasilkan workflow yang lebih efisien, stabil, dan siap produksi.