(Source: Freepik)
SenseTime memperkenalkan SenseNova V6, model multimodal generasi terbaru yang diklaim sebagai paling canggih di China dengan biaya pelatihan dan inferensi terendah. Model ini menggabungkan kemampuan reasoning panjang, analisis data, dan pemahaman video hingga 10 menit.
SenseNova 6 mengalahkan GPT-4o dalam kemampuan analisis data dan meraih peringkat pertama di China untuk penalaran multimodal. Fitur global memory dengan kompresi cerdas memungkinkan pemrosesan video hingga 10 menit. Pemahaman video berdurasi panjang ini merupakan terobosan pertama di China.
Teknologi kompresi content-aware dynamic filtering, SenseNova V6 mengubah video 10 menit menjadi 16K token tanpa kehilangan makna kunci. Model ini juga bisa menyunting video, mengambil highlight, dan memahami konteks multimodal, baik visual, audio, maupun teks.
“Tujuan AI yang sebenarnya dapat ditemukan dalam kehidupan kita sehari-hari. SenseNova V6 telah melampaui batas-batas multimodalitas, membuka kemungkinan yang tak terbatas dalam penalaran dan kecerdasan,” kata Dr. Xu Li, Chairman dan CEO, SenseTime,
SenseNova V6 diterapkan untuk menyelesaikan tugas-tugas rumit di dunia nyata. Contohnya, dalam klaim asuransi kesehatan, model ini mampu mendeteksi resep yang tidak diperlukan, kekurangan dokumen, atau ketidaksesuaian persyaratan. Kemampuan reasoning multimodalnya juga digunakan untuk analisis dokumen bisnis, membantu ekstraksi informasi secara cepat dan akurat.
Sebagai model interaksi real-time pertama di China, model ini menggabungkan pemahaman emosional dan ekspresi mirip manusia. SenseNova V6 Omni telah diadopsi di berbagai sektor, termasuk pada agen fisik yang berinteraksi di lingkungan nyata.