(Source: Alibaba Cloud)
Alibaba telah merilis Qwen Image, model dasar pembuatan gambar yang mencapai terobosan signifikan. Model ini dapat membuat gambar yang rumit dengan presisi tinggi dari teks. Selain itu, Qwen Image memiliki keunggulan dalam penyuntingan gambar yang konsisten, secara efektif menjaga integritas semantik dan realisme visual selama proses penyuntingan. Hal ini menempatkan Qwen Image sebagai model terkemuka di bidangnya.
Qwen Image adalah model padat dengan 20 miliar parameter, menunjukkan kinerja luar biasa di berbagai tugas pembuatan dan penyuntingan gambar. Model ini kini bersifat sumber terbuka dan dapat diakses melalui Hugging Face, GitHub, ModelScope, dan Qwen Chat di bawah model Image Generation. Laporan teknis lengkap mengenai Qwen Image juga tersedia secara daring.
Hal ini dimungkinkan berkat pendekatan inovatif seperti rekayasa data yang komprehensif, strategi pembelajaran progresif, paradigma pelatihan multi-task yang ditingkatkan, dan optimasi infrastruktur yang terukur. Qwen Image unggul dalam skenario yang sulit, termasuk tata letak multi-baris, semantik tingkat paragraf, dan detail visual yang halus.
Qwen Image mencapai kemajuan signifikan dalam dua area utama yaitu menghasilkan gambar berkualitas tinggi dan beragam gaya dari perintah teks yang rumit, serta memungkinkan penyuntingan gambar yang peka terhadap konteks. Kemampuan penyuntingannya mencakup transfer gaya, penyuntingan teks, penggantian latar belakang, penambahan, penghapusan, atau substitusi objek, dan manipulasi pose, di antara fungsi lainnya. Dengan pemahaman mendalam tentang struktur linguistik yang rumit, model ini mampu menghasilkan keluaran yang menarik secara visual dan akurat secara semantik.