(Source: Landing AI)
Model bahasa-vision (VLM) seperti GPT-4o atau Claude-3.5 telah menunjukkan kemampuan luar biasa dalam tugas berbasis teks. Namun, keduanya masih mengalami kesulitan menyelesaikan masalah visual yang membutuhkan penalaran spasial dan kontekstual. Ketika diberi tugas menghitung jumlah kaleng yang hilang dengan pola susunan 5 baris dan 7 kolom dalam gambar, VLM memberikan jawaban yang salah seperti dua kaleng hilang atau bahkan 12 kaleng hilang, padahal jawaban yang benar adalah empat. VisionAgent dari LandingAI, sebagai solusi agentic framework yang menggabungkan perencanaan, pemilihan alat, dan pola desain visual, berkemampuan mengatasi keterbatasan ini dan memberikan jawaban dengan tepat.
VisionAgent mengadopsi pendekatan modular dengan membagi masalah visual menjadi sub-tugas yang terstruktur. Untuk menghitung kaleng soda yang hilang, sistem ini pertama-tama menggunakan alat deteksi obyek, seperti CountGD, untuk menemukan lokasi kaleng, lalu membangun pola susunan, dan akhirnya membandingkan hasil deteksi dengan susunan untuk mengidentifikasi celah kosong. Proses ini melibatkan tiga komponen utama: (1) pemilihan alat yang optimal, (2) penyusunan sub-tugas, dan (3) penerapan pola desain visual. Menggunakan cara ini, VisionAgent mengotomatiskan alur kerja yang biasanya membutuhkan intervensi manusia intensif.
Keunggulan VisionAgent lainnya adalah kemampuannya menghasilkan kode siap pakai dari prompt pengguna. Pengguna cukup memberikan instruksi seperti, “deteksi sayuran di dalam dan sekitar keranjang”, selanjutnya VisionAgent akan merencanakan langkah-langkah seperti klasifikasi warna, deteksi posisi relatif, dan segmentasi obyek. Sistem ini didukung pustaka alat (tools library) seperti countgd_object_detection untuk menghitung objek atau overlay_bounding_boxes untuk visualisasi hasil.
Berdasarkan evaluasi internal LandingAI, pendekatan agentik VisionAgent mengungguli model lainnya. termasuk Microsoft Florence-2 dan Google OWLv2 dengan skor F1 mencapai 79,7% (https://landing.ai/agentic-object-detection). Dalam tugas melakukan deteksi sayuran, VisionAgent menggunakan kombinasi Visual Question Answering (VQA) dan analisis warna untuk membedakan sayuran di dalam dan luar keranjang. Fleksibilitasnya saat diterapkan di skenario nyata memberikan keunggulan.
VisionAgent terus dikembangkan untuk mendukung deteksi multi-objek, pelacakan video, dan integrasi dengan platform seperti Streamlit. Dengan antarmuka web yang intuitif dan dukungan komunitas melalui Discord, alat ini membuka peluang bagi pengembang untuk membuat solusi visi komputer tanpa keahlian mendalam di bidang AI.