SAM 3 dan SAM 3D Meta Bisa Lakukan Deteksi Objek dan Rekonstruksi 3D

devadmin
2 bulan yang lalu

SAM 3 dan SAM 3D resmi diluncurkan sebagai generasi terbaru Segment Anything Collection. SAM 3 menghadirkan segmentasi berbasis teks yang jauh lebih presisi, sementara SAM 3D memungkinkan rekonstruksi objek dan tubuh manusia dalam 3D hanya dari satu gambar.

Model-model sebelumnya dalam Segment Anything Collection masih mengandalkan petunjuk visual sederhana, dan AI sering kali kesulitan menautkan bahasa dengan komponen visual secara rinci. Banyak model hanya memahami label dasar seperti mobil atau bus, dan belum mampu mengenali konsep yang lebih spesifik berdasarkan deskripsi bahasa.

SAM 3 dirancang untuk mengatasi keterbatasan tersebut. Dengan dukungan petunjuk teks, pengguna kini bisa menulis deskripsi detail seperti topi bisbol merah dan model akan secara otomatis menandai semua objek yang cocok pada gambar atau video. Model ini juga dapat bekerja bersama multimodal large language models untuk memahami instruksi kompleks seperti orang-orang yang duduk tetapi tidak memakai topi bisbol merah.

Kemampuan ini membuka potensi generasi berikutnya dari alat media kreatif. Pada aplikasi pembuatan video Edits, Meta akan menghadirkan efek yang bisa diterapkan pada orang atau objek tertentu dalam video. Pengalaman kreasi berbasis SAM 3 juga akan hadir di Vibes pada aplikasi Meta AI dan di meta.ai.

Sebagai bagian dari peluncuran ini, Meta juga merilis model weights, benchmark dataset open vocabulary segmentation, dan research paper yang menjelaskan cara SAM 3 dibangun. Meta bekerja sama dengan Roboflow agar pengguna dapat melakukan anotasi data dan fine tuning SAM 3 sesuai kebutuhan.

Rekonstruksi Objek 3D dari Satu Gambar

SAM 3D memperluas kemampuan Segment Anything ke dalam ranah tiga dimensi. Terdiri dari dua model sumber terbuka, SAM 3D Objects untuk rekonstruksi objek dan pemandangan, serta SAM 3D Body untuk estimasi bentuk tubuh manusia. Kedua model ini menawarkan kinerja state of the art, dan SAM 3D Objects secara signifikan melampaui metode yang ada saat ini.

Meta juga memperkenalkan SAM 3D Artist Objects, dataset evaluasi baru yang dibuat bersama para seniman untuk mengukur kinerja rekonstruksi 3D secara lebih realistis dan menantang. Dataset ini menetapkan standar baru untuk penelitian 3D di masa depan.

Dalam praktiknya, teknologi ini telah digunakan pada fitur View in Room di Facebook Marketplace. Pengguna dapat melihat bagaimana dekorasi rumah seperti meja atau lampu akan terlihat di dalam ruangan mereka sebelum membeli.

Semua kemampuan ini dapat diakses publik melalui Segment Anything Playground. Tinggal unggah gambar atau video, dan pengguna bisa memberikan instruksi teks pendek untuk melakukan segmentasi objek menggunakan SAM 3, atau menggunakan SAM 3D untuk melihat adegan dari perspektif baru, menata ulang secara virtual, atau menambahkan efek 3D. Meta juga menyediakan template bawaan mulai dari efek praktis seperti pixelating wajah hingga efek kreatif seperti spotlight dan motion trails.