Cara Salesforce Pastikan Performa Agen AI Konsisten

(Source: Salesforce)

Meskipun AI mungkin mahir menulis esai atau menerjemahkan bahasa, keandalannya sering goyah saat mengeksekusi tugas dalam lingkungan bisnis yang penuh dinamika. Satu kesalahan dapat mengganggu operasi, merusak kepercayaan pelanggan, dan menimbulkan kerugian finansial atau reputasi.

Mengetahui kebutuhan akan AI yang dapat dipercaya dan bekerja secara konsisten dalam skala besar, Salesforce AI Research beroperasi dengan tiga pilar utama untuk mengatasi tantangan kecerdasan yang tidak merata. Pertama, riset dasar untuk mengidentifikasi tantangan industri, menciptakan tolok ukur baru, dan membangun model dengan pemahaman kontekstual yang lebih dalam. Kedua, inkubasi pelanggan, di mana prototipe diujicobakan bersama pelanggan dalam lingkungan simulasi nyata untuk mendapatkan umpan balik dan penyempurnaan berkelanjutan. Ketiga, inovasi produk, mengubah riset dan uji coba menjadi solusi tingkat perusahaan yang terbukti, memperkuat produk seperti Agentforce, Atlas Reasoning Engine, kemampuan Retrieval-Augmented Generation (RAG), dan Salesforce Trust Layer.

Untuk meningkatkan kecerdasan agen, Salesforce fokus pada penguatan kemampuan penalaran dan RAG, yang berfungsi memungkinkan AI mengakses, memahami, dan menerapkan informasi relevan secara real-time. Salah satu inovasinya adalah SIMPLE, yaitu benchmark publik berisi pertanyaan penalaran sederhana (mudah bagi manusia, sulit bagi AI) yang berfungsi mengukur dan membantu mengurangi tingkat kecerdasan tidak konsisten pada LLM. Selain itu, model embedding teks seperti SFR-Embedding ditingkatkan fungsinya untuk mengubah teks menjadi data terstruktur yang bermakna, meningkatkan akurasi pencarian informasi oleh AI dan memimpin benchmark MTEB.

Memperkuat kepercayaan pelanggan adalah prioritas utama, yang dapat dicapai melalui benchmarking ketat, pengujian berkelanjutan, dan pembatasan yang kuat. Salesforce memperkenalkan CRMArena, yaitu kerangka kerja benchmarking baru yang berfungsi mensimulasikan skenario CRM realistis untuk mengevaluasi kinerja, keamanan, dan keandalan agen AI secara komprehensif. Fungsi pembatas dalam Agentforce menetapkan batasan perilaku agen sesuai kebijakan bisnis, sementara Salesforce Trust Layer memberikan lapisan perlindungan ekstra. Untuk memperkuatnya, model baru seperti SFR-Guard dikembangkan, yang berfungsi meningkatkan deteksi toksisitas dan kepatuhan instruksi.

Salesforce juga berupaya meningkatkan keserbagunaan agen dengan tidak hanya bergantung pada LLM besar. Contohnya adalah keluarga model xLAM (Large Action Model), yang fungsinya bukan hanya memprediksi kata, tetapi memprediksi tindakan untuk eksekusi tugas dunia nyata yang lebih cepat. xLAM hadir dalam ukuran lebih kecil, menawarkan solusi ringan yang tetap kuat dalam perencanaan dan penalaran, bahkan mengungguli model lebih besar pada benchmark agen utama. Selain itu, keluarga model aksi multimodal TACO diluncurkan, berfungsi mengatasi masalah kompleks multi-langkah dengan menghasilkan rantai pemikiran-dan-tindakan, sehingga meningkatkan kemampuan AI dalam menafsirkan dan merespons permintaan rumit yang melibatkan berbagai jenis data.