Claude Rilis Fitur Uji Skill AI Agent

devadmin
10 jam yang lalu

Fitur baru skill-creator dari Anthropic Claude membantu pembuat instruksi AI menguji dan meningkatkan performa asisten digital tanpa perlu menulis kode.

Banyak pembuat skill untuk asisten AI berasal dari kalangan ahli bidang tertentu, tanpa memiliki latar belakang pemrograman. Mereka memahami alur kerja dengan baik, namun sering kesulitan memastikan apakah instruksi yang mereka tulis benar-benar berjalan sesuai rencana.

Masalah biasanya muncul ketika model AI diperbarui atau ketika instruksi tidak aktif pada saat dibutuhkan. Tanpa alat ukur yang jelas, pembuat skill hanya bisa menebak apakah perubahan yang mereka lakukan meningkatkan kualitas hasil atau justru menurunkannya.

Platform skill-creator dari Anthropic Claude kini menghadirkan pendekatan baru yang membawa praktik pengujian perangkat lunak ke dalam proses penulisan instruksi AI. Sistem ini memungkinkan pengguna memverifikasi kinerja skill mereka secara mandiri tanpa perlu menyentuh kode teknis.

Dalam kerangka ini, skill AI umumnya terbagi menjadi dua kategori utama:

Peningkatan Kemampuan
Skill membantu model AI melakukan tugas yang sebelumnya sulit dilakukan secara konsisten, seperti menghasilkan dokumen dengan struktur rapi atau format tertentu.
Preferensi Terarah
Skill digunakan untuk mendokumentasikan alur kerja tim atau organisasi, misalnya pemeriksaan dokumen hukum berdasarkan standar internal perusahaan.

Salah satu fitur utama yang diperkenalkan Anthropic adalah sistem evaluasi otomatis. Pengguna cukup menentukan skenario pengujian dan standar keberhasilan yang diinginkan. Sistem kemudian menjalankan tes untuk memastikan tidak terjadi penurunan kualitas pada hasil yang dihasilkan AI.

Selain evaluasi, tersedia juga mode benchmark yang memantau performa secara menyeluruh. Sistem ini melacak tingkat keberhasilan pengujian, waktu proses, hingga penggunaan sumber daya data sehingga pengguna dapat melakukan perbaikan berdasarkan data yang objektif.

Platform ini juga mendukung penggunaan agent paralel untuk menjalankan beberapa pengujian sekaligus tanpa mencampur konteks antar eksperimen. Fitur pembanding turut disediakan untuk menilai dua versi instruksi secara anonim dan menentukan mana yang menghasilkan performa terbaik.