Inovasi Intel Buat Inferensi AI 2,8 Kali Lebih Cepat

(Source: Intel)

Model bahasa besar menjadi bagian penting dalam berbagai aplikasi kecerdasan buatan (AI). Namun, proses inferensi atau pembentukan jawaban oleh model bahasa besar seringkali memerlukan banyak sumber daya komputasi dan waktu yang lama. Ini menghambat penggunaan model bahasa besar secara luas, terutama dalam lingkungan yang memiliki keterbatasan sumber daya atau membutuhkan respons yang sangat cepat. 

Trobosan Dari Intel Dan Weizmann

Sebagai solusi, peneliti dari Intel Labs dan Weizmann Institute of Science telah memperkenalkan metode baru dalam speculative decoding. Terobosan ini, yang dipresentasikan pada International Conference on Machine Learning (ICML), memungkinkan model draf kecil dan cepat untuk mempercepat model bahasa besar apa pun, terlepas dari perbedaan kosakata di antara keduanya.

Teknik speculative decoding ini bekerja dengan menggabungkan model kecil yang cepat dengan model besar yang lebih akurat, menciptakan upaya tim antara kedua model. Sebagai ilustrasi, ketika sebuah model AI menerima perintah seperti “Apa ibu kota Prancis…”, model bahasa besar tradisional akan menghasilkan setiap kata selangkah demi selangkah. Dengan speculative decoding, model asisten yang kecil dengan cepat menyusun draf frasa lengkap “Paris, sebuah kota terkenal…”. 

Model Terbaru 2,8 Lebih Cepat

Metode universal oleh Intel dan Weizmann Institute ini menghilangkan batasan kosakata bersama atau keluarga model yang dilatih bersama, membuat speculative decoding menjadi praktis di berbagai model yang heterogen. Ini memberikan peningkatan kinerja hingga 2,8 kali lebih cepat dalam inferensi tanpa mengorbankan kualitas keluaran. Selain itu, teknik ini berfungsi di seluruh model dari pengembang dan ekosistem yang berbeda, menjadikannya tidak bergantung pada vendor mana pun. Ini juga telah tersedia secara open source melalui integrasi dengan pustaka Hugging Face Transformers.

Oren Pereg, peneliti senior, Natural Language Processing Group, Intel Labs, mengatakan, “Kami telah memecahkan ketidakefisienan inti dalam AI generatif. Penelitian kami menunjukkan bagaimana mengubah akselerasi spekulatif menjadi alat universal. Ini bukan hanya peningkatan teoritis, ini adalah alat praktis yang telah membantu para pengembang untuk membangun aplikasi yang lebih cepat dan lebih cerdas saat ini.”