
(Source: Freepik)
Implementasi transformasi yang dibawa oleh kecerdasan buatan (AI) generatif sering terbentur kompleksitas infrastruktur dan kebutuhan sumber daya yang tinggi. Mengatasi tantangan ini, Red Hat menghadirkan Red Hat AI Inference Server, solusi yang bertujuan untuk mendemokratisasikan akses ke AI generatif di seluruh lingkungan cloud hibrida. Inovasi ini memungkinkan organisasi menjalankan model AI apa pun pada akselerator AI mana pun, di lingkungan cloud mana pun, dengan lebih cepat, efisien, dan hemat biaya.
“Inferensi adalah kekuatan sesungguhnya dari AI generatif, di mana interaksi pengguna ditanggapi dengan respons yang cepat dan akurat yang disampaikan oleh model tertentu. Tetapi hal ini harus disampaikan dengan cara yang efektif dan hemat biaya,” menurut Joe Fernandes, vice president dan general manager, AI Business Unit, Red Hat.
Red Hat AI Inference Server merupakan penawaran baru dalam Red Hat AI yang dibangun dari proyek komunitas vLLM yang andal dan diperkuat dengan integrasi teknologi Neural Magic. Sebagai inference server kelas perusahaan, solusi ini dirancang untuk memenuhi permintaan inferensi berperforma tinggi dan responsif dalam skala besar dengan tetap menjaga kebutuhan sumber daya tetap rendah. Red Hat AI Inference Server memberdayakan organisasi untuk menerapkan dan menskalakan AI generatif dalam produksi dengan lebih percaya diri, baik sebagai solusi mandiri maupun sebagai bagian terintegrasi dari Red Hat Enterprise Linux AI (RHEL AI) dan Red Hat OpenShift AI, dengan menyediakan lapisan inferensi umum yang mendukung berbagai model dan akselerator di berbagai lingkungan,.
Red Hat AI Inference Server hadir sebagai solusi inferensi terbuka yang direkayasa untuk kinerja tinggi dan dilengkapi dengan alat kompresi dan optimasi model terkemuka. Solusi ini memberdayakan organisasi untuk sepenuhnya memanfaatkan kekuatan transformatif AI generatif dengan memberikan pengalaman pengguna yang jauh lebih responsif dan kebebasan dalam memilih akselerator AI, model, dan lingkungan TI mereka.
Inovasi Red Hat AI Inference Server dikembangkan melalui proyek vLLM yang dimulai oleh University of California, Berkeley pada pertengahan tahun 2023. Proyek komunitas ini menghadirkan inferensi AI generatif dengan throughput tinggi, dukungan untuk konteks input yang besar, akselerasi model multi-GPU, dukungan untuk continuous batching, dan banyak lagi. Dukungan luas vLLM untuk model-model yang tersedia secara publik, ditambah dengan integrasi langsungnya dengan model-model frontier terkemuka seperti DeepSeek, Gemma dari Google, Llama, Llama Nemotron, Mistral, Phi, dan model penalaran kelas perusahaan terbuka seperti Llama Nemotron, menjadikannya standar de facto untuk inovasi inferensi AI di masa depan. Penyedia model frontier terkemuka semakin merangkul vLLM, memperkuat peran pentingnya dalam membentuk masa depan AI generatif.
Red Hat kemudian mengemas inovasi terdepan dari vLLM dan mengintegrasikannya ke dalam kapabilitas kelas perusahaan dari Red Hat AI Inference Server. Solusi ini tersedia sebagai penawaran kontainer mandiri atau sebagai bagian dari RHEL AI dan Red Hat OpenShift AI. Di seluruh lingkungan penerapan, Red Hat AI Inference Server menyediakan distribusi vLLM yang diperkuat dan didukung, dilengkapi dengan alat kompresi LLM cerdas untuk mengurangi ukuran model AI dasar dan yang telah disesuaikan secara signifikan, meminimalkan konsumsi komputasi sambil mempertahankan dan bahkan berpotensi meningkatkan akurasi model. Selain itu, repositori model yang dioptimalkan, yang dihosting di organisasi Red Hat AI di Hugging Face, menawarkan akses instan ke koleksi model AI terkemuka yang telah divalidasi dan dioptimalkan untuk penerapan inferensi, membantu mempercepat efisiensi hingga 2-4 kali lipat tanpa mengorbankan akurasi model.










