Qualcomm Luncurkan Solusi Inferensi AI Generasi Terbaru

devadmin
23 jam yang lalu

Qualcomm meluncurkan AI200 dan AI250, solusi inference AI skala rack generasi baru untuk pusat data dengan efisiensi energi tinggi, TCO rendah, dan dukungan penuh untuk model LLM dan LMM generatif.

Kebutuhan akan kemampuan inferensi AI yang cepat dan hemat biaya di pusat data meningkat pesat seiring dengan meluasnya implementasi generative AI di berbagai industri. Untuk menjawab kebutuhan tersebut, Qualcomm Technologies, Inc. meluncurkan solusi inferensi AI generasi terbaru untuk pusat data, yang termasuk di dalamnya adalah kartu akselerator dan rack berbasis chip Qualcomm AI200 dan AI250. Solusi ini menawarkan kinerja skala rack dan kapasitas memori tinggi untuk inferensi AI yang cepat dengan efisiensi kinerja per dolar per watt terbaik di kelasnya. Tujuan utamanya adalah menghadirkan AI Generatif yang terukur, hemat energi, dan fleksibel di berbagai sektor industri dengan total cost of ownership (TCO) yang rendah.

Qualcomm AI200 menghadirkan solusi inferensi AI tingkat rack yang dirancang khusus untuk mencapai TCO rendah dan kinerja optimal dalam menjalankan model bahasa besar dan model besar multimodal. AI200 mendukung hingga 768 GB LPDDR per kartu, memberikan kapasitas memori lebih tinggi dan biaya yang lebih efisien, sehingga memungkinkan skala dan fleksibilitas luar biasa untuk berbagai beban kerja inference AI.

Sementara itu, Qualcomm AI250 memperkenalkan arsitektur memori inovatif berbasis near-memory computing yang memberikan lompatan generasi dalam efisiensi dan kinerja workload inference AI. Arsitektur ini menawarkan bandwidth memori efektif lebih dari 10 kali lipat dan konsumsi daya jauh lebih rendah, memungkinkan inference AI yang terpisah untuk pemanfaatan hardware yang lebih efisien sekaligus memenuhi kebutuhan kinerja dan biaya pelanggan.

Qualcomm AI200 dan AI250

Kedua solusi rack ini dirancang untuk pusat data modern dengan direct liquid cooling untuk efisiensi termal. PCIe digunakan untuk scale up dan Ethernet untuk scale out. Fitur confidential computing turut disertakan untuk melindungi workload AI, dengan konsumsi daya tingkat rack sekitar 160 kW.

Durga Malladi, SVP & GM, Technology Planning, Edge Solutions & Data Center di Qualcomm, mengatakan, “Dengan Qualcomm AI200 dan AI250, kami mendefinisikan ulang batas kemungkinan inference AI skala rack. Solusi infrastruktur AI inovatif ini memungkinkan pelanggan menerapkan AI dengan TCO tak tertandingi, sambil mempertahankan fleksibilitas dan keamanan yang dibutuhkan pusat data modern.”

Untuk mempercepat adopsi dan inovasi, Qualcomm menyediakan AI software stack tingkat hyperscaler yang dioptimalkan untuk inferensi. Stack ini mendukung framework machine learning terkemuka, inference engine, framework AI generatif, dan teknik optimasi inference LLM/LMM seperti disaggregated serving. Pengembang dapat dengan mudah mengintegrasikan dan menyebarkan model terlatih melalui Efficient Transformers Library dan Qualcomm AI Inference Suite, termasuk dukungan one-click deployment dari Hugging Face.