通義大模型落地手機芯片離線環境可流暢運行多輪AI對話-科技-極速新聞-每日看看

通義大模型落地手機芯片離線環境可流暢運行多輪AI對話

2024-03-28 09:44 由環球網發佈於科技 509

【環球網報道記者李文瑤】3月28日，阿里雲與半導體公司MediaTek聯合宣佈，通義千問18億、40億參數大模型已成功部署進天璣9300移動平臺，可離線流暢運行即時且精準的多輪AI對話應用，連續推理功耗增量不到3W，實現手機AI體驗的大幅提升。

這是通義大模型首次完成芯片級的軟硬適配，僅依靠終端算力便能擁有極佳的推理性能及功耗表現，標誌着Model-on-Chip的探索正式從驗證走向商業化落地新階段。

端側AI是大模型落地的極具潛力的場景之一。利用終端算力進行AI推理，可大幅降低推理成本、保證數據安全並提升AI響應速度，讓大模型可以更好地爲用戶提供個性化體驗。然而，要將大模型部署並運行在終端，需完成從底層芯片到上層操作系統及應用開發的軟硬一體深度適配，存在技術未打通、算子不支持、開發待完善等諸多挑戰。

據瞭解，通義千問18億參數開源大模型，在多個權威測試集上性能表現遠超此前SOTA模型，且推理2048 token最低僅用1.8G內存，是一款低成本、易於部署、商業化友好的小尺寸模型。天璣9300集成MediaTek第七代AI處理器APU790，生成式AI處理速度是上一代AI處理器的8倍。

阿里巴巴通義實驗室業務負責人徐棟介紹稱，阿里雲與MediaTek在模型瘦身、工具鏈優化、推理優化、內存優化、算子優化等多個維度展開合作，實現了基於AI處理器的高效異構加速，真正把大模型“裝進”並運行在手機芯片中，給業界成功打樣端側AI的Model-on-Chip部署新模式。

基於天璣9300芯片，通義千問18億參數大模型在推理方面表現出了極佳的性能與功耗表現，推理時CPU佔有率僅爲30%左右，RAM佔用少於2GB，推理速度超過20tokens/秒，系列指標均達到業界領先水平，可在離線環境下流暢實現多輪AI對話。據瞭解，相關成果將以SDK的形式提供給手機廠商和開發者。

此外，雙方團隊也已完成了通義千問40億參數大模型與天璣9300的適配，未來還將基於天璣適配70億等更多尺寸大模型，“打樣”並支持開發更多AI智能體及應用。