科技/计算机/人工智能

对话Arm终端副总裁:Lumex CSS如何引领端侧AI计算革新?

阅读时长 26 min
作者:技术特派员

10月30日,ArmUnlocked2025 AI技术峰会终于来到了深圳。作为Arm与国内科技公司、芯片合作伙伴、行业专家以及开发者们的交流盛会,此次大会设有软件和产品展示区,同时也设置了消费电子、智能汽车、边缘AI、基础设施和开发者等多个专场论坛,聚焦 AI 计算在这些关键领域的前沿技术创新与产业落地实践。



Arm架构作为目前计算领域运用最广泛的架构之一,可以说已然渗透到各行各业,特别是Arm架构在能效和AI性能层面的优势,使其成为AI时代各类设备的最佳选择之一,因此,此次大会也是吸引了众多关注,雷科技也应邀前往深圳会场,给大家带回一手报道。

Arm LumexCSS来了,面向AI时代而生

在ArmUnlocked深圳现场,Arm终端事业部产品管理副总裁JamesMcNiven详细介绍了Arm LumexCSS平台的架构与性能提升。该平台是Arm面向旗舰智能手机和下一代个人计算设备推出的计算子系统平台,采用“AI优先”(AI-first)的全新设计理念。

Arm LumexCSS基于最新的Arm v9.3-A架构打造,这也使其与前代相比有众多的升级,比如全新的C1系列CPU集群和全新的SME2矩阵扩展指令集,这也是Arm首次将专用矩阵运算加速单元直接集成到CPU核心。



让我们先来聊聊C1系列CPU集群。作为Arm LumexCSS的核心,C1 CPU 集群采用3nm制程工艺打造,IPC再次实现了双位数百分比的性能提升。同时,该平台还为开发者准备了更多的CPU产品矩阵,让开发者可以根据需求更细致地定制CPU设计,深度适配不同场景、设备的需求。

其中,作为旗舰级CPU的Arm C1-Ultra超大核相比前代Cortex-X925,在单线程峰值性能上提升高达25%,拥有了更强的处理能力。而主打高效性能平衡的Arm C1-Pro大核相较上一代Cortex-A725,在相同主频下持续性能提升16%的,并在实现相同性能输出的情况下,能效提升幅度达到 12%。

除此之外,Arm这次也介绍了两款针对不同细分市场的新内核,其中面向次旗舰手机设备的Arm C1-Premium比Arm C1-Ultra在性能接近的情况下面积缩小约35%,显著降低芯片成本。面向穿戴设备的Arm C1-Nano,则完全是把能效最大化作为首要目标,让迷你设备也能拥有足够的性能。

而且,Arm LumexCSS还拥有全新的MaliG1-UltraGPU,除了在图形和AI推理等方面得到双位数百分比的性能提升外,还集成了第二代光线追踪技术 (RTUv2),使移动端GPU的光线追踪性能相比上代提升两倍。



可以说,单看硬件性能,Arm LumexCSS就已经相当不错了,而这一代平台的最大升级亮点,恰恰在于硬件背后的矩阵扩展技术,也就是我们前面提到过的SME2。

得益于SME2,CPU在AI推理方面实现了至多5倍的性能提升,同时在相同功耗下达到3倍的能效优化。据Arm公布的数据,通过SME2内置加速,语音识别等延迟敏感任务的响应速度大幅提高,在测试中,语音类工作负载延迟降低了4.7倍,音频生成速度提升2.8倍,使得AI翻译、AI会议纪要等方面的体验得到显著提升。

当然,SME2所带来的提升并不止于此,其更大的意义在于让CPU也可以承担AI推理的任务,如此一来即使移动平台本身没有配备高性能NPU,也能够得到足够的AI性能来运行AI应用或服务。

SME2依托ArmCPU这一通用架构,使开发者无需针对各式NPU做额外适配或重写算法,大多数移动设备上都能直接运行统一的CPU端AI计算。这一点极大降低了端侧AI应用的开发门槛和推广成本。简言之,SME2让通用计算平台承担AI推理,为开发者提供了一个“一次开发、广泛适用”的便利途径。



可以说,Arm LumexCSS平台成功实现了性能、能效与灵活性的三管齐下。在相同功耗预算下,该平台较前代实现了五倍AI性能提升且显著降低能耗,让开发者能够在不牺牲电池续航的前提下部署更大更复杂的模型。

同时,Arm LumexCSS也能为端侧设备提供了充分的算力盈余去支撑实时翻译、智能助手、本地大模型推理等新兴AI应用。在雷科技看来,Arm Lumex CSS就是为AI时代打造的全新平台,通过系统级协同设计和软硬件结合,Arm将让AI计算变得无处不在且更加高效普及。

直面Arm终端副总裁:Lumex还有哪些亮点?

在主题演讲及会议结束后,雷科技也得到了采访Arm 终端事业部产品管理副总裁 James McNiven的机会,并且提问了一个雷科技读者非常关注的问题:

本次发布的第二代光线追踪单元实现了两倍的性能提升。您如何看待这一改进对移动游戏生态的影响?此外,是否有可能通过人工智能技术,使原本不支持光线追踪效果的游戏也能够呈现出类似的视觉体验?

amesMcNiven回答称,第二代光线追踪单元的核心价值在于大幅扩展了游戏开发者在光照效果上的创作空间。过去由于性能所限,手游中的光线追踪只能应用于局部场景,而随着性能翻番,开发者有望逐步实现全场景的实时光线追踪,带来更加全面、自然的光影呈现。

他举例说,在UnrealEngine5的内部测试场景中,去年采用传统光追时渲染帧率仅约26~27FPS,而在尝试将光追计算改为软件实现后,虽然理论性能提高,但画面质量并未同步改善。而全新的MaliG1-Ultra在同一场景下帧率提升了约40%,并且光照效果更加真实、细腻。



这证明了硬件级光追在性能和精确度上具有明显优势,能够实现“更高帧率下的更高画质”。随着移动GPU光追能力的攀升,手游中的光影表现有望接近主机游戏的水准,这将极大提升高端玩家对移动平台的认可度。

至于“能否通过AI让不支持光追的游戏呈现类似视觉效果”的提问,McNiven表示这是“可以期待”的方向。他解释道,借助神经网络等AI技术,有机会为游戏图形渲染带来更多创新。例如,通过训练特定模型,AI可以在传统光栅化画面上模拟出更高级的光影与细节效果,弥补原始画面的不足。

当然,具体效果取决于所使用的模型,但总体可以预见:未来AI驱动的图形渲染将在光照表现上取得巨大突破。不过他也坦言,就当前而言,硬件原生光追在精确度和画质上仍有不可替代的优势,AI渲染暂时是补充而非完全替代。

同时,作为一名游戏爱好者,McNiven表示他本人对神经图形技术充满期待,希望看到它在移动平台上释放更大的潜能与创意。

除此之外,James McNiven也回答了不少关于SME2的提问,表示SME2将矩阵加速能力直接集成进CPU,不仅大幅降低了延迟,更具备广泛的适配性和部署灵活性,开发者无需为不同设备重复适配,有助于AI应用快速落地。

James McNiven还指出Arm的C1架构在处理快速迭代的AI模型时,展现出强大的通用性和计算弹性,也进一步凸显CPU在异构计算体系中的重要角色。同时,针对未来端侧AI的“杀手级”应用潜力,Arm认为游戏和个性化助理等场景将成为推动消费者换机的核心动力,而LumexCSS已经为此做好准备。

以腾讯和vivo等合作案例为例,SME2已在AI NPC、语音交互、本地推荐等功能中展现出显著成效。James McNiven表示,Arm正通过软硬件协同和系统级优化,为用户带来更沉浸、更智能的使用体验,同时也加速AI从云端走向终端的变革。

在雷科技看来,随着AI逐渐成为智能终端的核心卖点,用户对于设备性能的关注点也从传统的处理速度转向了AI能力的强弱,而Arm正是这个浪潮背后最具话语权的推手。

🎮