首页> 观察 > 科技 > 正文

存储成本压力上升期,面壁智能1.58-bit模型能缓解“显存焦虑”吗?

2026-05-25 15:30来源: 界面新闻        作者:伍洋宇

分享至

“如何用最便宜的芯片跑出最大的智能,这就是端侧模型最核心的问题。”

5月25日,面壁智能联合清华大学、OpenBMB开源社区正式发布BitCPM-CANN。这是一个基于国产算力平台原生训练并开源的1.58-bit三值权重大模型系列,涵盖0.5B、1B、3B、8B四种尺寸版本。

相比BF16精度,BitCPM的1.58-bit技术意义在于,通过将权重限制在-1、0、1三个值,释放推理侧约6倍的显存,让设备在同等物理内存约束下运行更大参数规模模型。例如,过去只能跑4B模型的芯片,可以在同样内存消耗下运行8B模型。

BitCPM-CANN的发布正值全球半导体供应链的动荡期。高盛近期报告指出,受AI服务器需求爆发影响,继续上调2026年存储价格预期,DRAM涨幅250%-280%,NAND涨幅200%-250%,HBM因技术门槛与产能约束涨幅更高。

面壁智能AI Infra负责人李宇轩在接受界面新闻等媒体采访时指出,内存成为了大模型行业的稀缺资源,其价格在过去一年内翻了约5倍,这导致手机及终端厂商在产品迭代中存在显存焦虑。

对此,原生低比特训练的端侧AI模型,能够有效平衡AI性能与显存消耗吗?

据界面新闻记者了解,针对该问题的传统方法是后训练量化,即先用高精度(如 BF16)完成模型训练,再将其权重压缩至INT8或INT4,但性能损失问题较为突出。

面壁智能的方案是先通过量化感知训练(QAT)让模型进入稳定的收敛态,随后再引入全精度模型进行知识传递。由于低比特模型对数据质量极度敏感,团队通过更精细的数据配比与教师模式,以抵消位宽压缩带来的信息损失。

在训练范式上,李宇轩将这一先量化、再蒸馏的策略比作教导一个天资有限但勤奋的学生,如果过早引入复杂的蒸馏机制,模型反而难以收敛。

此外,李宇轩认为,从技术逻辑上看,1.58-bit被视为模型压缩的“数学甜蜜点”。虽然1-bit(二值)理论上压缩比更高,但无法同时兼顾数学表达的对称性与含零特性,导致精度损失巨大。相比之下,1.58-bit能在保持极致压缩比的同时,最大限度保留权重的表达丰富度。

数据显示,BitCPM系列模型在常识、阅读理解等11项核心任务中,保留了全精度模型90%至97%的能力。“如何用最便宜的芯片跑出最大的智能,这就是端侧模型最核心的问题。”李宇轩强调,“1.58-bit是单位内存占用下,知识密度承载量最优的状态。”

针对行业对精度损失的普遍担忧,李宇轩表示,低比特带来的退化是平缓而非断崖式的,通过后训练技术可以将损失引导至非核心场景,从而保证总结、交互等端侧核心体验不降级。

我举个例子,手机AI对代码能力要求不高,我们就可以尽可能把这部分损失通过后训练引导到代码能力上,把重点放在客户关注的指标上。”李宇轩说。

站在商业化角度,BitCPM的上端目标仍然是手机、车机等。李宇轩预判,随着低比特技术与稀疏化(MoE)技术的叠加,更大规模模型(如60B)有望在明年上端,进一步拉近端侧与云端的智能差距。

此次BitCPM的另一个突破还在于其国产算力属性。此前,极低比特模型训练依赖英伟达CUDA生态进行算法验证,而BitCPM从量化算子、训练算法到全链路框架均在华为昇腾原生环境中完成。

李宇轩告诉界面新闻记者,适配国产算力的主要挑战不在硬件,而在软件生态。面对编程环境差异,面壁团队利用大概一个月时间才打通底层软件栈。他认为,这次突破证明了国产芯片有能力承载复杂的低比特预训练算法,实现国产模型、框架与芯片的协同。


微信公众号

微信公众号

手机版