首页> 观察 > 科技 > 正文

存储成本压力上升期，面壁智能1.58-bit模型能缓解“显存焦虑”吗？

2026-05-25 15:30来源: 界面新闻作者：伍洋宇

分享至

微信 QQ 微博

“如何用最便宜的芯片跑出最大的智能，这就是端侧模型最核心的问题。”

5月25日，面壁智能联合清华大学、OpenBMB开源社区正式发布BitCPM-CANN。这是一个基于国产算力平台原生训练并开源的1.58-bit三值权重大模型系列，涵盖0.5B、1B、3B、8B四种尺寸版本。

相比BF16精度，BitCPM的1.58-bit技术意义在于，通过将权重限制在-1、0、1三个值，释放推理侧约6倍的显存，让设备在同等物理内存约束下运行更大参数规模模型。例如，过去只能跑4B模型的芯片，可以在同样内存消耗下运行8B模型。

BitCPM-CANN的发布正值全球半导体供应链的动荡期。高盛近期报告指出，受AI服务器需求爆发影响，继续上调2026年存储价格预期，DRAM涨幅250%-280%，NAND涨幅200%-250%，HBM因技术门槛与产能约束涨幅更高。

面壁智能AI Infra负责人李宇轩在接受界面新闻等媒体采访时指出，内存成为了大模型行业的稀缺资源，其价格在过去一年内翻了约5倍，这导致手机及终端厂商在产品迭代中存在显存焦虑。

对此，原生低比特训练的端侧AI模型，能够有效平衡AI性能与显存消耗吗？

据界面新闻记者了解，针对该问题的传统方法是后训练量化，即先用高精度（如 BF16）完成模型训练，再将其权重压缩至INT8或INT4，但性能损失问题较为突出。

面壁智能的方案是先通过量化感知训练（QAT）让模型进入稳定的收敛态，随后再引入全精度模型进行知识传递。由于低比特模型对数据质量极度敏感，团队通过更精细的数据配比与教师模式，以抵消位宽压缩带来的信息损失。

在训练范式上，李宇轩将这一先量化、再蒸馏的策略比作教导一个天资有限但勤奋的学生，如果过早引入复杂的蒸馏机制，模型反而难以收敛。

此外，李宇轩认为，从技术逻辑上看，1.58-bit被视为模型压缩的“数学甜蜜点”。虽然1-bit（二值）理论上压缩比更高，但无法同时兼顾数学表达的对称性与含零特性，导致精度损失巨大。相比之下，1.58-bit能在保持极致压缩比的同时，最大限度保留权重的表达丰富度。

数据显示，BitCPM系列模型在常识、阅读理解等11项核心任务中，保留了全精度模型90%至97%的能力。“如何用最便宜的芯片跑出最大的智能，这就是端侧模型最核心的问题。”李宇轩强调，“1.58-bit是单位内存占用下，知识密度承载量最优的状态。”

针对行业对精度损失的普遍担忧，李宇轩表示，低比特带来的退化是平缓而非断崖式的，通过后训练技术可以将损失引导至非核心场景，从而保证总结、交互等端侧核心体验不降级。

“我举个例子，手机AI对代码能力要求不高，我们就可以尽可能把这部分损失通过后训练引导到代码能力上，把重点放在客户关注的指标上。”李宇轩说。

站在商业化角度，BitCPM的上端目标仍然是手机、车机等。李宇轩预判，随着低比特技术与稀疏化（MoE）技术的叠加，更大规模模型（如60B）有望在明年上端，进一步拉近端侧与云端的智能差距。

此次BitCPM的另一个突破还在于其国产算力属性。此前，极低比特模型训练依赖英伟达CUDA生态进行算法验证，而BitCPM从量化算子、训练算法到全链路框架均在华为昇腾原生环境中完成。

李宇轩告诉界面新闻记者，适配国产算力的主要挑战不在硬件，而在软件生态。面对编程环境差异，面壁团队利用大概一个月时间才打通底层软件栈。他认为，这次突破证明了国产芯片有能力承载复杂的低比特预训练算法，实现国产模型、框架与芯片的协同。

微信公众号