基础研究 6月前 • 811 阅读 • 0 评论

微信AI新研究推翻「预测下一个token」范式

作者头像

量子位

AI技术专栏作家 | 发布了 246 篇文章

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

大模型一个token一个token生成，效率太低怎么办？

微信AI联手清华大学，提出了一个新的解法：

一个token能装下的信息太少，不如把它们打包成连续向量，让大模型从预测下一个token，转变为预测下一个向量。

研究团队给这种新范式取名CALM（连续自回归语言模型）。

实验表明，将K个词元压缩成一个连续向量，可以将语言模型建模为一系列连续向量，生成步骤减少至原来的1/K。

这样一来，模型就能在平衡性能和计算成本时，实现更高的性价比。

有网友认为，这种方法看上去越来越接近大脑实际处理上下文的方式。

还有网友提出，CALM像是DeepSeekOCR/Glyph的改进版。

提升每个预测单元的语义带宽

研究人员指出，预测下一个token的现有模型范式，一开始是因为基于字符级运行的模型计算量太大而被提出的。

也就是说，方法背后的关键思想是：提升每个文本单元的信息密度，能够缩短序列长度并显著提升模型效率。

进一步挖掘本质，可以总结出一条提升大模型生成效率的有效途径：持续提升每个预测单元的语义带宽。

问题在于，如果想让一个token装更多的信息，就得把词表做得超大，反而会让计算量和存储成本爆炸。

微信AI和清华大学团队想了个办法：把多个token打包成一个连续向量，让模型每次处理一个向量，而不是一个token。这样一来，比如一个序列的长度为T，将K个token打包为1个向量，序列长度就会缩短为T/K。

他们设计了一个高保真自编码器，能将K个token压缩成一个连续向量，并能以超过99.9%的准确率从中重构原始token。

连续自回归语言模型

不过，从处理token向处理向量转变，还面临着一个重大挑战：

由于不存在有限词汇表，模型将无法借助标准的softmax层，对所有可能结果计算出明确的概率分布。

这也就意味着，需要为此开发全新的建模工具。

于是，研究团队提出了CALM——一套完整的、无需依赖概率似然的框架。

△CALM框架

无似然语言建模

训练方面，CALM采用“能量损失”来教模型学习连续向量。

不用算概率，而是改用“能量分数”来判断模型生成的向量好不好。

具体来说，为了实现连续向量生成，研究人员采用轻量级生成头作为模型的核心输出组件。该生成头以最后一个隐藏状态为条件，来生成输出向量。

同时，为避免迭代式采样过程造成新的推理瓶颈，研究人员引入了Energy Transformer。

Energy Transformer专为连续向量的高效单步生成设计，无需迭代，仅需1步计算即可输出连续向量。

能量损失是CALM训练Energy Transformer时用的损失函数，不依赖概率计算，而是用“距离”和“多样性约束”两个维度判断向量质量——既让生成的向量贴近真实值，又避免模型只会生成一种向量。

无似然语言模型评估

不算概率了，困惑度（Perplexity）这个评估指标也就不好用了。

为此，研究人员提出了BrierLM，一种基于布里尔分数的新型语言模型评估指标。

只需从模型中抽取样本，就能无偏地估算出BrierLM值。

实验证明，BrierLM值和困惑度高度相关，能保证对模型能力的公平比较。

无似然温度采样

现在流行的大语言模型是通过温度采样来实现可控生成的，但这同样依赖于概率分布。

CALM提出了无似然温度采样，这一算法基于拒绝采样，通过调整样本的接受概率来实现温度控制。

实验结果：更具性价比

研究人员通过实验验证，CALM在平衡性能和计算成本时更有性价比。

在标准语言建模任务上，CALM-M（K=4，参数量371M）在性能上与Transformer-S（281M参数）相当，但训练浮点运算数（FLOPs）减少了44%，推理FLOPs减少了34%。

模型越大，CALM的优势越明显。并且随着语义带宽K的增加，CALM的性能-效率比也会更优。

不过，研究人员也提到，压缩的token数K太多时，反而会导致性能下降，可能需要更换更大的模型。

论文地址：
https://arxiv.org/abs/2510.27688

— 完 —

量子位 QbitAI · 头条号

关注我们，第一时间获知前沿科技动态签约

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

OpenAI新论文拆解语言模型内部机制：用「稀疏电路」解释模型行为

OpenAI新论文拆解语言模型内部机制：用「稀疏电路」解释模型行为

6月前 • 基础研究

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 基础研究

微信AI新研究推翻「预测下一个token」范式

微信AI新研究推翻「预测下一个token」范式

6月前 • 基础研究

清华、NVIDIA、斯坦福提出：基于前向过程的扩散强化学习新范式

清华、NVIDIA、斯坦福提出：基于前向过程的扩散强化学习新范式

7月前 • 基础研究

几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

8月前 • 基础研究

北京大学提出分布驱动的终身学习范式，用结构建模解决灾难性遗忘

北京大学提出分布驱动的终身学习范式，用结构建模解决灾难性遗忘

8月前 • 基础研究

智源研究院开源原生全双工语音大模型RoboBrain-Audio

智源研究院开源原生全双工语音大模型RoboBrain-Audio

8月前 • 基础研究

关于AI幻觉，或许你想知道的，都在OpenAI这篇关于模型幻觉的论文里

关于AI幻觉，或许你想知道的，都在OpenAI这篇关于模型幻觉的论文里

8月前 • 基础研究

热门标签

AI论文生成器 Keyshot AI画画品牌产品词:Bixby 供应链 AI检测优化 Matrix3D 50年代虚拟现实解谜游戏

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝