Cola DLM：字节跳动与何恺明团队开创语言建模新纪元

大语言模型的新范式：从离散token到连续语义空间

　　在2026年的科技前沿，大语言模型（LLM）的发展迎来了前所未有的转折点。传统的自回归模型一直以来依赖于“预测下一个token”的方式，这种方法开始受到越来越多研究者的质疑。如今，字节跳动与何恺明团队几乎同时提出的创新解决方案，将语言建模的重心从离散的token转向了连续的语义空间，为这一领域开辟了崭新的发展方向。

ColaDLM：分层架构重构语言生成

　　字节跳动推出的ColaDLM（Continuous Latent Diffusion Language Model）通过独特的分层架构重新定义了语言生成的过程。该模型的创新之处在于将文本生成拆解为两个独立的阶段：首先在连续的语义空间中构建潜在的表达形式，然后通过解码器将这些抽象的语义转化为具体的文字。这种设计使得模型不再直接依赖于token序列，而是将关注点转向了语义本身的组织与演化。

语义指纹：提升表征学习效率

　　根据实验数据显示，在参数规模达到20亿的情况下，ColaDLM展现出了比传统自回归模型更为稳定的扩展趋势。研究团队特别强调了表征学习的重要性，指出现有模型往往将不同表达方式的相同语义视为独立样本，导致了对相似模式的重复学习。而ColaDLM通过TextVAE架构提取文本的“语义指纹”，将离散的输入压缩为连续的潜在变量。这种处理方式使得模型能够更好地识别“我今天很开心”和“今天过得挺愉快”这两种表达背后的共同语义，而不是机械地记忆表面上的词序。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号