SubQ发布首个亚二次方LLM，支持1200万token上下文

Transformer架构在过去十年定义了AI的发展，ChatGPT中的“T”便源自于此。它解锁了现代语言理解、推理等能力，但一个根本性限制始终存在：计算需求随上下文长度呈二次方增长。这意味着，随着输入文本变长，模型需要比较每个token与其他所有token，计算量急剧膨胀，导致长输入并不总能可靠地提升信息利用效果。

业界此前通过RAG（检索增强生成）、分块策略、提示工程等变通方法应对这一瓶颈。例如，RAG系统先通过搜索引擎提取少量相关结果再送入模型，而非直接处理整个语料库。但这些方法并未改变底层的缩放行为，构建需要数百万token上下文的系统依然脆弱、昂贵且复杂。

Subquadratic公司今天宣布推出SubQ 1M-Preview，这是首个基于完全亚二次方架构的大语言模型。在该架构下，计算复杂度与上下文长度呈线性关系，而非二次方。这意味着，随着上下文增长，计算量不再爆炸式增加，从而使得极长上下文窗口成为实用现实。

SubQ 1M-Preview在研究中实现了1200万token的上下文长度，相比其他前沿模型，其注意力计算量减少了近1000倍。更重要的是，SubQ在长上下文测试中表现出色：在“大海捞针”（needle-in-a-haystack）和精确复制测试中达到了最先进水平，同时推理速度更快、成本更低。历史上，实现亚二次方往往以牺牲准确性为代价，降低成本也常伴随性能下降，但SubQ声称同时改善了所有这些指标。

Subquadratic公司同步推出了三款基于SubQ的产品：

API：面向开发者和企业团队的全上下文API，支持直接调用SubQ的完整能力。
SubQ Code：一款基于SubQ的编码代理，通过命令行界面运行。它能将整个代码库加载到单个上下文窗口中，使开发者能够一次性规划、执行和审查整个仓库的代码，无需多代理系统的协调开销。
SubQ Search：一款长上下文搜索工具，提供类似Deep Research的能力，但响应速度接近聊天机器人。

这三款产品即日起通过私有测试版开放早期访问。Subquadratic公司CEO Justin Dangel表示：“SubQ的架构不仅突破了Transformer的上下文限制，还让百万级token的上下文成为实用现实。这将改变开发者构建AI应用的方式，从依赖变通方案转向直接处理完整信息。”

SubQ的发布标志着LLM架构的一次重要演进。传统Transformer的二次方计算复杂度长期制约着长文档分析、代码库理解、法律合同审查等场景。SubQ的线性缩放特性可能大幅降低这些场景的计算成本，并提升模型在极长输入下的准确性和一致性。

目前，SubQ的基准测试结果已在其官网公开，但完整的技术细节尚未披露。业界将密切关注其在实际应用中的表现，以及它是否能像Transformer一样推动新一轮AI创新。