SubQ发布首个亚二次方LLM,支持1200万token上下文
「Subquadratic公司推出SubQ 1M-Preview模型,采用亚二次方架构,上下文窗口达1200万token,计算复杂度从二次方降至线性,显著提升长文本处理效率。」
Transformer架构在过去十年定义了AI的发展,ChatGPT中的“T”便源自于此。它解锁了现代语言理解、推理等能力,但一个根本性限制始终存在:计算需求随上下文长度呈二次方增长。这意味着,随着输入文本变长,模型需要比较每个token与其他所有token,计算量急剧膨胀,导致长输入并不总能可靠地提升信息利用效果。
业界此前通过RAG(检索增强生成)、分块策略、提示工程等变通方法应对这一瓶颈。例如,RAG系统先通过搜索引擎提取少量相关结果再送入模型,而非直接处理整个语料库。但这些方法并未改变底层的缩放行为,构建需要数百万token上下文的系统依然脆弱、昂贵且复杂。
Subquadratic公司今天宣布推出SubQ 1M-Preview,这是首个基于完全亚二次方架构的大语言模型。在该架构下,计算复杂度与上下文长度呈线性关系,而非二次方。这意味着,随着上下文增长,计算量不再爆炸式增加,从而使得极长上下文窗口成为实用现实。
SubQ 1M-Preview在研究中实现了1200万token的上下文长度,相比其他前沿模型,其注意力计算量减少了近1000倍。更重要的是,SubQ在长上下文测试中表现出色:在“大海捞针”(needle-in-a-haystack)和精确复制测试中达到了最先进水平,同时推理速度更快、成本更低。历史上,实现亚二次方往往以牺牲准确性为代价,降低成本也常伴随性能下降,但SubQ声称同时改善了所有这些指标。
Subquadratic公司同步推出了三款基于SubQ的产品:
- API:面向开发者和企业团队的全上下文API,支持直接调用SubQ的完整能力。
- SubQ Code:一款基于SubQ的编码代理,通过命令行界面运行。它能将整个代码库加载到单个上下文窗口中,使开发者能够一次性规划、执行和审查整个仓库的代码,无需多代理系统的协调开销。
- SubQ Search:一款长上下文搜索工具,提供类似Deep Research的能力,但响应速度接近聊天机器人。
这三款产品即日起通过私有测试版开放早期访问。Subquadratic公司CEO Justin Dangel表示:“SubQ的架构不仅突破了Transformer的上下文限制,还让百万级token的上下文成为实用现实。这将改变开发者构建AI应用的方式,从依赖变通方案转向直接处理完整信息。”
SubQ的发布标志着LLM架构的一次重要演进。传统Transformer的二次方计算复杂度长期制约着长文档分析、代码库理解、法律合同审查等场景。SubQ的线性缩放特性可能大幅降低这些场景的计算成本,并提升模型在极长输入下的准确性和一致性。
目前,SubQ的基准测试结果已在其官网公开,但完整的技术细节尚未披露。业界将密切关注其在实际应用中的表现,以及它是否能像Transformer一样推动新一轮AI创新。
来源:Heooo AI工具导航