SubQ：线性复杂度LLM实现1200万Token上下文

在Transformer架构主导AI领域近十年后，一家名为Subquadratic的初创公司宣布推出首款完全基于亚二次方（subquadratic）架构的大语言模型SubQ，标志着LLM在上下文长度与计算效率上取得突破性进展。该模型将计算复杂度从传统Transformer的二次方增长降低为线性增长，并首次实现1200万token的上下文窗口，同时保持高精度。

传统Transformer模型的核心瓶颈在于其自注意力机制：每个token需要与序列中所有其他token进行交互，导致计算量随输入长度呈二次方增长。这一特性不仅限制了实际可处理的上下文长度，还使得长文本任务（如整库代码分析、法律文档审查、长视频理解等）成本高昂且效率低下。业界为此开发了检索增强生成（RAG）、分块策略、提示工程等变通方案，但这些方法本质上仍是在Transformer局限下的权宜之计，并未解决底层扩展性问题。

SubQ的突破在于其完全亚二次方架构。该架构抛弃了传统的二次方注意力计算，转而采用线性复杂度机制，使得模型在处理数百万token时，计算量仅线性增长。据Subquadratic公司介绍，与当前前沿模型相比，SubQ在注意力计算环节实现了近1000倍的缩减。这意味着，原本需要大量GPU集群才能处理的超长上下文任务，现在可以在更经济的硬件上高效完成。

在基准测试中，SubQ在“大海捞针”（Needle-in-a-Haystack）和精确复制测试中均达到行业领先水平。这些测试要求模型从极长文本中准确提取特定信息或完整复现内容，是衡量长上下文模型实用性的关键指标。SubQ的表现表明，线性复杂度架构并未牺牲准确性，反而在长文本场景下展现出更稳定的信息定位能力。

Subquadratic公司同步推出了三项基于SubQ的产品，均面向开发者与企业用户开放内测：

首先，全上下文API允许开发者直接将完整上下文传入模型，无需手动分块或构建RAG流水线。这特别适用于需要处理整本书籍、完整代码库或海量日志的场景，大幅简化了开发流程。

其次，SubQ Code是一款基于命令行的编程助手，能够将整个代码仓库加载至单一上下文窗口。开发者可在一次对话中完成跨文件计划、代码生成与审查，无需在多智能体系统间协调。对于大型项目而言，这有望显著提升代码理解与重构效率。

第三，SubQ Search是一款长上下文搜索工具，提供类似Deep Research的深度研究能力，但响应速度接近聊天机器人。它能够在海量文档中快速定位关键信息，适用于法律、金融、科研等需要快速处理大量文本的行业。

Subquadratic公司CEO Justin Dangel表示，SubQ的推出并非渐进式改进，而是数量级上的跃升。它使得百万级token的上下文成为实用现实，而不仅仅是实验室中的理论可能。这一进展可能重塑AI应用的设计范式：未来，开发者或许不再需要为上下文长度焦虑，而是可以像处理短文本一样自然地处理整部百科全书或整个代码仓库。

SubQ的发布正值行业对长上下文模型需求激增之际。从代码库级编程辅助到全量文档分析，从多轮对话记忆到实时视频流理解，长上下文能力正成为下一代AI应用的核心竞争力。SubQ以线性复杂度解决了Transformer的根本限制，为这一方向提供了新的技术路径。

目前，SubQ已开放内测申请，感兴趣的开发者和企业可通过Subquadratic官网提交申请。随着更多用户的实际测试，SubQ在真实场景中的表现与局限性将逐步显现，但其架构思路本身已为AI行业提供了一个值得关注的新方向。