SubQ发布首个全亚二次方架构大模型

在人工智能领域，Transformer架构自诞生以来一直是大型语言模型（LLM）的核心支柱，其自注意力机制虽然带来了强大的语言理解能力，却也埋下了计算效率的隐患。随着上下文长度的增加，Transformer的计算需求呈二次方增长，这限制了模型处理超长文本的能力，并催生了诸如RAG（检索增强生成）等变通方案。然而，一家名为Subquadratic的AI公司正试图打破这一僵局。

近日，Subquadratic正式发布了其首款模型SubQ 1M-Preview，宣称这是全球首个完全基于亚二次方（subquadratic）架构构建的大语言模型。该架构的核心突破在于，计算复杂度从传统的O(n²)降低至O(n)，即计算量随上下文长度线性增长，而非二次方增长。这意味着在处理长文本时，SubQ能够大幅减少计算资源的消耗，同时保持甚至提升模型的准确性。

根据公司公布的信息，SubQ在研究中已实现1200万token的上下文窗口，其注意力计算量相比其他前沿模型减少了近1000倍。这一数字令人瞩目，因为当前主流模型在处理百万级token时往往面临性能下降和成本高昂的问题。Subquadratic的CEO Justin Dangel表示：“Transformer定义了AI的过去十年，但它的根本限制在于计算与上下文长度的二次方关系。SubQ通过全新的架构设计，让长上下文处理变得实用且经济。”

为了验证长上下文性能，Subquadratic团队进行了严格的基准测试，包括“大海捞针”（needle-in-a-haystack）和精确复制（exact copy）测试。结果显示，SubQ在极长上下文场景下仍能保持高精度，这得益于其线性计算特性，使得模型在信息检索和模式匹配方面更加一致和可靠。相比之下，传统Transformer模型在处理长输入时，由于注意力分散，往往难以准确聚焦关键信息。

Subquadratic还同步推出了三项基于SubQ的早期访问服务：首先是全上下文API，供开发者和企业团队直接调用模型的长上下文能力；其次是SubQ Code，一款基于命令行的编码代理，能够将整个代码库加载到单个上下文窗口中，让开发者一次性完成全仓库的规划、执行和审查，无需依赖多代理系统的复杂协调；最后是SubQ Search，一种长上下文搜索工具，提供类似Deep Research的深度研究能力，同时保持聊天机器人的响应速度。这些服务即日起开放私人测试。

从行业角度看，SubQ的出现可能对AI应用开发产生深远影响。长期以来，开发者为应对Transformer的二次方限制，不得不投入大量精力设计RAG系统、分块策略和提示工程，这些变通方案虽然有效，但增加了系统复杂性和维护成本。SubQ的线性扩展特性有望简化这一流程，使开发者能够直接处理数百万token的原始文本，从而在文档分析、代码审查、科学研究等场景中实现更高效的工作流。

不过，Subquadratic也承认，亚二次方架构并非没有挑战。过去，许多尝试降低计算复杂度的努力都以牺牲模型准确性为代价。但该公司声称，SubQ通过创新的算法设计，在提升效率的同时保持了前沿水平的性能。目前，SubQ 1M-Preview已开放早期访问，更多技术细节和基准数据预计将在后续公布。这一进展标志着LLM架构可能迎来一次重要转折，从Transformer的二次方时代迈向更高效的线性时代。

SubQ发布首个全亚二次方架构大模型

相关资讯

空管路径规划算法兼顾可解释性与效率

能力切片：大模型评估与数据优化的闭环方法

有限道德：AI道德计算的新框架

Wiola架构：高效小语言模型的原创设计

客服AI新架构：困难路由控制提升操作可靠性