阿里开源统一科学大模型LOGOS，参数效率惊艳

阿里ATH-Token Foundry联合中国人民大学高瓴人工智能学院，近日宣布开源首个基于统一“科学语法”的多领域科学生成基础模型LOGOS（Language Of Generative Objects in Science）。该模型以纯序列建模范式，在六大代表性科学任务上一致性地匹配或超越了领域专用方法，尤其以极低的参数成本实现了跨模态科学对象的统一理解与生成。

LOGOS最引人注目的特点在于其参数效率。LOGOS-1B仅用1B参数量，就在多个任务上超越了微软的NatureLM（后者采用8×7B的混合专家架构），参数效率提升高达56倍。这意味着，在同等计算资源下，LOGOS能以更小的模型规模完成更复杂的科学推理任务，为科学AI的落地应用降低了硬件门槛。

在数据层面，LOGOS构建了涵盖7类模态、总计44.87B tokens的庞大预训练语料库。具体包括生物大分子层：蛋白质（28.9B tokens）和抗体（3.0B tokens）；化学实体与转化层：小分子（2.1B tokens）、化学反应与MOF材料（0.47B tokens）；界面互作层：蛋白质口袋（5.8B tokens）和蛋白口袋-配体复合物（4.6B tokens）。这些数据覆盖了从分子结构到材料设计的完整科学链条。

LOGOS的核心创新在于其“统一科学语法”设计。传统科学AI模型往往针对不同对象（如蛋白质、小分子、材料）使用不同的编码方式，导致模型间无法直接通信。LOGOS设计了一套共享词表，将蛋白质、小分子、材料等异构对象全部编码成统一的离散Token序列，使它们能够在同一个生成空间中被大模型以自回归方式理解和生成。这种“语言统一”策略有效解决了跨模态科学对象的语义鸿沟问题。

在三维空间建模方面，LOGOS发明了一种“文字描述法”。传统方法需要依赖显式3D坐标和复杂的几何神经网络来理解蛋白质与小分子的结合模式。LOGOS则将3D空间接触模式直接“语法化”为离散Token，完全不需要输入3D坐标，仅靠序列预测就能在模型内部构建出复杂的3D空间互作规律。这大幅简化了模型架构，同时保持了高精度。

LOGOS还解决了传统科学AI中常见的“学用脱节”问题。传统范式下，预训练目标与下游任务之间存在显著的“目标偏差”，导致模型落地时需要大量微调。LOGOS通过“形式一致”和“目标一致”设计，使预训练数据的序列形式等于下游任务的输入输出形式，预训练的next-token prediction目标等于下游的条件生成目标。这种form-objective alignment有效消除了预训练与下游应用之间的gap，无需复杂的适配层或大量微调即可激活生成能力。

统一语法带来的另一个优势是“知识共享”。模型看到蛋白质的“方言”（氨基酸口袋序列），能直接“翻译”出小分子的“方言”（SMILES结构）。这证明模型真正学会了不同科学对象之间的对应关系，而不仅仅是机械记忆。这种跨模态推理能力对于药物发现、材料设计等需要多学科协作的领域具有重要价值。

目前，LOGOS已完整开源模型权重、推理代码与技术报告，开源地址位于HuggingFace（https://huggingface.co/LOGOS-Hub），技术报告可在arXiv（https://arxiv.org/abs/2606.16905）查阅。这一开源举措将加速科学AI领域的社区协作与创新。