阿里开源统一科学大模型LOGOS,参数效率惊艳
「阿里与人大联合开源首个统一科学语法基础模型LOGOS,以1B参数在多项任务上超越微软NatureLM,实现跨模态科学对象的统一生成与理解。」
阿里ATH-Token Foundry联合中国人民大学高瓴人工智能学院,近日宣布开源首个基于统一“科学语法”的多领域科学生成基础模型LOGOS(Language Of Generative Objects in Science)。该模型以纯序列建模范式,在六大代表性科学任务上一致性地匹配或超越了领域专用方法,尤其以极低的参数成本实现了跨模态科学对象的统一理解与生成。
LOGOS最引人注目的特点在于其参数效率。LOGOS-1B仅用1B参数量,就在多个任务上超越了微软的NatureLM(后者采用8×7B的混合专家架构),参数效率提升高达56倍。这意味着,在同等计算资源下,LOGOS能以更小的模型规模完成更复杂的科学推理任务,为科学AI的落地应用降低了硬件门槛。
在数据层面,LOGOS构建了涵盖7类模态、总计44.87B tokens的庞大预训练语料库。具体包括生物大分子层:蛋白质(28.9B tokens)和抗体(3.0B tokens);化学实体与转化层:小分子(2.1B tokens)、化学反应与MOF材料(0.47B tokens);界面互作层:蛋白质口袋(5.8B tokens)和蛋白口袋-配体复合物(4.6B tokens)。这些数据覆盖了从分子结构到材料设计的完整科学链条。
LOGOS的核心创新在于其“统一科学语法”设计。传统科学AI模型往往针对不同对象(如蛋白质、小分子、材料)使用不同的编码方式,导致模型间无法直接通信。LOGOS设计了一套共享词表,将蛋白质、小分子、材料等异构对象全部编码成统一的离散Token序列,使它们能够在同一个生成空间中被大模型以自回归方式理解和生成。这种“语言统一”策略有效解决了跨模态科学对象的语义鸿沟问题。
在三维空间建模方面,LOGOS发明了一种“文字描述法”。传统方法需要依赖显式3D坐标和复杂的几何神经网络来理解蛋白质与小分子的结合模式。LOGOS则将3D空间接触模式直接“语法化”为离散Token,完全不需要输入3D坐标,仅靠序列预测就能在模型内部构建出复杂的3D空间互作规律。这大幅简化了模型架构,同时保持了高精度。
LOGOS还解决了传统科学AI中常见的“学用脱节”问题。传统范式下,预训练目标与下游任务之间存在显著的“目标偏差”,导致模型落地时需要大量微调。LOGOS通过“形式一致”和“目标一致”设计,使预训练数据的序列形式等于下游任务的输入输出形式,预训练的next-token prediction目标等于下游的条件生成目标。这种form-objective alignment有效消除了预训练与下游应用之间的gap,无需复杂的适配层或大量微调即可激活生成能力。
统一语法带来的另一个优势是“知识共享”。模型看到蛋白质的“方言”(氨基酸口袋序列),能直接“翻译”出小分子的“方言”(SMILES结构)。这证明模型真正学会了不同科学对象之间的对应关系,而不仅仅是机械记忆。这种跨模态推理能力对于药物发现、材料设计等需要多学科协作的领域具有重要价值。
目前,LOGOS已完整开源模型权重、推理代码与技术报告,开源地址位于HuggingFace(https://huggingface.co/LOGOS-Hub),技术报告可在arXiv(https://arxiv.org/abs/2606.16905)查阅。这一开源举措将加速科学AI领域的社区协作与创新。
来源:Heooo AI工具导航