通义实验室开源统一科学大模型LOGOS

通义实验室近日联合ATH-Token Foundry及中国人民大学高瓴人工智能学院，正式开源了首个基于统一“科学语法”的多领域科学生成基础模型——LOGOS（Language Of Generative Objects in Science）。这一模型旨在打破传统AI for Science（AI4S）领域长期存在的“一任务一专家模型”割裂现状，通过将蛋白质、小分子、材料和化学反应等异构科学对象编码为统一的离散Token序列，实现了跨领域知识的深度融合与原生大模型框架下的自回归生成。

LOGOS的核心突破在于其创新的“科学语法”设计与空间交互离散化技术。传统科学模型往往依赖稀缺的3D坐标数据和专用的几何神经网络，而LOGOS仅凭序列预测即可深度理解复杂的3D空间互作规律。这一技术路径使得模型在预训练与下游任务之间实现了形式与目标上的完全一致，显著降低了数据获取门槛和计算资源需求。

在评测中，仅拥有1B参数量的LOGOS-1B展现了惊人的性能。在口袋条件配体生成、逆合成预测、口袋位点识别以及MOF材料生成等六大代表性任务中，LOGOS-1B均一致性地匹配或超越了领域专用方法。例如，在逆合成预测任务中，其Top-1准确率达到74.8%；在HOLO4K数据集的口袋位点识别中，Top-n准确率达58.5%；而在MOF材料生成任务中，新型构建单元比例提升了76%。尤为值得注意的是，LOGOS-1B以1/56的参数量，在多个任务上超越了参数量达8×7B的NatureLM，充分验证了其统一科学语法设计的有效性。

通过继承大语言模型（LLM）的预训练权重，LOGOS能够直接复用vLLM推理加速、模型量化等成熟的工程基建，大幅降低了部署和优化成本。这一设计不仅打破了学科壁垒，更推动了自然科学研究从“筛选已知”向“设计驱动”的范式转变。目前，LOGOS的模型权重、推理代码及技术报告已面向全球开源，开发者可基于该模型进行二次开发和应用拓展。

LOGOS的发布标志着AI for Science领域迈入了一个新阶段，它通过统一科学语法实现了跨学科知识的无缝整合，为药物发现、材料设计、化学反应预测等前沿研究提供了强大的通用基础模型。未来，随着更多研究者和开发者的参与，LOGOS有望进一步推动科学发现的速度和广度。