有道全面开源子曰4多模态与TTS引擎

网易有道近日宣布其“子曰”大模型迎来4.0版本全面升级，正式迈入全模态时代。此次升级不仅实现了文本、图片、音频的深度融合交互，更将核心的多模态模型与语音合成（TTS）模型正式开源，为全球开发者和企业提供了低成本、高效率的AI技术底座。

在多模态模型方面，子曰4在27B参数规模上，面向教育场景实现了视觉数理能力的行业顶尖水平（SOTA）。该模型在处理带图表的数学题、物理题等高难度视觉数理问题上表现惊艳，同时在中文纯文本数理难题上准确率达81.4%，达到行业领先水平。

更为关键的是，子曰4采用了精细化思维链重构方案，通过汇聚大规模优质精简的推理样本进行深度优化，成功将推理思维链输出长度压缩了43.2%。这意味着模型可以用更少的Token、更短的推理路径更快地给出答案，大幅降低了企业和开发者在实际业务场景中的推理成本，提升了部署性价比。

在语音合成方面，有道同步开源的TTS引擎基于“语音编码器+LLM”架构，支持14种语言，包括中文、英语、日语、韩语等。该引擎实现了零样本语音克隆与情感合成，用户仅需提供任意音频素材，系统即可在3秒内完成原声复制，克隆准确度超过97%，音色相似度达85%以上，并能精准还原情感色彩。此外，系统支持不同语言间同一说话者音色的自然迁移，无需额外训练即可保持音色一致性，跨语种克隆无口音泄露问题。

翻译模型也迎来重要升级。有道团队收集并清洗了上亿级别多语言数据，并聘请专业人员进行多维度人工评估。算法层面，模型采用创新的“多专家OPD”模式，通过强化学习引入格式奖励和语言检测机制，有效解决了机翻常见的脱靶和语种混出问题。升级后的翻译模型推理速度提升了80%，在文本、图片和文档翻译等多场景下兼具速度与质量。

回望有道在AI领域的探索，从首个教育垂直大模型“子曰”亮相，到推出虚拟人口语教练Hi Echo，再到2.0、3.0版本的软硬件生态扎根，有道始终走在AI赋能场景的前沿。2026年，有道陆续发布了LobsterAI、有道宝库、有道同传Agent、Thinkflow等AI Agent产品，实现了全场景AI Agent矩阵布局。此次子曰4的全面开源，将进一步降低多模态与语音合成领域的应用门槛，推动全球开发者共同构建全模态大模型生态，激发更广泛的产业生产力变革。