有道全面开源子曰4多模态与TTS引擎
开源项目

有道全面开源子曰4多模态与TTS引擎

Heooo 05月21日12时54分 1 阅读

「网易有道发布子曰4.0,全面升级多模态与TTS模型并开源,视觉数理达SOTA,支持3秒情感克隆,翻译推理速度提升80%。」

网易有道近日宣布其“子曰”大模型迎来4.0版本全面升级,正式迈入全模态时代。此次升级不仅实现了文本、图片、音频的深度融合交互,更将核心的多模态模型与语音合成(TTS)模型正式开源,为全球开发者和企业提供了低成本、高效率的AI技术底座。

在多模态模型方面,子曰4在27B参数规模上,面向教育场景实现了视觉数理能力的行业顶尖水平(SOTA)。该模型在处理带图表的数学题、物理题等高难度视觉数理问题上表现惊艳,同时在中文纯文本数理难题上准确率达81.4%,达到行业领先水平。

有道全面开源子曰4多模态与TTS引擎

更为关键的是,子曰4采用了精细化思维链重构方案,通过汇聚大规模优质精简的推理样本进行深度优化,成功将推理思维链输出长度压缩了43.2%。这意味着模型可以用更少的Token、更短的推理路径更快地给出答案,大幅降低了企业和开发者在实际业务场景中的推理成本,提升了部署性价比。

在语音合成方面,有道同步开源的TTS引擎基于“语音编码器+LLM”架构,支持14种语言,包括中文、英语、日语、韩语等。该引擎实现了零样本语音克隆与情感合成,用户仅需提供任意音频素材,系统即可在3秒内完成原声复制,克隆准确度超过97%,音色相似度达85%以上,并能精准还原情感色彩。此外,系统支持不同语言间同一说话者音色的自然迁移,无需额外训练即可保持音色一致性,跨语种克隆无口音泄露问题。

有道全面开源子曰4多模态与TTS引擎

翻译模型也迎来重要升级。有道团队收集并清洗了上亿级别多语言数据,并聘请专业人员进行多维度人工评估。算法层面,模型采用创新的“多专家OPD”模式,通过强化学习引入格式奖励和语言检测机制,有效解决了机翻常见的脱靶和语种混出问题。升级后的翻译模型推理速度提升了80%,在文本、图片和文档翻译等多场景下兼具速度与质量。

回望有道在AI领域的探索,从首个教育垂直大模型“子曰”亮相,到推出虚拟人口语教练Hi Echo,再到2.0、3.0版本的软硬件生态扎根,有道始终走在AI赋能场景的前沿。2026年,有道陆续发布了LobsterAI、有道宝库、有道同传Agent、Thinkflow等AI Agent产品,实现了全场景AI Agent矩阵布局。此次子曰4的全面开源,将进一步降低多模态与语音合成领域的应用门槛,推动全球开发者共同构建全模态大模型生态,激发更广泛的产业生产力变革。

# 子曰4 # 多模态 # TTS # 开源 # 有道 # AI教育

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表