商汤开源图文交错增强模型U1-8B-MoT

商汤科技近日宣布开源日日新SenseNova U1系列的新成员——U1-8B-MoT-Interleaved图文交错增强版模型。该模型面向图文交错创作与生成场景进行了专项强化，旨在更好地支持绘本、故事书、多页PPT、图文教程等连续内容创作，解决传统多模态模型在多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。

据官方介绍，该模型的核心升级主要体现在四个方面。首先，叙事一致性与角色连贯性大幅提升。模型显著增强了长周期创作中的叙事连贯性、角色一致性与画风统一性，故事线在整个生成过程中被严格遵循，人物形象从第一页到最后一页均保持高度一致。其次，图文对应关系增强，告别图文脱节。经过专项训练，模型大幅改善了图像内容与文字描述之间的语义对齐能力，生成的画面能更准确地呈现文本所描述的复杂场景、动态动作与物体间的空间关系。

第三，视觉质量与Artifact明显改善。模型针对人物结构、文字渲染、页面排版等高频高难区域进行了定向优化，显著降低了生成物中的视觉瑕疵。第四，全新能力：多页PPT自动生成。新版本首次支持了多页PPT自动生成能力，模型能够智能从输入内容中提取要点，自行完成排版设计与文字渲染。

此次开源进一步丰富了商汤日日新SenseNova U1系列的产品线，为开发者提供了更强大的工具来构建多模态内容创作应用。U1-8B-MoT-Interleaved模型已在Hugging Face平台开放下载，开发者可以基于该模型进行二次开发或直接部署使用。商汤科技表示，将持续推动开源生态建设，助力AI技术在创意生产领域的落地与创新。