技术进展

商汤开源图文交错增强模型U1-8B-MoT

Heooo 06月12日19时46分 1 阅读

「商汤科技开源SenseNova U1系列新模型,强化图文交错生成能力,解决角色形象飘移与图文脱节痛点,支持多页连续创作。」

商汤科技近日宣布开源日日新SenseNova U1系列的新成员——U1-8B-MoT-Interleaved图文交错增强版模型。该模型面向图文交错创作与生成场景进行了专项强化,旨在更好地支持绘本、故事书、多页PPT、图文教程等连续内容创作,解决传统多模态模型在多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。

据官方介绍,该模型的核心升级主要体现在四个方面。首先,叙事一致性与角色连贯性大幅提升。模型显著增强了长周期创作中的叙事连贯性、角色一致性与画风统一性,故事线在整个生成过程中被严格遵循,人物形象从第一页到最后一页均保持高度一致。其次,图文对应关系增强,告别图文脱节。经过专项训练,模型大幅改善了图像内容与文字描述之间的语义对齐能力,生成的画面能更准确地呈现文本所描述的复杂场景、动态动作与物体间的空间关系。

第三,视觉质量与Artifact明显改善。模型针对人物结构、文字渲染、页面排版等高频高难区域进行了定向优化,显著降低了生成物中的视觉瑕疵。第四,全新能力:多页PPT自动生成。新版本首次支持了多页PPT自动生成能力,模型能够智能从输入内容中提取要点,自行完成排版设计与文字渲染。

此次开源进一步丰富了商汤日日新SenseNova U1系列的产品线,为开发者提供了更强大的工具来构建多模态内容创作应用。U1-8B-MoT-Interleaved模型已在Hugging Face平台开放下载,开发者可以基于该模型进行二次开发或直接部署使用。商汤科技表示,将持续推动开源生态建设,助力AI技术在创意生产领域的落地与创新。

# 商汤科技 # 开源 # 图文交错生成 # SenseNova # 多模态模型

来源:Heooo AI工具导航