智象未来发布200B参数原生全模态图像大模型
「智象未来发布200B参数HiDream-O1-Image-Pro大模型,采用原生全模态架构UiT,刷新多项基准测试纪录,并宣布完成新一轮融资。」
智象未来在北京首届开放日上正式发布了基于新一代原生全模态模型架构——Unified Transformer(UiT)打造的图像大模型 HiDream-O1-Image-Pro。该模型参数量超过2000亿,在多个权威基准测试中刷新了SOTA(最高水平)纪录。同日,智象未来宣布完成半个月内的第二轮融资,由深创投、金浦投资等多家顶级机构加持,再次印证了资本市场对“原生全模态”技术路径的高度认可。
当前视觉生成领域多采用“VAE+独立语言模型编码”的碎片化拼接范式,难以在复杂语义理解与细节还原上取得突破。智象未来通过UiT架构,将原始图像像素、文本标记与任务条件纳入统一的连续共享标记空间,实现了真正的“底层表征融合”。HiDream-O1-Image-Pro作为闭源版本,参数规模超200B,不仅具备顶级的文生图能力,更在复杂文字渲染、指令编辑与多主体个性化生成等领域树立了行业新标杆。其采用同源架构的8B参数版本此前已在全球评测平台Artificial Analysis的文生图榜单中登顶开源模型全球第一,且是前20名中参数量最小的版本,充分验证了UiT架构卓越的可扩展性。
智象未来创始人兼CEO梅涛指出,行业内所谓的“多模态”多为“单模态拼接”,而智象未来追求的是“原生全模态”。他认为,通过在模型架构初期就刻入“世界的规则”(空间关系、物理定律、因果逻辑),模型才能真正从“生成内容”进化为“理解世界、推理世界、重构世界”,这是实现AGI(通用人工智能)的必经之路。
在深化底层架构的同时,智象未来构建了“1+1+3”业务架构,通过三大核心智能体应用驱动商业落地:商业营销智能体HiBurst已成为TikTok官方Top 5服务商,年生产电商营销视频超百万条,覆盖GMV过亿元;AI影视创作智能体“帧赞”实现了从创意到成片的全流程打通,已累计制作短漫剧超5000分钟,吸引超千家专业团队入驻;社媒创作智能体vivago支持端到端长思考与分钟级故事视频生成,覆盖全球100多个国家及地区的4000万用户。
在开放日现场,智象未来宣布与上影新视野基金、蓝色光标、捷成世纪及倍尔健康达成战略合作,通过深度参与影视创作、跨境电商、医疗健康等赛道,加速模型能力向行业场景的转化。从视觉生成到构建世界模型,智象未来通过“Imaging the World”的愿景,正致力于通过统一建模框架,让AI具备理解不同模态下环境状态及预测变化的能力。随着多元化资本的持续注入与商业生态的快速扩张,智象未来正加速从视觉技术提供商向通用世界模型构建者的角色转变。
来源:Heooo AI工具导航