字节开源统一框架Bernini重构AI视频编辑

AI视频生成与编辑领域迎来底层逻辑的重构。字节跳动商业化技术团队近日正式开源了面向视频生成与视频编辑的统一框架——Bernini。这一框架的核心理念是“先理解再动手”，旨在让AI视频编辑告别过去那种依赖随机试错的“碰运气”模式，转而走向更可控、更精准的技术路径。

传统的视频编辑往往面临主体变形、背景漂移或动作断裂等技术瓶颈。为了打破这一僵局，Bernini框架采用了独特的“理解-规划-执行”三阶段分工架构。首先，模型会对输入的视频或图像素材进行深度语义理解，识别出场景中的主体、背景、动作等关键元素；然后，基于理解结果，模型会规划出编辑的具体方案，例如替换背景、改变主体动作或保持特定物体不变；最后，在执行阶段，模型才根据规划生成或修改视频帧。得益于这一分工，编辑过程变得有迹可循，显著提升了生成结果的稳定性和一致性。

除了文本操控，Bernini还支持多种输入模态的混合编辑。用户可以通过文字描述、参考图像甚至部分视频片段来指定编辑目标。例如，用户只需提供一张人物照片和一段描述“在沙滩上奔跑”的文本，Bernini就能生成主体保持不变、背景和动作符合描述的视频。这种多模态融合能力大大降低了视频创作的门槛，让非专业用户也能轻松完成复杂的编辑任务。

为了解决多视觉片段串联时模型容易认混的难题，团队还引入了SA-3D RoPE位置编码机制。该机制赋予不同视觉片段专属标记，从而在保留时空位置关系的同时分清参考素材与输出目标。这意味着，当模型需要同时处理多个视频片段或图像作为参考时，它能够准确区分哪些是输入素材、哪些是待生成的目标，避免了视觉混淆导致的错误输出。目前，在字节自建的测试中，该框架已稳居行业第一梯队。

Bernini的开源不仅为开发者提供了强大的底层工具，也标志着AI视频编辑技术从“黑盒”走向“透明”。开发者可以基于这一框架进行二次开发，针对特定场景（如影视后期、短视频创作、广告制作）定制更高效的编辑流程。随着开源社区的参与，这一框架有望持续进化，推动整个视频内容创作生态向更智能、更高效的方向发展。

字节开源统一框架Bernini重构AI视频编辑

相关资讯

用传统机器学习检测AI生成文本

Thinking Machines发布9750亿参数开源模型