Stability AI发布六分钟长音频生成模型
「Stability AI推出Stable Audio 3.0系列模型,支持生成超6分钟专业级音乐,并开放中小模型权重,推动AI音乐创作新高度。」
Stability AI,这家以Stable Diffusion闻名的AI公司,近日发布了其最新的音频模型家族——Stability Audio 3.0。据公司宣称,该系列中的顶级模型能够生成超过六分钟的专业级音乐,这在AI音频生成领域是一项重大突破。
Stability Audio 3.0共包含四个模型:小尺寸SFX(459M参数)、小尺寸(459M参数)、中等尺寸(1.4B参数)和大尺寸(2.7B参数)。其中,两个小尺寸模型专为设备端音效和音乐生成设计,可生成最长两分钟的音频内容。而中等和大尺寸模型则能创作长达6分20秒的完整作品,并能保持音乐结构和旋律调性。这一长度是2024年发布的Stable Audio 2.0所生成音频长度的两倍多。
值得注意的是,Stability AI将小尺寸SFX、小尺寸和中等尺寸模型以开放权重形式发布,允许任何人使用和修改。这相比2024年发布的Stable Audio Open(仅支持最长47秒的音乐生成)是一个巨大的进步。开放权重的策略不仅降低了AI音乐创作的门槛,也为开发者社区提供了更多探索和创新的空间。
大尺寸模型则仅通过API和自托管付费服务提供。此外,年收入超过100万美元的公司需要获得企业许可证才能使用。这种分层授权模式既保证了高级功能的商业价值,也维护了开源社区的活力。
目前,包括Google和ElevenLabs在内的多家公司都在发布音乐生成模型和工具。然而,正如Suno和Udio正在进行的诉讼所证明的,数据授权和与音乐厂牌的合作可能成为这些服务长期生存的关键。去年,Stability AI已与华纳音乐集团和环球音乐集团签署协议,共同开发模型和音乐创作工具。公司表示,其最新音频模型系列完全基于授权数据构建,这为其在版权合规方面提供了坚实保障。
Stability AI正在为专业音乐人开发一套新产品,但尚未透露具体功能细节。前环球音频和Fender首席数字官Ethan Kaplan已加入公司,负责领导Stability的专业音乐产品线。这一人事任命表明,Stability AI正积极向专业音乐领域拓展,试图通过吸纳行业资深人士来提升产品的专业性和市场竞争力。
多家AI公司也在通过雇佣音乐行业高管来增强自身信誉。今年早些时候,Suno聘请了前Merlin首席执行官Jeremy Sirota担任首席商务官。ElevenLabs则从独立音乐出版商Kobalt挖来了Derek Cournoyer,担任其音乐业务战略负责人。这些动向反映出AI音乐生成领域正从技术竞赛转向生态构建,版权、合作和商业模式的重要性日益凸显。
来源:Heooo AI工具导航