Stability AI发布六分钟长音频生成模型

Stability AI，这家以Stable Diffusion闻名的AI公司，近日发布了其最新的音频模型家族——Stability Audio 3.0。据公司宣称，该系列中的顶级模型能够生成超过六分钟的专业级音乐，这在AI音频生成领域是一项重大突破。

Stability Audio 3.0共包含四个模型：小尺寸SFX（459M参数）、小尺寸（459M参数）、中等尺寸（1.4B参数）和大尺寸（2.7B参数）。其中，两个小尺寸模型专为设备端音效和音乐生成设计，可生成最长两分钟的音频内容。而中等和大尺寸模型则能创作长达6分20秒的完整作品，并能保持音乐结构和旋律调性。这一长度是2024年发布的Stable Audio 2.0所生成音频长度的两倍多。

值得注意的是，Stability AI将小尺寸SFX、小尺寸和中等尺寸模型以开放权重形式发布，允许任何人使用和修改。这相比2024年发布的Stable Audio Open（仅支持最长47秒的音乐生成）是一个巨大的进步。开放权重的策略不仅降低了AI音乐创作的门槛，也为开发者社区提供了更多探索和创新的空间。

大尺寸模型则仅通过API和自托管付费服务提供。此外，年收入超过100万美元的公司需要获得企业许可证才能使用。这种分层授权模式既保证了高级功能的商业价值，也维护了开源社区的活力。

目前，包括Google和ElevenLabs在内的多家公司都在发布音乐生成模型和工具。然而，正如Suno和Udio正在进行的诉讼所证明的，数据授权和与音乐厂牌的合作可能成为这些服务长期生存的关键。去年，Stability AI已与华纳音乐集团和环球音乐集团签署协议，共同开发模型和音乐创作工具。公司表示，其最新音频模型系列完全基于授权数据构建，这为其在版权合规方面提供了坚实保障。

Stability AI正在为专业音乐人开发一套新产品，但尚未透露具体功能细节。前环球音频和Fender首席数字官Ethan Kaplan已加入公司，负责领导Stability的专业音乐产品线。这一人事任命表明，Stability AI正积极向专业音乐领域拓展，试图通过吸纳行业资深人士来提升产品的专业性和市场竞争力。

多家AI公司也在通过雇佣音乐行业高管来增强自身信誉。今年早些时候，Suno聘请了前Merlin首席执行官Jeremy Sirota担任首席商务官。ElevenLabs则从独立音乐出版商Kobalt挖来了Derek Cournoyer，担任其音乐业务战略负责人。这些动向反映出AI音乐生成领域正从技术竞赛转向生态构建，版权、合作和商业模式的重要性日益凸显。