用视觉语言模型复现开放式进化艺术
「研究团队利用大型视觉语言模型(VLM)复现经典开放式进化艺术平台Picbreeder,探索AI在无指导创意生成中的能力与局限。」
在人工智能领域,如何让机器具备人类那样的开放式创造力,一直是一个核心挑战。近日,一篇发表于arXiv的论文《In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models》尝试通过复现经典的Picbreeder实验,来探究大型视觉语言模型(VLM)在开放式创意生成中的表现。
Picbreeder是一个由人类用户驱动的交互式进化艺术平台,用户通过选择、组合和变异由小型神经网络生成的图像,共同构建出一个丰富多样的图像库。该平台是开放式搜索的典型范例,其核心在于人类能够持续产生新颖且有意义的视觉形式。研究团队试图回答一个关键问题:AI代理是否具备类似的、无需引导的发现能力?
为此,研究者用前沿的视觉语言模型(VLM)替代了Picbreeder中的人类用户。在实验中,VLM被赋予“选择者”的角色,负责从一组候选图像中挑选出最符合某种审美或语义偏好的个体,然后通过遗传算法生成下一代图像。整个过程中,VLM没有接受任何关于“什么是有趣图像”的具体训练,完全依赖其内在的视觉理解与偏好进行决策。
实验结果显示,VLM驱动的系统与历史人类基线之间存在明显的定性差异。人类用户生成的图像往往具有更高的视觉多样性、叙事性和意外性,而VLM生成的图像则更倾向于稳定、对称且语义明确的形态。为了量化这些差异,研究者引入了系统发育复杂度、视觉显著性、语义新颖性等指标。这些指标揭示出,VLM在探索过程中更容易陷入局部最优,缺乏人类那种“跳出框架”的跳跃性思维。
为了识别导致这些差异的因果因素,研究团队进行了三组消融实验。首先,他们在VLM的选择过程中加入了探索性噪声,模拟人类决策中的随机性。结果表明,适度噪声确实能增加图像多样性,但过度噪声会导致生成结果失控。其次,他们引入了代理之间的行为多样性,让不同VLM拥有不同的偏好或策略。这种多样性显著提升了图像库的整体丰富度,接近人类协作的效果。最后,他们为系统添加了“叙事动量”,即通过记忆过去的选择来影响当前决策。这种记忆机制使VLM能够维持一个连贯的创作方向,避免了无意义的随机游走。
这项研究不仅揭示了VLM在开放式创意任务中的潜力与瓶颈,也为未来设计更具创造力的AI系统提供了重要线索。研究者指出,真正的开放式生成可能需要结合多种机制:适度的随机性、多样化的代理视角,以及某种形式的长期记忆或上下文依赖。这些发现对于自动化科学发现、艺术创作、游戏内容生成等领域具有直接参考价值。
论文作者已将相关代码开源,供社区进一步探索。这一工作标志着AI在模拟人类开放式创造力方面迈出了坚实的一步,尽管距离完全复现人类的创意火花仍有很长的路要走。
来源:Heooo AI工具导航