用视觉语言模型复现开放式进化艺术

在人工智能领域，如何让机器具备人类那样的开放式创造力，一直是一个核心挑战。近日，一篇发表于arXiv的论文《In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models》尝试通过复现经典的Picbreeder实验，来探究大型视觉语言模型（VLM）在开放式创意生成中的表现。

Picbreeder是一个由人类用户驱动的交互式进化艺术平台，用户通过选择、组合和变异由小型神经网络生成的图像，共同构建出一个丰富多样的图像库。该平台是开放式搜索的典型范例，其核心在于人类能够持续产生新颖且有意义的视觉形式。研究团队试图回答一个关键问题：AI代理是否具备类似的、无需引导的发现能力？

为此，研究者用前沿的视觉语言模型（VLM）替代了Picbreeder中的人类用户。在实验中，VLM被赋予“选择者”的角色，负责从一组候选图像中挑选出最符合某种审美或语义偏好的个体，然后通过遗传算法生成下一代图像。整个过程中，VLM没有接受任何关于“什么是有趣图像”的具体训练，完全依赖其内在的视觉理解与偏好进行决策。

实验结果显示，VLM驱动的系统与历史人类基线之间存在明显的定性差异。人类用户生成的图像往往具有更高的视觉多样性、叙事性和意外性，而VLM生成的图像则更倾向于稳定、对称且语义明确的形态。为了量化这些差异，研究者引入了系统发育复杂度、视觉显著性、语义新颖性等指标。这些指标揭示出，VLM在探索过程中更容易陷入局部最优，缺乏人类那种“跳出框架”的跳跃性思维。

为了识别导致这些差异的因果因素，研究团队进行了三组消融实验。首先，他们在VLM的选择过程中加入了探索性噪声，模拟人类决策中的随机性。结果表明，适度噪声确实能增加图像多样性，但过度噪声会导致生成结果失控。其次，他们引入了代理之间的行为多样性，让不同VLM拥有不同的偏好或策略。这种多样性显著提升了图像库的整体丰富度，接近人类协作的效果。最后，他们为系统添加了“叙事动量”，即通过记忆过去的选择来影响当前决策。这种记忆机制使VLM能够维持一个连贯的创作方向，避免了无意义的随机游走。

这项研究不仅揭示了VLM在开放式创意任务中的潜力与瓶颈，也为未来设计更具创造力的AI系统提供了重要线索。研究者指出，真正的开放式生成可能需要结合多种机制：适度的随机性、多样化的代理视角，以及某种形式的长期记忆或上下文依赖。这些发现对于自动化科学发现、艺术创作、游戏内容生成等领域具有直接参考价值。

论文作者已将相关代码开源，供社区进一步探索。这一工作标志着AI在模拟人类开放式创造力方面迈出了坚实的一步，尽管距离完全复现人类的创意火花仍有很长的路要走。

用视觉语言模型复现开放式进化艺术

相关资讯

十二大模型同台竞技：GPT-5.6与Grok、Claude激战四款应用

GPT-5.6 Sol Ultra成功证明循环双覆盖猜想

对齐合理性：医疗AI安全新标准

OpenAI发布全双工语音模型提升对话自然度

AgentLens：代码智能体全轨迹评估新基准