PersonaDrive：人驾风格检索增强的VLA驾驶代理

在自动驾驶仿真领域，闭环模拟环境中的非自我交通代理（non-ego traffic agents）通常行为模式单一，要么由基于规则的交通管理器生成，要么由学习模型按照单一行为模式训练。这种同质化的行为分布无法真实反映人类驾驶的多样性，限制了仿真系统对自动驾驶策略的全面评估。近期，来自arXiv的一项研究提出了PersonaDrive，一种基于风格指令人类驾驶数据集的检索增强型视觉-语言-动作（VLA）驾驶代理框架，旨在通过检索人类驾驶演示来生成具有不同风格的交通代理，从而提升仿真环境的真实性和多样性。

PersonaDrive的核心创新在于构建了一条完整的三阶段流水线。第一阶段是离线三元组挖掘，研究人员在一个特殊的驾驶模拟器上，要求受试驾驶员在激进、中立和保守三种指令下驾驶CARLA排行榜路线，从而收集了带有明确风格标签的人类驾驶数据。基于这些数据，他们利用图像-文本联合相似度分数，从每种风格的驾驶数据中挖掘出高质量的三元组（查询、正例、负例），为后续的检索模型训练奠定基础。第二阶段是轻量级检索头的训练，该检索头融合了冻结的视觉特征（来自预训练的视觉编码器）与一个小型控制编码器，针对每种风格的数据库进行训练，从而能够根据当前驾驶场景快速检索到最相关的风格演示片段。第三阶段是VLA骨干网络的微调，研究人员将检索到的上下文点作为行为演示，在路径点预测任务中注入这些上下文信息，使模型能够模仿检索到的驾驶风格。

PersonaDrive最引人注目的特性在于其推理时的灵活性。在部署阶段，同一个VLA骨干网络可以通过简单地切换检索头所查询的数据库来实现不同驾驶风格的切换——这意味着选择一种风格完全不需要针对该风格重新训练模型。这一设计使得仿真系统能够轻松生成多种风格的交通代理，从而在闭环仿真中模拟更接近真实世界的交通流。在Bench2Drive基准测试上，PersonaDrive（无风格条件）相比SimLingo提升了4.6%的驾驶分数，相比HiP-AD提升了2.5%。在施加风格条件后，PersonaDrive在每种风格下都取得了最高的驾驶分数，且表现稳定在约2%的波动范围内——其最弱风格的表现甚至超越了最强基线DMW，高出5.4%。此外，从保守指令到激进指令，平均速度和加速度分别提升了18%和25%，验证了风格条件对驾驶行为的有效调控。

从技术深度来看，PersonaDrive解决了现有风格变体方法的一个关键局限：以往的工作要么通过事后标签对观测数据进行风格标注，要么利用大语言模型推断奖励权重来间接定义风格，但这些信号本质上只是对风格应奖励什么的代理指标，而非直接来自被明确要求以特定风格驾驶的人类演示。PersonaDrive通过直接使用风格指令下的人类驾驶数据，将风格学习从间接推断转变为直接的检索与模仿，从而更忠实地还原了人类驾驶的多样性。这种基于检索的范式还带来了另一个优势：随着人类驾驶数据集的扩展，PersonaDrive可以轻松地添加新的风格数据库，而无需重新训练整个模型，具有良好的可扩展性。

PersonaDrive的提出不仅为自动驾驶仿真提供了更真实的交通代理生成方案，也为VLA模型在闭环环境中的应用开辟了新思路。通过将人类驾驶风格显式地编码为可检索的演示片段，该框架使得仿真系统能够以极低的成本模拟出从保守到激进的各种驾驶行为，这对于评估自动驾驶策略在罕见或极端场景下的鲁棒性具有重要意义。未来，该团队计划探索更细粒度的风格定义（如分心、疲劳等状态）以及多模态检索策略，进一步提升仿真环境的生态效度。