技术进展

LLM评审与人类对齐度及可博弈性研究

Heooo 05月29日12时01分 1 阅读

「研究评估LLM在学术论文评审中的表现,发现其与人类评审对齐有限,且作者可通过迭代修改有效“博弈”系统,最高提升35%评分。」

随着大型语言模型(LLM)在学术评审中的应用日益广泛,甚至被主要会议官方试点,其可靠性与潜在风险成为学界关注的焦点。近期一篇发表于arXiv的论文《Review Arcade: On the Human Alignment and Gameability of LLM Reviews》通过实证实验,系统评估了LLM在科学论文评审中的表现,揭示了其与人类评审员的对齐程度以及被作者“博弈”的可能性。

该研究基于2025年ACL Rolling Review(ARR)的论文数据,从作者和评审员两个视角进行了实验。首先,研究团队发现,LLM生成的评审意见与人类评审意见之间的对齐程度有限。即使在最佳情况下,两者的匹配度也仅达到“合理”水平。更关键的是,这种对齐程度会因提示词(prompt)和模型的不同而产生显著差异,表明LLM评审的稳定性与一致性存在明显短板。

论文进一步探讨了作者如何利用LLM进行“博弈”——即通过迭代的草稿-修改工作流,根据LLM给出的评审意见反复修改论文,以期获得更高的评分。实验结果显示,这种策略在特定场景下确实有效。具体而言,通过针对LLM评审的反馈进行定向修改,最多可使35%的论文获得统计上显著的整体评分提升。这一发现引发了对学术评审公正性的担忧:如果作者能够轻易地通过“训练”或“迎合”LLM评审员来提升论文评分,那么基于LLM的评审系统可能会失去其应有的客观性与严肃性。

研究团队还公开了相关代码,以便学界复现和进一步探索。这一工作不仅为理解LLM在学术评审中的行为提供了实证基础,也提醒社区在推广LLM辅助评审时,必须警惕其潜在的可操纵性。未来,如何设计更鲁棒、更抗博弈的LLM评审机制,将成为值得深入研究的课题。

# LLM评审 # 学术评审 # 人机对齐 # 博弈性 # ACL

来源:Heooo AI工具导航