ArXiv严打AI代笔，违规作者将面临一年封禁

近日，全球知名的开放获取预印本存储库ArXiv宣布了一项严厉的新规：如果论文中存在确凿证据表明作者未对大型语言模型（LLM）生成的内容进行核查，相关作者将被禁止在ArXiv上提交新论文长达一年。这一举措是ArXiv为应对日益泛滥的低质量AI生成论文所采取的最新行动。

ArXiv（发音为“archive”）是计算机科学、数学、物理学等领域研究人员进行学术预印本交流的核心平台。尽管提交到ArXiv的论文尚未经过同行评审，但它已成为科研成果传播的主要渠道之一，其自身也成为了科研趋势的数据源。然而，随着大型语言模型的普及，大量未经充分审查、质量低下的AI生成论文涌入平台，严重干扰了正常的学术交流秩序。

ArXiv此前已采取了一些措施来应对这一问题，例如要求首次提交论文的作者必须获得一位资深作者的认可。在由康奈尔大学托管超过20年后，ArXiv正在转型为独立的非营利组织，这使其能够筹集更多资金来解决诸如“AI垃圾论文”等问题。

在最新的行动中，ArXiv计算机科学部门主席Thomas Dietterich于本周四发布公告称：“如果提交的论文中包含无可辩驳的证据，表明作者没有检查LLM生成的结果，这意味着我们无法信任论文中的任何内容。”Dietterich指出，这些“无可辩驳的证据”可能包括“幻觉参考文献”以及论文中留下的与LLM对话的痕迹或指令。一旦发现此类证据，论文的作者将面临“为期一年的ArXiv投稿禁令，并且禁令期满后，后续提交的论文必须首先被信誉良好的同行评审期刊或会议接收”。

值得强调的是，这项新规并非完全禁止使用LLM。Dietterich明确表示，无论内容是如何生成的，作者都必须对论文内容承担“全部责任”。因此，如果研究人员直接从LLM中复制粘贴“不恰当的语言、抄袭的内容、带有偏见的内容、错误、不准确的参考文献或误导性内容”，他们仍然需要为此负责。这意味着，AI可以成为研究助手，但绝不能替代研究者的学术判断和审慎核查。

Dietterich向404 Media透露，这将是“一次违规即受罚”的规则，但执行过程并非随意。首先，平台版主需要标记出问题论文，然后由部门主席确认证据确凿后，才能实施处罚。同时，作者有权对处罚决定提出申诉。这一程序性设计旨在确保规则的公平实施，避免误伤。

近期的一些同行评审研究已经发现，在生物医学研究领域，虚构引用（即由AI编造的不存在的参考文献）呈上升趋势。这并非科学家独有的问题，但AI工具的误用无疑加剧了这一学术不端现象。ArXiv的新规正是对这种学术诚信危机的直接回应。

对于AI开发者社区和研究人员而言，ArXiv的这项政策传递了一个清晰信号：AI是强大的生产力工具，但使用它时，人类的监督和审核不可或缺。在科研领域，真实性、可重复性和严谨性是永恒的核心价值。任何试图用AI“代笔”并逃避责任的行为，都将面临越来越高的代价。这一举措不仅有助于净化ArXiv的论文质量，也可能推动整个学术出版界对AI使用规范的进一步讨论和制定。