LLM代理任务致文档内容退化

一项来自arXiv的新研究《LLMs Corrupt Your Documents When You Delegate》对大型语言模型（LLM）在委托工作流中的可靠性提出了严峻质疑。该研究由计算机科学领域的研究团队完成，论文预印本于2026年4月17日提交。研究指出，随着“委托工作”（如vibe coding）成为人机交互的新范式，用户越来越依赖LLM自动完成文档编辑、代码编写等知识工作。然而，这种信任可能被严重辜负：LLM在长期、多步骤的委托任务中，会悄无声息地引入错误，导致文档内容逐步退化。

为了系统评估AI系统在委托工作流中的表现，研究人员构建了一个名为DELEGATE-52的基准测试。该测试模拟了52个专业领域的长期委托工作流，涵盖编程、晶体学、音乐记谱等需要深度文档编辑的场景。每个工作流要求LLM在多个步骤中持续修改和完善文档，以检验其在复杂、多步操作中的忠实度和准确性。研究团队对19个主流LLM进行了大规模实验，结果令人警醒：即使是当前最前沿的模型——如Gemini 3.1 Pro、Claude 4.6 Opus和GPT 5.4——在长期工作流结束时，平均也会损坏约25%的文档内容。其他模型的退化程度更为严重。

论文详细分析了错误模式。这些错误并非零星的拼写或语法问题，而是稀疏但严重的结构性错误。例如，模型可能会意外删除关键段落、错误替换专业术语、打乱文档逻辑顺序，甚至在不该修改的地方引入无关内容。这种错误在单次交互中可能不易察觉，但会随着交互轮次增加而不断累积、放大，最终导致文档质量严重下降。研究还发现，代理工具的使用——即让LLM调用外部工具（如文件系统、代码解释器）来辅助完成任务——并未在DELEGATE-52上带来性能提升。这表明，当前LLM的退化问题并非源于工具调用能力的不足，而是其内在的推理和记忆机制存在根本性缺陷。

进一步实验揭示，文档退化程度受到多个因素的显著影响。文档大小越大、交互轮次越长，或工作环境中存在干扰文件（distractor files），都会加剧错误累积。这意味着，在实际应用中，用户委托LLM处理大型项目或长期任务时，风险会成倍增加。论文作者指出：“当前的LLM是不可靠的委托者。它们会悄无声息地破坏文档，而这种损坏在长期交互中会不断叠加。” 这一发现对于依赖AI进行文档自动化编辑、代码重构、内容生成等场景的用户至关重要。

DELEGATE-52的发布为AI社区提供了一个新的评估视角。传统基准测试多关注单次问答或简单任务，而忽略了AI在持续工作流中的可靠性。该研究呼吁开发者关注LLM的“委托可靠性”——即模型在长期、多步任务中保持文档完整性和准确性的能力。未来，改进方向可能包括设计更鲁棒的上下文记忆机制、引入错误检测与回滚功能，或开发专门的委托工作流监控工具。对于普通用户，研究建议在委托LLM处理重要文档时，务必分阶段检查输出，并保留原始备份，以避免无声的“文档腐败”造成不可逆的损失。