推理越长偏见越深：位置偏差新发现

一项来自arXiv的新研究揭示了推理模型一个令人意外的行为特征：随着模型生成更长的思考链（Chain-of-Thought, CoT），其答案选择中的位置偏见（Position Bias）会系统性增强。该论文题为《More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models》，通过对DeepSeek-R1等主流推理模型的深入分析，指出“思考越多”并不一定意味着“偏见越少”，反而可能引入新的结构性偏差。

研究团队在MMLU、ARC-Challenge和GPQA等多个多选题基准上，测试了13种推理模式配置，包括两个R1蒸馏的7B-8B模型、两个使用CoT提示的基础模型，以及671B参数的DeepSeek-R1。结果显示，在控制准确率后，有12种配置的推理轨迹长度与位置偏见分数（PBS）之间呈现显著的正偏相关，相关系数范围从0.11到0.41（所有p值均小于0.05）。更值得注意的是，所有12个开源推理模式配置中，PBS值随推理长度四分位数单调递增。

为了进一步确认因果关系，研究者设计了截断干预实验：从推理轨迹的后期恢复生成时，模型更倾向于转向位置偏好的选项。对于R1-Qwen-7B模型，在不同绝对位置桶中，这种转向比例从16%上升至32%。这一结果直接表明，较长的推理过程本身会放大位置偏见，而非仅仅是相关性。

即使是在671B的DeepSeek-R1上，整体PBS虽然降至0.019，但最长的推理四分位数中仍存在显著的偏见（PBS = 0.071）。这表明，大规模模型的高准确率只是掩盖了长度驱动的偏见机制，而非消除了它。研究指出，准确率像一个“门控”因素，只有当模型出错或不确定时，长度积累的偏见才会显现。

此外，研究还区分了直接答案位置偏见与推理轨迹长度驱动的偏见。直接答案偏见在不同模型上表现迥异——在Llama-Instruct-direct上很强，在Qwen-Instruct-direct上很弱，且与推理长度无关。而CoT推理则用“长度累积偏见”取代了这种基线偏见，形成一种全新的偏差模式。

该研究对当前评估推理模型的标准实践提出了重要警示：在多选题评估（MCQ）中，不应默认推理模型对选项顺序是鲁棒的。论文还提供了一个诊断工具包，包括PBS、承诺变化点、有效切换率和截断探针，用于审计推理模型中的位置偏见。

这一发现对AI社区具有深远意义。随着推理模型在复杂任务中的广泛应用，开发者需要意识到，增加推理深度并不自动等同于减少偏差。相反，思考链的延长可能成为一种新的偏见放大器，尤其是在模型不确定的边界区域。未来的模型设计可能需要引入对推理轨迹长度的正则化，或在评估时对选项顺序进行更精细的控制，以确保评估结果的公平性和可靠性。