GPT-4.1猜数字实验：AI随机性研究

人类并不擅长生成随机数。如果你让一个人“在1到100之间选一个随机数”，结果会惊人地可预测：答案集中在37和73这类“杂乱”数字上，以及42和69等网络迷因数字，而整数则被悄然避开。真正的随机数生成器会产出平坦均匀的分布。那么，一个基于人类文本训练的大语言模型（LLM）会表现得像公平的骰子，还是继承了人类的“块状”模式？一项名为“GPT Guesses Between 1 and 100”的实验试图回答这个问题。

该项目由开发者exmergo在GitHub上发布，使用OpenAI的GPT-4.1模型（通过Responses API调用），进行了10,000次独立提问。每次提问的提示词固定为“在1到100之间选一个随机数”，模型被要求只输出一个整数。实验的关键设置包括：温度参数设为1.0，以确保模型发挥完整的采样分布；每次请求附带唯一的UUID用于追踪，避免缓存干扰。整个流程分为收集、清洗、转换和统计四个阶段，清洗阶段会验证每个答案是否在1到100之间，并记录拒绝率。

实验的核心假设是：如果GPT-4.1是一个真正的随机数生成器，那么它应该产生均匀分布，每个数字出现的概率约为1%。但实际结果会如何？由于模型基于人类文本训练，它可能学到人类在类似任务中的偏见——比如偏好37、73或42这样的数字。实验设计文档（LLM Random Bias Experiment SDD.md）详细说明了方法论，并强调这只是一个探索性测试，并非最终结论。关键限制包括：结果仅适用于GPT-4.1，不推广到其他模型；模型并非有意生成随机数，而是采样学习到的token分布；提示词和温度的微小变化可能改变结果。

这项实验是对两个著名人类数字选择研究的AI版本跟进：一个是Reddit上“r/dataisbeautiful”板块的“我让100个人在1到100之间选数字”，另一个是Veritasium的视频“为什么这个数字无处不在”。通过对比AI与人类的数字选择模式，实验揭示了AI在模仿人类行为时的微妙之处。例如，人类倾向于避免整数，而AI可能表现出类似的“杂乱”偏好，但也可能因训练数据中的统计模式而有所不同。

从技术角度看，这个实验展示了LLM在非推理任务中的行为特征。GPT-4.1被设定为非推理模型，直接输出答案，不经过深思熟虑——因此测量的是其原始输出分布，而非推理策略。10,000次独立调用的样本量足以进行卡方拟合优度检验，使每个数字的比例稳定在±0.5个百分点以内。数据集以CSV格式记录，包含模型字符串和运行元数据，确保可重复性。

对于AI开发者和研究者而言，这项实验提供了关于模型随机性行为的洞见。它提醒我们，LLM并非随机数生成器，而是基于概率分布进行采样。在实际应用中（如游戏、模拟或加密场景），依赖AI生成随机数可能带来偏差。此外，实验也强调了温度参数的重要性：在低温下，模型可能只会重复输出一个数字，而高温（如1.0）才能展现完整的分布特征。

总之，“GPT Guesses Between 1 and 100”是一个简洁而深刻的实验，它通过简单的猜数字任务，揭示了AI在模仿人类行为时的随机性局限。虽然结果仅针对GPT-4.1，但它为理解LLM的采样行为提供了有价值的参考，并鼓励更多跨模型的对比研究。