OpenAI系统提示词泄密：GPT-5.5严禁提及哥布林

科技媒体Ars Technica于近日发布的一则报道在AI圈掀起波澜。在OpenAI最新开源的Codex CLI代码中，其新一代模型GPT-5.5的系统提示词意外曝光。这份长达3500多词的基础指令集不仅揭示了模型的行为规范，更包含一条极为古怪的指令：严禁在对话中谈论“哥布林”及“小精灵”等幻想生物。这一发现迅速成为社交媒体上的热门话题，同时也引发了技术专家对大型语言模型控制策略的深入讨论。

据泄露的指令内容显示，除非用户查询存在绝对明确的关联性，否则GPT-5.5明确禁止讨论哥布林、小精灵、浣熊、巨魔及鸽子等生物。令人费解的是，这一禁令在指令中重复出现了两次，其权重与“禁止执行破坏性命令”等常规准则并列。技术专家分析认为，这并非某种营销噱头，而是针对特定技术漏洞的“补丁”。近期有大量用户反馈，GPT在处理无关话题时，会莫名其妙地在输出内容中反复提及哥布林。这种针对性的指令，极有可能是为了抑制新模型在生成过程中产生的不稳定性幻觉。

对比早期的模型文件可以发现，这种对特定生物的禁令是GPT-5.5版本中特有的现象。OpenAI工程师对此表示，这反映了大型语言模型在处理复杂逻辑时，可能会对某些词汇产生异常的偏移倾向，必须通过底层指令进行强行干预。例如，模型可能在训练数据中学习到了哥布林相关的奇幻故事或游戏设定，导致其在生成文本时容易“跑偏”。通过系统提示词直接禁止相关词汇，是一种简单但有效的硬性约束手段。

这一事件也暴露出大模型在精细化控制上的挑战。随着GPT-5.5逐步推向市场，如何平衡模型的创造力与逻辑稳定性，依然是OpenAI工程师们需要解决的核心难题。一方面，用户希望模型能够自由联想、生成新颖内容；另一方面，企业需要确保模型输出可靠、不产生有害或荒谬的幻觉。这种“哥布林禁令”虽然看似荒诞，实则揭示了AI对齐工作中一个真实的痛点：当模型在特定领域出现系统性偏差时，工程师不得不采取非常规的“打补丁”方式。

从技术演进的角度看，系统提示词的设计正在成为模型迭代的关键环节。GPT-5.5的这份提示词不仅包含了安全准则、角色设定、输出格式等常规内容，还加入了大量针对已知问题的“例外规则”。例如，除了禁止讨论哥布林外，指令还要求模型避免使用某些特定句式，以防止生成重复或矛盾的回答。这种精细化的控制策略，反映了OpenAI在模型部署中积累的经验教训，也预示了未来AI系统将越来越多地依赖“规则引擎”来约束行为。

尽管这一特殊的“补丁”已经演变成社交媒体上的热门话题，但它也让外界得以一窥顶尖AI实验室的内部工作流程。对于开发者社区而言，这次泄露提供了宝贵的参考：如何通过系统提示词来引导模型行为，以及如何针对特定漏洞设计有效的缓解措施。或许在不久的将来，类似的“黑名单”或“白名单”指令将成为大模型标配的一部分，而“哥布林禁令”也将作为AI发展史上的一个有趣注脚被记录下来。