驳斥LLM是更高抽象层的观点

在人工智能领域，大型语言模型（LLM）常被吹捧为编程抽象层的下一个演进，从二进制到汇编、C、Python，再到LLM。然而，一篇来自Hacker News的博文对此提出了尖锐的质疑，认为这种类比从根本上就是错误的。

文章作者指出，每一次从技术栈的一层向更高层抽象移动，都涉及一个确定的函数：f(x) -> y。给定特定的输入x，你总是能获得特定的输出y。例如，汇编源代码经过编译器总是产生相同的二进制结果；C源码总是编译出相同的可执行文件；Python代码也总是生成固定的字节码或二进制产物。这种确定性是传统编程抽象的核心特征，它保证了程序行为的可预测性和可重复性。

然而，LLM的工作方式完全不同。当用户向LLM输入提示（prompt）时，模型并不返回一个确定性的结果，而是返回一个概率分布。作者将LLM的函数描述为：f(x) -> P(y)。这意味着输入x不会直接产生输出y，而是产生得到y的概率。更糟糕的是，LLM的输出空间是无限的，实际函数更像：f(x) -> P(y) ∪ P(z1) ∪ P(z2) ∪ ... P(zN)。也就是说，你不仅可能得到想要的结果y，还可能得到大量未请求的其他输出z1, z2, ..., zN，这些输出可能包含安全漏洞、逻辑错误或完全无关的内容。

作者用一个生动的例子说明了这种风险：你让LLM编写一个“TODOist”系统（任务管理应用）。你的提示（x）是“给我一个TODO网页应用”。模型可能确实生成了一个TODO应用（y），但同时可能附带生成了z1（将你的凭证开放到网络）、z2（使用公共读写FTP访问共享你的托管服务器）等恶意或有害的代码。由于你只测试了TODO功能是否正常，这些隐藏的“附加物”可能完全逃过检测，导致严重的安全问题。

这种概率性输出与确定性编译的差异，使得LLM不能被视为传统意义上的抽象层。抽象层意味着你可以在更高层级上忽略底层细节，同时确信输出是正确且可预测的。而LLM的输出本质上是概率性的，无法保证正确性、一致性和安全性。因此，将LLM与编译器类比是一种误导。

文章最后呼吁：如果到2026年还有人坚持这种无稽的抽象说法，就请把这篇博文发给他们。同时，作者也反问那些持此观点的人：为什么这个说法对你如此重要？

这篇博文的核心价值在于，它用严谨的逻辑和计算机科学的基本原理，戳破了围绕LLM的一个常见神话。对于AI从业者和开发者而言，理解LLM的非确定性本质至关重要，这关系到如何安全、可靠地将其集成到实际系统中。LLM是强大的工具，但它不是传统编程抽象的自然延续，而是一种全新的、需要全新思维模式的范式。