前OpenAI CTO创企推全双工AI交互模型

由前OpenAI首席技术官Mira Murati于去年创立的AI初创公司Thinking Machines Lab，近日宣布了一项名为“交互模型”（interaction models）的技术突破。该技术的核心在于让AI实现“全双工”（full duplex）通信——即AI在生成回复的同时，能够持续监听用户的输入，从而模拟出类似真实电话交谈的自然节奏，而非传统的一问一答式文本链。

当前市面上所有主流AI模型的工作方式均为半双工：用户说话时模型静默聆听，模型回复时用户则需等待。Thinking Machines试图打破这一单向模式，其新模型TML-Interaction-Small能够在处理用户输入的同时并行生成响应，将交互延迟压缩至0.40秒。这一速度已接近人类自然对话中的平均反应时间（约0.2至0.5秒），显著快于OpenAI和Google同类模型的响应速度。

该公司在技术公告中强调，这种交互方式并非简单的“打断”功能，而是将交互性内建于模型架构之中，而非事后附加的模块。这意味着模型能够更自然地处理对话中的重叠、停顿和修正，使AI助手在实时对话中更像一个“主动参与者”，而非被动的问答机器。

不过，Thinking Machines目前仅将其定位为“研究预览”，尚未向公众开放。该公司计划在未来几个月内发布一个“有限研究预览”版本，供特定研究人员和开发者测试，更广泛的公开发布则定于今年晚些时候。这一谨慎的发布节奏表明，团队仍在验证模型在真实场景中的鲁棒性和用户体验。

从技术角度看，全双工AI对话面临多重挑战。首先，模型需要实时处理输入流与输出流的同步，避免“听”与“说”之间的冲突；其次，如何在不牺牲理解质量的前提下实现低延迟响应，对模型架构和推理优化提出了极高要求。TML-Interaction-Small在基准测试中表现出色，但实际对话中的噪声、口音、语速变化等因素可能影响其表现。

行业观察人士指出，全双工交互是AI助手从“工具”进化为“伙伴”的关键一步。当前语音助手（如Siri、Alexa）均采用半双工模式，用户必须等待完整回答后才能继续提问，这种体验与人类对话的流畅性相去甚远。如果Thinking Machines的技术能够落地，将可能重新定义人机交互的范式——AI不再只是“回答问题”，而是能够“参与对话”。

值得注意的是，Mira Murati在OpenAI期间曾主导ChatGPT的语音模式开发，但当时的技术仍基于半双工架构。此次Thinking Machines的突破，可视为她在交互式AI领域的一次独立探索。该公司尚未披露模型的具体参数量、训练数据或推理成本，但强调其架构设计注重效率，能够在消费级硬件上运行。

尽管技术前景令人期待，但实际体验仍需验证。在有限研究预览阶段，早期测试者的反馈将至关重要——模型能否在嘈杂环境中准确捕捉用户意图？能否处理多人对话中的交叉发言？这些问题的答案将决定全双工AI是否真正具备实用价值。

对于开发者而言，Thinking Machines的发布意味着一个新的技术方向：未来构建语音应用时，或许不再需要复杂的“语音活动检测”和“中断逻辑”模块，而是直接调用原生支持全双工的模型API。这有望大幅降低实时语音AI应用的开发门槛。

总体而言，TML-Interaction-Small代表了AI交互技术的一次重要迭代。它将交互性从“附加功能”提升为“核心能力”，为更自然、更流畅的人机对话铺平了道路。不过，从研究预览到成熟产品之间仍有距离，我们期待看到它如何在真实世界中应对复杂多变的人类对话。