前OpenAI CTO创企推全双工AI交互模型
「前OpenAI CTO Mira Murati创立的Thinking Machines Lab发布全双工AI模型TML-Interaction-Small,支持同时听与说,响应仅0.40秒,接近人类对话速度。」
由前OpenAI首席技术官Mira Murati于去年创立的AI初创公司Thinking Machines Lab,近日宣布了一项名为“交互模型”(interaction models)的技术突破。该技术的核心在于让AI实现“全双工”(full duplex)通信——即AI在生成回复的同时,能够持续监听用户的输入,从而模拟出类似真实电话交谈的自然节奏,而非传统的一问一答式文本链。
当前市面上所有主流AI模型的工作方式均为半双工:用户说话时模型静默聆听,模型回复时用户则需等待。Thinking Machines试图打破这一单向模式,其新模型TML-Interaction-Small能够在处理用户输入的同时并行生成响应,将交互延迟压缩至0.40秒。这一速度已接近人类自然对话中的平均反应时间(约0.2至0.5秒),显著快于OpenAI和Google同类模型的响应速度。
该公司在技术公告中强调,这种交互方式并非简单的“打断”功能,而是将交互性内建于模型架构之中,而非事后附加的模块。这意味着模型能够更自然地处理对话中的重叠、停顿和修正,使AI助手在实时对话中更像一个“主动参与者”,而非被动的问答机器。
不过,Thinking Machines目前仅将其定位为“研究预览”,尚未向公众开放。该公司计划在未来几个月内发布一个“有限研究预览”版本,供特定研究人员和开发者测试,更广泛的公开发布则定于今年晚些时候。这一谨慎的发布节奏表明,团队仍在验证模型在真实场景中的鲁棒性和用户体验。
从技术角度看,全双工AI对话面临多重挑战。首先,模型需要实时处理输入流与输出流的同步,避免“听”与“说”之间的冲突;其次,如何在不牺牲理解质量的前提下实现低延迟响应,对模型架构和推理优化提出了极高要求。TML-Interaction-Small在基准测试中表现出色,但实际对话中的噪声、口音、语速变化等因素可能影响其表现。
行业观察人士指出,全双工交互是AI助手从“工具”进化为“伙伴”的关键一步。当前语音助手(如Siri、Alexa)均采用半双工模式,用户必须等待完整回答后才能继续提问,这种体验与人类对话的流畅性相去甚远。如果Thinking Machines的技术能够落地,将可能重新定义人机交互的范式——AI不再只是“回答问题”,而是能够“参与对话”。
值得注意的是,Mira Murati在OpenAI期间曾主导ChatGPT的语音模式开发,但当时的技术仍基于半双工架构。此次Thinking Machines的突破,可视为她在交互式AI领域的一次独立探索。该公司尚未披露模型的具体参数量、训练数据或推理成本,但强调其架构设计注重效率,能够在消费级硬件上运行。
尽管技术前景令人期待,但实际体验仍需验证。在有限研究预览阶段,早期测试者的反馈将至关重要——模型能否在嘈杂环境中准确捕捉用户意图?能否处理多人对话中的交叉发言?这些问题的答案将决定全双工AI是否真正具备实用价值。
对于开发者而言,Thinking Machines的发布意味着一个新的技术方向:未来构建语音应用时,或许不再需要复杂的“语音活动检测”和“中断逻辑”模块,而是直接调用原生支持全双工的模型API。这有望大幅降低实时语音AI应用的开发门槛。
总体而言,TML-Interaction-Small代表了AI交互技术的一次重要迭代。它将交互性从“附加功能”提升为“核心能力”,为更自然、更流畅的人机对话铺平了道路。不过,从研究预览到成熟产品之间仍有距离,我们期待看到它如何在真实世界中应对复杂多变的人类对话。
来源:Heooo AI工具导航