OpenAI开发双向语音模型：被打断也能秒回让通话更自然顺畅

9 小时前

据媒体报道，OpenAI正研发一款新型语音模型，核心突破在于实现对话实时调整——当用户打断AI发言时，模型可立即根据新输入调整回应内容，而非中断对话。现有语音模型在生成回答后内容固定，无法根据用户中途插话动态修正，而新模型通过持续处理语音输入流，支持边听边说的自然交互模式。该技术尚处开发阶段，原型模型在持续对话数分钟后易出现故障，发布时间已从原计划的2026年第一季度推迟至第二季度或更晚。OpenAI认为，若语音模型性能接近文本模型，将显著拓展AI应用场景，因其更符合人类习惯的语音交互方式可降低使用门槛。从应用场景看，该模型在客服领域价值突出，例如用户临时变更需求时，AI可无缝衔接对话逻辑，避免服务中断或混乱。此外，该技术或为OpenAI规划的语音交互AI设备及智能音箱类产品提供底层支持，使用户能通过语音指令完成查邮件、预订服务等操作。