1月5日,据外媒The Information报道,OpenAI计划于2026年第一季度推出全新的语音AI模型,并预计在一年后发布首款完全通过语音指令操控的个人设备。这款设备可能是OpenAI CEO萨姆·阿尔特曼在2025年11月21日访谈中提到的AI硬件产品矩阵的一部分。除了单一产品外,OpenAI还在规划一整套设备矩阵,可能包括智能眼镜和无屏幕智能音箱等。

多位ChatGPT员工透露,目前OpenAI的语音AI模型在回复准确性和响应速度上明显落后于文本模型。为此,OpenAI在过去两个月内整合了多个工程、产品和研究团队,对语音AI进行了一次全面重构。新模型将在音质、延迟和交互方式上进一步逼近真实对话体验,甚至能够在用户说话的同时进行语音播报,呈现更接近“对话伙伴”的状态。

回顾OpenAI在语音方向上的技术演进,2022年其推出的Whisper是一套以高准确率著称的自动语音识别系统,主要解决“听懂人说话”的问题;2025年,OpenAI发布了GPT-realtime语音转语音模型,开始探索低延迟、连续对话式的语音交互。这一系列尝试为全新一代语音AI模型的架构重塑奠定了基础。新一代模型在架构层面进行了调整,能够生成听感更自然、情绪更丰富的语音回复,同时在回答深度和准确性上也有明显提升。与现有模型相比,新的语音AI模型可以实现与用户“同步说话”,并在对话中更好地应对打断和插话。这种实时、连续的语音交互能力是当前语音AI模型尚未具备的。






