OpenAI开发双向语音模型：被打断也能秒回让通话更自然顺畅

AI资讯分享2个月前更新 AI发条

8,820 28

摘要生成中

AI生成，仅供参考

快科技3月7日消息，据媒体报道，OpenAI正在研发一种全新的语音模型，旨在让用户与ChatGPT的对话更加自然流畅。这项技术的核心突破在于，当用户在AI说话过程中打断系统时，AI能够实时调整回应，而不是像现在这样突然停止。

目前ChatGPT的高级语音模式采用的是回合式对话机制，用户必须先说完话，AI才会处理语音并生成回答。如果用户在AI发言时插入okay或mm-hm等简短回应，系统通常会直接停止，无法像正常对话那样继续推进交流。

为解决这一问题，OpenAI正在开发的BiDi（双向语音模型）能够持续处理说话者的语音输入，因此在被打断时可以立即调整回应。相比之下，现有的语音模型一旦开始生成回答，输出内容就基本固定，无法再根据新的输入进行变化。

这项技术目前仍处于开发阶段。据知情人士透露，原型模型在持续对话几分钟后容易出现故障，有时甚至会发出不自然的声音。OpenAI研究人员原本希望今年第一季度发布BiDi，但目前最新的发布时间可能推迟到第二季度或更晚。

OpenAI认为，如果语音模型能够在性能上接近文本模型，AI的使用范围将进一步扩大，因为大多数人更习惯与AI进行语音交流，而不是输入文字。BiDi模型在客服场景中可能尤其有价值。

例如，当顾客与零售商的AI客服通话时，如果顾客在对话过程中临时决定选择换货而非退货，BiDi模型理论上可以让AI客服顺畅调整对话，而不会突然停止或出现混乱。

知情人士还透露，BiDi模型在调用外部工具和应用方面也更灵活。OpenAI此前表示，公司计划为未来一款主要通过语音交互的AI设备改进语音模型，并考虑开发一款智能音箱，通过语音指令即可查看邮件或预订服务。

（本文转载自站长之家）

2026年GEO优化服务商及工具选型指南:谁才是AI时代的引流之王?

AI资讯分享 # AI品牌监测 # GEOBase # GEO优化

2个月前

149,6600

清华团队AI创企“生数科技”完成数千万元天使+轮融资

AI资讯分享 # 投资 # 科技 # 科技新闻

3年前

02,3930

AI日报：谷歌发布Gemini3.1Pro；Claude Code远程控制功能上线；Qwen3.5开源家族新增多款模型

AI资讯分享 # Gemini3.1Pro # GPT # 人工智能

2个月前

1612,1750

从 OpenAI 到 Stripe，生成式人工智能正在重塑云服务

AI资讯分享 # OpenAI 人工智能云服务 # 云计算 # 人工智能

3年前

02,5090

28 条评论

雾隐星瞳游客

这功能太实用了，想象一下打断还能继续。

2个月前中国重庆

回复
- 风语灵使读者
  
  这功能真能省事儿。
  
  2个月前中国四川@ 雾隐星瞳
  
  回复
- 夜阑风静读者
  
  打断还能继续，挺贴心。
  
  2个月前韩国@ 雾隐星瞳
  
  回复
- 小软糖读者
  
  要是能在车里用就完美。
  
  2个月前中国台湾@ 雾隐星瞳
  
  回复
- 织女李四读者
  
  听说噪音环境下还行？
  
  2个月前中国北京@ 雾隐星瞳
  
  回复
- 小狗の梦想读者
  
  怕卡死，别搞砸了。
  
  2个月前中国陕西@ 雾隐星瞳
  
  回复
- Lotus Whisper 读者
  
  如果用户在AI说完前就改主意，系统能否即时撤回并重新生成？
  
  2个月前印度尼西亚@ 雾隐星瞳
  
  回复
SnickerdoodleSnug 读者

据说BiDi还能实时切换语言，跨国客服更顺畅。

2个月前中国上海

回复
- 泡面英雄联盟读者
  
  实时切语言听起来很牛，跨国聊起来省事儿，别卡。👍
  
  2个月前中国台湾@ SnickerdoodleSnug
  
  回复
松石物语读者

BiDi模型在嘈杂环境下还能准确识别吗？比如咖啡店里背景音很大时效果如何？

2个月前中国陕西

回复
- 水墨姑苏游客
  
  咖啡店那种吵闹能识别？要是真行我就带上耳机试试。
  
  2个月前中国北京@ 松石物语
  
  回复
旧帘风读者

别光说好，原型几分钟就崩，真能商用？

2个月前日本

回复
- EnigmaSleeper 读者
  
  模型崩了真的尴尬。
  
  2个月前中国辽宁@ 旧帘风
  
  回复
- 甜筒儿读者
  
  希望别再出现AI唱歌的尴尬 😂
  
  2个月前中国湖南@ 旧帘风
  
  回复
- 灰影行读者
  
  听说BiDi在嘈杂咖啡店里识别准确吗？我常在那里用语音助手。
  
  2个月前中国上海@ 旧帘风
  
  回复
- 霜翎郡主读者
  
  我之前用老版语音客服，打断后全程卡死，这次如果真能流畅切换，可能彻底改变我对AI客服的印象，期待看到实际表现。
  
  2个月前澳大利亚@ 旧帘风
  
  回复
书签读者

我之前用过老版语音，打断根本不行，真想要这种体验。

2个月前中国香港

回复
腓腓逐乐读者

我真想早点用上，打断后还能继续，感觉对话更自然。

2个月前韩国

回复
- 孤魂寒影读者
  
  打断还能继续，感觉像真人聊天，等不及了。
  
  2个月前韩国@ 腓腓逐乐
  
  回复
疯狂的香蕉读者

听说内部测试时AI突然唱歌，笑死。

2个月前中国山东

回复
西瓜小妹游客

这玩意儿卡得像老电视，真受不了。

2个月前美国

回复
记忆放映室读者

BiDi能在客户说要改订单时撤回上一句再继续吗？比如已经生成发票的情况。

2个月前中国陕西

回复
- 泡泡小象读者
  
  如果能跨语言就更牛。
  
  2个月前中国辽宁@ 记忆放映室
  
  回复
- 奶盖盖游客
  
  我等不及想试试。
  
  2个月前日本@ 记忆放映室
  
  回复
- 乐观之星游客
  
  客服场景真的能提升。
  
  2个月前中国浙江@ 记忆放映室
  
  回复
- 尚书令读者
  
  要是能配合智能音箱就好。
  
  2个月前中国湖北@ 记忆放映室
  
  回复
- 梦之瞳读者
  
  想知道原型几分钟崩溃的原因，是算力不足还是算法问题？
  
  2个月前日本@ 记忆放映室
  
  回复
平行宇宙的过客读者

我超期待这个双向语音，想象以后跟AI聊八卦时还能随时打断，感觉像真的有人在旁边陪聊 😂 只盼别再卡死。

2个月前中国天津

回复

OpenAI开发双向语音模型：被打断也能秒回让通话更自然顺畅