摘要生成中
AI生成,仅供参考
快科技3月7日消息,据媒体报道,OpenAI正在研发一种全新的语音模型,旨在让用户与ChatGPT的对话更加自然流畅。这项技术的核心突破在于,当用户在AI说话过程中打断系统时,AI能够实时调整回应,而不是像现在这样突然停止。
目前ChatGPT的高级语音模式采用的是回合式对话机制,用户必须先说完话,AI才会处理语音并生成回答。如果用户在AI发言时插入okay或mm-hm等简短回应,系统通常会直接停止,无法像正常对话那样继续推进交流。

为解决这一问题,OpenAI正在开发的BiDi(双向语音模型)能够持续处理说话者的语音输入,因此在被打断时可以立即调整回应。相比之下,现有的语音模型一旦开始生成回答,输出内容就基本固定,无法再根据新的输入进行变化。
这项技术目前仍处于开发阶段。据知情人士透露,原型模型在持续对话几分钟后容易出现故障,有时甚至会发出不自然的声音。OpenAI研究人员原本希望今年第一季度发布BiDi,但目前最新的发布时间可能推迟到第二季度或更晚。
OpenAI认为,如果语音模型能够在性能上接近文本模型,AI的使用范围将进一步扩大,因为大多数人更习惯与AI进行语音交流,而不是输入文字。BiDi模型在客服场景中可能尤其有价值。
例如,当顾客与零售商的AI客服通话时,如果顾客在对话过程中临时决定选择换货而非退货,BiDi模型理论上可以让AI客服顺畅调整对话,而不会突然停止或出现混乱。
知情人士还透露,BiDi模型在调用外部工具和应用方面也更灵活。OpenAI此前表示,公司计划为未来一款主要通过语音交互的AI设备改进语音模型,并考虑开发一款智能音箱,通过语音指令即可查看邮件或预订服务。
(本文转载自站长之家)
© 版权声明
文章版权归作者所有,未经允许请勿转载。
这功能太实用了,想象一下打断还能继续。
这功能真能省事儿。
打断还能继续,挺贴心。
要是能在车里用就完美。
听说噪音环境下还行?
怕卡死,别搞砸了。
如果用户在AI说完前就改主意,系统能否即时撤回并重新生成?
据说BiDi还能实时切换语言,跨国客服更顺畅。
实时切语言听起来很牛,跨国聊起来省事儿,别卡。👍
BiDi模型在嘈杂环境下还能准确识别吗?比如咖啡店里背景音很大时效果如何?
咖啡店那种吵闹能识别?要是真行我就带上耳机试试。
别光说好,原型几分钟就崩,真能商用?
模型崩了真的尴尬。
希望别再出现AI唱歌的尴尬 😂
听说BiDi在嘈杂咖啡店里识别准确吗?我常在那里用语音助手。
我之前用老版语音客服,打断后全程卡死,这次如果真能流畅切换,可能彻底改变我对AI客服的印象,期待看到实际表现。
我之前用过老版语音,打断根本不行,真想要这种体验。
我真想早点用上,打断后还能继续,感觉对话更自然。
打断还能继续,感觉像真人聊天,等不及了。
听说内部测试时AI突然唱歌,笑死。
这玩意儿卡得像老电视,真受不了。
BiDi能在客户说要改订单时撤回上一句再继续吗?比如已经生成发票的情况。
如果能跨语言就更牛。
我等不及想试试。
客服场景真的能提升。
要是能配合智能音箱就好。
想知道原型几分钟崩溃的原因,是算力不足还是算法问题?
我超期待这个双向语音,想象以后跟AI聊八卦时还能随时打断,感觉像真的有人在旁边陪聊 😂 只盼别再卡死。