OpenAI开发双向语音模型:被打断也能秒回 让通话更自然顺畅

AI资讯分享2周前更新 AI发条
3,190 28
摘要生成中
AI生成,仅供参考

快科技3月7日消息,据媒体报道,OpenAI正在研发一种全新的语音模型,旨在让用户与ChatGPT的对话更加自然流畅。这项技术的核心突破在于,当用户在AI说话过程中打断系统时,AI能够实时调整回应,而不是像现在这样突然停止。

目前ChatGPT的高级语音模式采用的是回合式对话机制,用户必须先说完话,AI才会处理语音并生成回答。如果用户在AI发言时插入okay或mm-hm等简短回应,系统通常会直接停止,无法像正常对话那样继续推进交流。

OpenAI开发双向语音模型:被打断也能秒回 让通话更自然顺畅

为解决这一问题,OpenAI正在开发的BiDi(双向语音模型)能够持续处理说话者的语音输入,因此在被打断时可以立即调整回应。相比之下,现有的语音模型一旦开始生成回答,输出内容就基本固定,无法再根据新的输入进行变化。

这项技术目前仍处于开发阶段。据知情人士透露,原型模型在持续对话几分钟后容易出现故障,有时甚至会发出不自然的声音。OpenAI研究人员原本希望今年第一季度发布BiDi,但目前最新的发布时间可能推迟到第二季度或更晚。

OpenAI认为,如果语音模型能够在性能上接近文本模型,AI的使用范围将进一步扩大,因为大多数人更习惯与AI进行语音交流,而不是输入文字。BiDi模型在客服场景中可能尤其有价值。

例如,当顾客与零售商的AI客服通话时,如果顾客在对话过程中临时决定选择换货而非退货,BiDi模型理论上可以让AI客服顺畅调整对话,而不会突然停止或出现混乱。

知情人士还透露,BiDi模型在调用外部工具和应用方面也更灵活。OpenAI此前表示,公司计划为未来一款主要通过语音交互的AI设备改进语音模型,并考虑开发一款智能音箱,通过语音指令即可查看邮件或预订服务。

(本文转载自站长之家)

© 版权声明

相关文章

28 条评论

  • 雾隐星瞳
    雾隐星瞳 游客

    这功能太实用了,想象一下打断还能继续。

    中国重庆
    回复
    • 风语灵使
      风语灵使 读者

      这功能真能省事儿。

      中国四川@ 雾隐星瞳
      回复
    • 夜阑风静
      夜阑风静 读者

      打断还能继续,挺贴心。

      韩国@ 雾隐星瞳
      回复
    • 小软糖
      小软糖 读者

      要是能在车里用就完美。

      中国台湾@ 雾隐星瞳
      回复
    • 织女李四
      织女李四 读者

      听说噪音环境下还行?

      中国北京@ 雾隐星瞳
      回复
    • 小狗の梦想
      小狗の梦想 读者

      怕卡死,别搞砸了。

      中国陕西@ 雾隐星瞳
      回复
    • Lotus Whisper
      Lotus Whisper 读者

      如果用户在AI说完前就改主意,系统能否即时撤回并重新生成?

      印度尼西亚@ 雾隐星瞳
      回复
  • SnickerdoodleSnug
    SnickerdoodleSnug 读者

    据说BiDi还能实时切换语言,跨国客服更顺畅。

    中国上海
    回复
    • 泡面英雄联盟
      泡面英雄联盟 读者

      实时切语言听起来很牛,跨国聊起来省事儿,别卡。👍

      中国台湾@ SnickerdoodleSnug
      回复
  • 松石物语
    松石物语 读者

    BiDi模型在嘈杂环境下还能准确识别吗?比如咖啡店里背景音很大时效果如何?

    中国陕西
    回复
    • 水墨姑苏
      水墨姑苏 游客

      咖啡店那种吵闹能识别?要是真行我就带上耳机试试。

      中国北京@ 松石物语
      回复
  • 旧帘风
    旧帘风 读者

    别光说好,原型几分钟就崩,真能商用?

    日本
    回复
    • EnigmaSleeper
      EnigmaSleeper 读者

      模型崩了真的尴尬。

      中国辽宁@ 旧帘风
      回复
    • 甜筒儿
      甜筒儿 读者

      希望别再出现AI唱歌的尴尬 😂

      中国湖南@ 旧帘风
      回复
    • 灰影行
      灰影行 读者

      听说BiDi在嘈杂咖啡店里识别准确吗?我常在那里用语音助手。

      中国上海@ 旧帘风
      回复
    • 霜翎郡主
      霜翎郡主 读者

      我之前用老版语音客服,打断后全程卡死,这次如果真能流畅切换,可能彻底改变我对AI客服的印象,期待看到实际表现。

      澳大利亚@ 旧帘风
      回复
  • 书签
    书签 读者

    我之前用过老版语音,打断根本不行,真想要这种体验。

    中国香港
    回复
  • 腓腓逐乐
    腓腓逐乐 读者

    我真想早点用上,打断后还能继续,感觉对话更自然。

    韩国
    回复
    • 孤魂寒影
      孤魂寒影 读者

      打断还能继续,感觉像真人聊天,等不及了。

      韩国@ 腓腓逐乐
      回复
  • 疯狂的香蕉
    疯狂的香蕉 读者

    听说内部测试时AI突然唱歌,笑死。

    中国山东
    回复
  • 西瓜小妹
    西瓜小妹 游客

    这玩意儿卡得像老电视,真受不了。

    美国
    回复
  • 记忆放映室
    记忆放映室 读者

    BiDi能在客户说要改订单时撤回上一句再继续吗?比如已经生成发票的情况。

    中国陕西
    回复
  • 平行宇宙的过客
    平行宇宙的过客 读者

    我超期待这个双向语音,想象以后跟AI聊八卦时还能随时打断,感觉像真的有人在旁边陪聊 😂 只盼别再卡死。

    中国天津
    回复