周鸿�t表示,这次OpeanAI发布的是GPT-4o,最大的惊艳就是它的语音输入和声音输出的整体体验。在过去,我们在处理声音的时候,实际上是用了三个引擎,先是说话后把语音用一个语音识别引擎翻译成文字,然后再把文字交给大模型去处理,然后大模型处理完了再把答案通过一个叫TTS的引擎,把文字转成语音,然后再输出来。
周鸿�t指出,这样做的结果是,体验非常不像真人,比如这三个引擎合起来的时延就特别长,而我们真人说话一句话反应的时延大概在300毫秒左右,但是用三个引擎联合起来,这种做得假的语音响应和语音处理延迟至少在2秒到3秒以上,你就知道他不是真人。
此外,因为分了三个引擎,就会导致人们在说话中的很多的情绪语调等微妙的东西都被丢掉,所以输出语音的时候也自然没有人的情绪,所以很多机器人发音就没有抑扬顿挫,平铺直叙听不出感情。同时,传统语言交互经常需要喊出唤醒词的设计,也会极大地影响交互体验。
“但在有了openai的这种对话能力后,大家以后不会觉得我的分享像个数字人,反而会说老周还不如数字人了。”周鸿�t自我调侃道。(文猛)
责任编辑:尉旖涵
推荐阅读: