周鸿�t评GPT-4o发布:智力的提升外,最重要的是交互能力提升

科创之家 2024-05-23 人围观 机器人

周鸿�t表示,这次OpeanAI发布的是GPT-4o,最大的惊艳就是它的语音输入和声音输出的整体体验。在过去,我们在处理声音的时候,实际上是用了三个引擎,先是说话后把语音用一个语音识别引擎翻译成文字,然后再把文字交给大模型去处理,然后大模型处理完了再把答案通过一个叫TTS的引擎,把文字转成语音,然后再输出来。

周鸿�t指出,这样做的结果是,体验非常不像真人,比如这三个引擎合起来的时延就特别长,而我们真人说话一句话反应的时延大概在300毫秒左右,但是用三个引擎联合起来,这种做得假的语音响应和语音处理延迟至少在2秒到3秒以上,你就知道他不是真人。

此外,因为分了三个引擎,就会导致人们在说话中的很多的情绪语调等微妙的东西都被丢掉,所以输出语音的时候也自然没有人的情绪,所以很多机器人发音就没有抑扬顿挫,平铺直叙听不出感情。同时,传统语言交互经常需要喊出唤醒词的设计,也会极大地影响交互体验。

“但在有了openai的这种对话能力后,大家以后不会觉得我的分享像个数字人,反而会说老周还不如数字人了。”周鸿�t自我调侃道。(文猛)

责任编辑:尉旖涵

周鸿�t评GPT-4o发布:智力的提升外,最重要的是交互能力提升

推荐阅读:

中国飞镖公开赛舟山落幕 四赛融合展现飞镖魅力

唐澄波作品展亮相杭州画院美术馆

蓝厅观察丨菲律宾威胁提起新一轮仲裁 胡搅蛮缠 毫无意义

不容错过
Powered By Z-BlogPHP