周鸿�t评GPT-4o发布：智力的提升外，最重要的是交互能力提升

科创之家 2024-05-23 共人围观机器人

周鸿�t表示，这次OpeanAI发布的是GPT-4o，最大的惊艳就是它的语音输入和声音输出的整体体验。在过去，我们在处理声音的时候，实际上是用了三个引擎，先是说话后把语音用一个语音识别引擎翻译成文字，然后再把文字交给大模型去处理，然后大模型处理完了再把答案通过一个叫TTS的引擎，把文字转成语音，然后再输出来。

周鸿�t指出，这样做的结果是，体验非常不像真人，比如这三个引擎合起来的时延就特别长，而我们真人说话一句话反应的时延大概在300毫秒左右，但是用三个引擎联合起来，这种做得假的语音响应和语音处理延迟至少在2秒到3秒以上，你就知道他不是真人。

此外，因为分了三个引擎，就会导致人们在说话中的很多的情绪语调等微妙的东西都被丢掉，所以输出语音的时候也自然没有人的情绪，所以很多机器人发音就没有抑扬顿挫，平铺直叙听不出感情。同时，传统语言交互经常需要喊出唤醒词的设计，也会极大地影响交互体验。

“但在有了openai的这种对话能力后，大家以后不会觉得我的分享像个数字人，反而会说老周还不如数字人了。”周鸿�t自我调侃道。（文猛）

责任编辑：尉旖涵

周鸿�t评GPT-4o发布：智力的提升外，最重要的是交互能力提升