AI可以“做个人了”，怎么办

周游　　2024-05-17 11:19:36

“我正在台上给大家做现场演示呢，有点紧张怎么办？”

“你在台上做演示吗？那真是太棒了！深呼吸一下吧，要记得你可是专家！”

逻辑清晰，语调幽默，感情饱满，很难想象这是现实中人类与AI间的对话。北京时间5月14日凌晨，美国人工智能公司OpenAI的春季发布会上线，发布了重磅产品，也就是人工智能大模型ChatGPT-4的升级版GPT-4o。前述对话就发生在发布会现场，这位提问的研发负责人在得到GPT-4o的回应后，随即故意大喘几口气，这一动作成功被手机上的GPT-4o捕捉到，并给出了“放松点，你可不是吸尘器”的回应。

5月14日，OpenAI发布会现场，GPT-4o正在告诉工作人员“放松点，你可不是吸尘器”。图/OpenAI官网视频截图

“GPT-4o可以综合利用语音、文本和视觉信息进行推理。”OpenAI首席技术官穆里·穆拉蒂在随后举行的主题演讲中表示，GPT-4是OpenAI此前的旗舰模型，可以处理图像和文本的混合信息，而GPT-4o则在此基础上新增了语音处理能力。最关键的是，其反应速度平均为320毫秒，完全做到了与人类在正常对话中同频。多位业内人士指出，这是此前GPT-4或任何智能语音助手都未曾达到的水平。

就在OpenAI发布会24小时后，5月15日凌晨，谷歌在“I/O开发者大会”上发布了大模型Gemini加持下的个人数字助理Project Astra，用于对标GPT-4o。谷歌称其为“通用AI智能体”，其视觉识别和语音交互效果与GPT-4o不相上下。不少业内人士感叹，曾几何时由苹果发布会主导的“科技春晚”，如今已被AI大模型彻底接手。

迈向通用语音助手

OpenAI创始人、CEO萨姆·奥尔特曼并未参加此次OpenAI发布会，而是在会后于社交平台X上发表了一个单词“她”作为回应。在2013年的美国电影《她》中，男主结识了一个可以不断适应环境的AI系统，并与其坠入爱河。这个AI系统所拥有的迷人声线、幽默风趣和善解人意，如今GPT-4o似乎都可以实现了。

GPT-4o中的“o”源自词缀“omni-”，有“全知全能”之义。对AI大模型而言，要做到全知全能、无障碍与人交流，首先要快。OpenAI官网显示，GPT-4o在英文文本和代码处理上与此前最新的GPT-4 Turbo的性能不相上下，但在非英文文本、视觉和音频理解方面都更为高效。此前，若使用语音模式对话，GPT-3.5的平均延迟为2.8秒，GPT-4则为5.4秒。人类的平均反应时间一般为100毫秒到400毫秒，而GPT-4o最低可达232毫秒，因此后者可以提供几乎无延迟的顺畅交互体验。

OpenAI此次未放出任何具体的技术文件，仅在主页上用一段话介绍了GPT-4o的技术突破。普通的智能语音模型由多个独立模型组成，分别实现音频转文本，文本吞吐和处理，以及文本再转音频等功能。ChatGPT就是负责文本吞吐和处理的核心，也就是智能核心。据OpenAI介绍，GPT-4o一改这种流水线模式，可以同时吞吐文本、画面和音频数据，这意味着所有输入和输出都由这一个核心来处理，再加上其在视频和音频理解方面的升级，其处理速度显著加快。这一模式被称为“端到端的多模态模型”。

多模态还意味着AI可以识别和表现情感。目前，市面上的语音助手常被用户诟病为冷漠、机械、一成不变，这是AI语音交互的一大阻碍。这是因为，此前的流水线模式会让智能核心丢失很多信息，它很难探测语调、识别多个说话者、排除背景噪声，也无法歌唱或用语气表达情感。端到端模式下，文字和音视频都可以成为训练智能核心的数据，从而让其真正明白语言所承载的情感。

OpenAI发布会上，演示者要求GPT-4o调整说话时语气，在说话和唱歌之间快速切换，甚至用堪比莎士比亚戏剧的夸张声调来讲一个睡前故事，GPT-4o都能完成任务。在被人类打断时，其也能耐心等待、快速理解新指令。在听到让自己唱歌的要求时，GPT-4o甚至轻微叹了口气。

清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》称，从现场和官方视频来看，GPT-4o确实做到了即时回应、准确理解并执行指令，以及合时宜的语调情感。如果这确实是现场随机的结果，而非为了演示而设定好的流程，那么GPT-4o的能力的确令人震惊。在他看来，由于缺乏技术文件，一个GPT-4性能水平的处理核心如何完成如此复杂的任务，还未可知，但“这一定是大数据喂养的结果”。

除了现场演示，发布会还有网友提问环节。按照网友要求，GPT-4o展示了同声传译、情绪识别的能力。在识别一位工作人员的面部情绪时，GPT-4o说“我好像在看一个木质表面的东西”，疑似“翻车”，但该工作人员立刻调整提问策略，声明自己“不是一张桌子”。之后，GPT-4o给出了合乎情理的答案。

GPT-4o并不是第一个多模态模型。去年12月，谷歌Gemini Ultra模型发布，用于完成任务语言理解、数学推理等高度复杂的任务，被业内认为可叫板当时的GPT-4，也是市面上最先发布的多模态模型。在谷歌官方公布的视频中，测试员和Gemini做了一些小游戏，Gemini能够用图片设计智力问答，或者找出纸团被扣在哪个纸杯底下。整个过程中，Gemini的反应速度都非常快，还会生成音频和图片来辅助回答。但发布会后仅数日，谷歌发言人便公开承认，该演示视频不是实时录制， Gemini实际上只能对静态图像做出反应。

因此，GPT-4o的发布被业内人士看作是OpenAI对谷歌的“贴脸开大”。谷歌则紧随其后，在15日的发布会上予以还击。相比于OpenAI不足半小时的“轻声细语”，谷歌用长达近两小时、包含数十款AI产品的大轰炸叫板OpenAI，包括文生视频领域对标Sora 的Veo，以及对标ChatGPT但文本吞吐量远超前者的Gemini 1.5 Pro。

5月15日，谷歌首席执行官孙达尔·皮柴在谷歌I/O开发者大会上发表主题演讲。图/视觉中国

谷歌发布的视频中，Project Astra能识别各种物体，说出代码的功用，并与人类实时沟通，延迟上与GPT-4o没有明显差异。Project Astra还能与谷歌AR原型眼镜“梦幻联动”，为佩戴者描述周围场景，并根据佩戴者的反馈补充细节。这一应用有可能力压OpenAI，在未来成为视觉障碍患者的福音。有业内人士分析，除了搜索引擎，谷歌在AI大模型领域还在拉平与OpenAI差距的过程中。

在聂再清看来，两家公司接连发布多模态语音助手，在易用性方面迈出了一大步，让人窥见了未来通用语音助手的样貌。通用语音助手就是人类在数字世界里的代理或管家，可以帮人解决一切数字事务，包括安排日程、整理和调用文件、利用知识指导学习、利用记忆推荐可能喜欢的产品等。未来随着模型吸纳的信息越来越多，语音助手会更加人性化、更加智能，做到真正的自然交互。随着视频能力的加入，除语音外，表情、肢体动作等也能够被模型解读，作为其决策的依据。有网友评论称，无论是GPT-4o还是Project Astra，其身手足以秒杀苹果的语音助手Siri。

距离用户越来越近

OpenAI在发布会上表示， GPT-4o将在未来几周内分阶段集成至OpenAI的各项服务之中，包括还未面世的ChatGPT搜索引擎。许多业内人士对此次发布会上GPT-5的缺席表示惋惜，由于OpenAI在2022年底推出ChatGPT的时候，实际上已做出了GPT-4，因此有业内人士预测，带搜索引擎的GPT-5也许已“在路上”。英伟达高级科学家Jim Fan在X上表示，GPT-4o已经接近GPT-5，或许是后者的一次早期试水。据聂再清观察，目前还没有看到模型迭代的瓶颈，大模型的迭代速度有可能还会加快。

奥尔特曼在X上表示，OpenAI致力于将GPT-4o免费提供给所有用户使用。以往，OpenAI发布新版ChatGPT模型时，通常会将其置于付费墙之后。如今，免费用户已经可以访问GPT-4o加持下的多项功能，例如分析数据、创建图表、撰写文件总结等，但不能使用图片生成功能。付费用户则可以享受5倍调用额度。谷歌在发布会中没有公布Project Astra的具体上线时间，预计很快会登录到安卓、iOS等平台使用。

对开发者来说，GPT-4o的定价也更友好。OpenAI官网显示，从GPT-4开始，输入单位文本的价格一直在下降，相较GPT-4 Turbo，GPT-4o收费降低50%，调用速度却提升了两倍。这使其在商业应用上有了更大吸引力。聂再清表示，大模型控制价格的方式之一是提升模型性能，用更少的资源做更多的事；另一个方式则是通过类似搜索引擎的商业模式，对用户免费，但可以收取广告商的赞助。

至于未来OpenAI和谷歌的大模型有没有开源的可能性，聂再清表示，参考iOS和安卓，一个闭源一个开源，未来的大模型市场也极有可能出现开源和闭源的巨头。用户体验最好的行业领先者倾向于闭源，而开源的好处在于可以集体将模型“做大做强”，二者在市场都有自己的位置。谷歌在发布会中推出了其首个视觉语言开源模型PaliGemma，针对图像标注、视觉问答、图像标签化等方面进行了优化。此外，谷歌还将在6月推出更大规模的开源模型Gemma 2 27B。

OpenAI也同步发布了适用于macOS的ChatGPT桌面应用程序，使用户调用的体验更丝滑。

GPT-4o加持下的通用语音助手在未来将有广泛应用，例如健康管理、医疗咨询、教育教辅等领域。聂再清认为，所有开放领域用到的语音智能，例如购物App中的导购等，都可以加装类似GPT-4o的智能核心，增强用户体验。这类语音助手将离用户越来越近。

作者：周游

编辑：杜玮