GPT-4o测试：多项能力相对之前提高

Views :

Update time : 2024-05-23

电影《她》中的场景似乎正在成为现实。OpenAI最新推出的旗舰大模型GPT-4o，不仅免费向公众开放，而且具备听、看、说的综合能力，响应速度流畅无延迟，仿佛与真人视频通话一般。

GPT-4o在直播中的表现尤为出色，能够感知用户的呼吸节奏，以更丰富的语气实时回复，并且支持随时打断对话。"o"代表"Omni"，意味着全能，它可以接受文本、音频和图像的任意组合作为输入，并生成相应的文本、音频和图像输出。

GPT-4o的响应速度非常快，在短短232毫秒到平均320毫秒的时间内就能响应音频输入，与人类的对话反应速度相当。这一能力将免费提供给所有用户，包括GPT-4o和ChatGPT Plus会员版的所有功能，如视觉、联网、记忆、执行代码和GPT Store等。

此外，GPT-4o的语音模式将在几周内首先向Plus用户开放。在发布会现场，CTO Murati表示，GPT-4级别的模型已经向公众开放，而研究员William Fedus透露，GPT-4o是之前在大模型竞技场进行A/B测试的模型之一，表现出色，ELO分数领先。

GPT-4o还将提供API，价格优惠50%，速度提升一倍，单位时间内的调用次数是原来的5倍。网友们已经开始设想GPT-4o的各种应用，如辅助视障人士感知世界，以及提供比之前更出色的语音交互体验。

在发布会现场，总裁Brockman进行了精彩的演示，展示了GPT-4o在实时对话、翻译和视觉识别方面的能力。他还发布了一段5分钟的详细演示视频，展示了两个ChatGPT之间的对话和歌唱，戏剧感十足。

Brockman首先向旧版ChatGPT（小O）介绍了情况，然后向新版ChatGPT（小N）展示了视觉能力。接着，小O和小N就Brockman的衣着、房间风格等话题展开了对话。在Brockman的引导下，小O和小N甚至开启了对唱模式，旋律悠扬，音色逼真。

GPT-4o之所以能够实现如此出色的表现，是因为它采用了端到端训练的神经网络，能够同时处理语音、文本和图像。这使得GPT-4o在语音翻译和视觉理解方面都超越了OpenAI的专门模型和其他竞争对手。

虽然这次OpenAI没有发布详细的技术论文或报告，但有学者表示，一个成功的演示相当于1000篇论文。GPT-4o的推出，无疑为人工智能领域带来了新的突破，让人们对未来的智能助手充满了期待。

相关资讯

09 .03.2024

2024年8月 —— 上海艾爱构科技有限公司（以下简称“AI构”）与长沙市雨花区人民政府举行了战略合作协议签署仪式。此次合作旨在通过AI构的人工智能咨询服务，助

08 .16.2024

上海，2024年8月1日 —— 今天，AI构与上海宝峒建设工程质量检测有限公司在上海签署了战略合作协议。这一合作标志着双方将共同拥抱人工智能，以科技赋能企业管理

05 .28.2024

在创新与智慧交融的盛会上，AI构作为此次盛会的协办单位及独家技术支持，为“中国·再设计——2024第十三届金砖论坛”注入了强劲的AI动力。此次论

05 .28.2024

AI构——中国领先的人工智能应用场景生成品牌，与百亿规模基金公司联博基金正式宣布建立战略合作伙伴关系，携手打造政府招商领域的信息化、数字化、智能化

Leave Your Message