惊人的突破！GPT-4o横空出世，世界可能会发生很大的变化？重量测量！_互联网资讯_

世界可能真的会发生很大的变化！OPEnAI周一推出了GPT-4o，可以理解相机看到的内容。你知道这意味着什么吗？这相当于AI从此有了眼睛，可以实时与人类交谈，没有任何延迟，语气和人类基本没有区别。

我亲自测试了一下，甚至人类一边说话一边思考，所有的停顿和重复都是按顺序接受的，没有违和感。这意味着未来真的会有机器人和你说话，你可能不知道它是机器人。如果它再次拥有人类的外表，它是否完全不可想象，科幻真的会实现。

OpenAI发布的这段直播视频是OpenAI首席技术官，Mira Murati主持人，两位R&D负责人Mark Chen和Barrett Zoph演示。

当Mark用苹果手机上的APP唤起ChatGPT时，ChatGPT回答说，你只需要深呼吸，记住你是这里的专家，当时Mark说现在正在进行现场演示，你有点紧张。是不是有点幽默？

Mark故意大口大口地呼吸，让ChatGPT给出反馈。

ChatGPT说，哦-慢点，你不是吸尘器。

(Wo! slow down. Mark, YOU are not a vacuum cleaner)

这说明ChatGPT从他的声音中感知到了他的情绪，引起了笑声。Mark说，ChatGPT还可以处理被打断的情况，改变语气，分析用户的面部表情等等。

在接下来的演示中，我们可以看到ChatGPT确实实现了无缝连接，对话流畅，在讲故事的时候不断被打断，要求改变语气，马上就做到了，按照要求改成了唱歌。

接着巴雷特在纸上写下了一个方程式，Chat GPT帮助他顺利地按照步骤解决问题。此时巴雷特在纸上写道：I♥Chat GPT”，展示给她看，结果Chat GPT很感动，几乎笑出了猪的叫声，说你太贴心了，然后夸巴雷特穿的衣服不错，看来情商也是一个杠杆。

随后，巴雷特通过一段代码和一张天气曲线图与ChatGPT进行了视频互动，ChatGPT对代码和图像进行了流畅的解读。根据观众的要求，穆拉蒂演示了使用ChatGPT进行实时翻译。巴雷特让ChatGPT通过摄像头分析自己的表情。ChatGPT没有任何延迟。简而言之，它就像几个人在群聊。如果你只听声音，你可能不会认为里面有AI在说话。

按照OpenAI的说法，GPT-4o能“在短短232毫秒内响应用户的音频提示，平均320毫秒，类似于人类在对话中的反应时间。”

是不是完全令人惊讶？和去年12月在谷歌演示的Gemini差不多，但是谷歌的演示被认为是夸大和误导的，大部分都是编辑制作的。那么Gpt-4o也有夸张和误导的成分吗？

我觉得这可能是真的，因为Mark和Barrett的演示一定是提前设计好的，包括马克的大声呼吸、巴雷特的方程和代码。很难说是不是提前和ChatGPT排练过，但至少应该有草案。当然，ChatGPT可能也有这个能力，很多朋友可能会有这种感觉。使用ChatGPT的时间越长，套路越多，你就越熟悉。如果你有更多的交流，它就会变成汽车。

然后我马上打开ChatGPT，提醒我要不要用Gpt-4o说话。我毫不犹豫地同意了，但令人惊讶的是，它与Murati的演示完全不同。就像我用文字聊天一样，我还是需要很长时间才能反应回来。232毫秒内没有反应，但是它的声音真的和其他AI不一样，听起来像人类的声音。

最不可思议的是，它还回答了我关于响应时间的问题，后面还有一个录制屏幕。你认为它暴露了OpenAI的内幕吗？像谷歌一样，OpenAI也是设计好的吗？以下是我录制的真实对话。

----------------------------

我：

嗯，嗯，我站在一个很高的地方，比如高楼的栏杆前，有时候会有一个可怕的想法，那就是我突然想跳下去。这是什么现象？真的有人这样跳吗？

----------------------------

ChatGPT：

你们所描述的这种感觉被称为“高效应”（the call of the void 或 high place phenomenon）。这种心理现象相当普遍，许多人在高处会突然有跳下去的冲动，但是这并不意味着他们真的想伤害自己或者有自杀的倾向。心理学家认为，这可能是大脑在处理恐惧和生存本能时的一种反应，这就是为什么会有这种感觉。

至于是否有人真的因为这种冲动而采取行动，这是非常罕见的。大多数人在感受到这种冲动后，很快就会意识到这只是一个突如其来的想法，并不是真的采取行动。如果这种感觉让你感到不安或困扰，与朋友或专业人士交流你的感受可能会有所帮助。你有没有经历过类似的情况或者其他关于这个话题的问题？

----------------------------

最后两句是否非常熟悉？车轮又开始了。

----------------------------

我：

嗯，谢谢，但是我看到OpenAI说你可以在232毫秒内响应用户的音频提示，类似于人类在对话中的反应时间。你怎么响应了这么久？你真的使用Gpt-4o模型吗？

----------------------------

ChatGPT：

是啊，我用的是基于GPT-4的模型。对于响应时间，虽然理论上可以很快，但实际上会受到网络延迟、服务器负载、问题复杂等多种因素的影响。我的目标是尽可能快速准确地回答问题，有时可能需要额外的时间来保证答案的质量。如有紧急或特定时间需要的问题，请告诉我，我会尽快回复。你们还有别的想知道吗？

----------------------------

我：

看看你们的演示，真的是秒响应，真的很厉害啊，这是什么原因？

----------------------------

ChatGPT：

谢谢您的肯定！通过大量的数据训练，我们的模型旨在提高各种对话场景中的响应速度和准确性。在演示中表现良好，可能是因为在这些情况下，问题比较清晰，模型优化调整了这些常见问题，以保证快速准确的反应。在实际使用中，模型也会根据不同的问题和用途不断优化。您是否还有其他关于这项技术的问题或想要了解的内容？

----------------------------

看看这两个对话，是不是觉得这个演示真的是事先设计好的？由于我与它的实际对话，它的反应非常缓慢，完全不像演示中那样秒回答。更能说明问题的是，因为之前的问题不是很流畅，我重复了我的问题，它的答案和我之前的问题差不多，也就是说可以提前设计排练。此外，我让它唱出要说的话，它还说自己不能直接唱歌，这与演示完全不同。

然而，在演示结束时，Murati特别感谢英伟达提供的最先进的GPU，这使得今天的演示成为可能。这是不是意味着这个演示得到了特别的支持，计算能力强，没有网络延迟，所以平均320毫秒的响应速度和人类差不多？如果是这样的话，就意味着我们应该大规模实现这种人机对话。我不知道我们应该增加多少倍的计算能力。恐怕英伟达和台积电已经忙了好几年了。这真是一台快乐的印刷机。

----------------------------

我：

嗯，我认为这种能力非常重要，因为未来人工智能可以和人类一样，如果外观非常相似，那就和科幻电影里的场景完全一样了，人类和机器人也分不清。