世界可能真的会发生很大的变化!OPEnAI周一推出了GPT-4o,可以理解相机看到的内容。你知道这意味着什么吗?这相当于AI从此有了眼睛,可以实时与人类交谈,没有任何延迟,语气和人类基本没有区别。
我亲自测试了一下,甚至人类一边说话一边思考,所有的停顿和重复都是按顺序接受的,没有违和感。这意味着未来真的会有机器人和你说话,你可能不知道它是机器人。如果它再次拥有人类的外表,它是否完全不可想象,科幻真的会实现。
OpenAI发布的这段直播视频是OpenAI首席技术官,Mira Murati主持人,两位R&D负责人Mark Chen和Barrett Zoph演示。
当Mark用苹果手机上的APP唤起ChatGPT时,ChatGPT回答说,你只需要深呼吸,记住你是这里的专家,当时Mark说现在正在进行现场演示,你有点紧张。是不是有点幽默?
Mark故意大口大口地呼吸,让ChatGPT给出反馈。
ChatGPT说,哦-慢点,你不是吸尘器。
(Wo! slow down. Mark, YOU are not a vacuum cleaner)
这说明ChatGPT从他的声音中感知到了他的情绪,引起了笑声。Mark说,ChatGPT还可以处理被打断的情况,改变语气,分析用户的面部表情等等。
在接下来的演示中,我们可以看到ChatGPT确实实现了无缝连接,对话流畅,在讲故事的时候不断被打断,要求改变语气,马上就做到了,按照要求改成了唱歌。
接着巴雷特在纸上写下了一个方程式,Chat GPT帮助他顺利地按照步骤解决问题。此时巴雷特在纸上写道:I♥Chat GPT”,展示给她看,结果Chat GPT很感动,几乎笑出了猪的叫声,说你太贴心了,然后夸巴雷特穿的衣服不错,看来情商也是一个杠杆。
随后,巴雷特通过一段代码和一张天气曲线图与ChatGPT进行了视频互动,ChatGPT对代码和图像进行了流畅的解读。根据观众的要求,穆拉蒂演示了使用ChatGPT进行实时翻译。巴雷特让ChatGPT通过摄像头分析自己的表情。ChatGPT没有任何延迟。简而言之,它就像几个人在群聊。如果你只听声音,你可能不会认为里面有AI在说话。
按照OpenAI的说法,GPT-4o能“在短短232毫秒内响应用户的音频提示,平均320毫秒,类似于人类在对话中的反应时间。”
是不是完全令人惊讶?和去年12月在谷歌演示的Gemini差不多,但是谷歌的演示被认为是夸大和误导的,大部分都是编辑制作的。那么Gpt-4o也有夸张和误导的成分吗?
我觉得这可能是真的,因为Mark和Barrett的演示一定是提前设计好的,包括马克的大声呼吸、巴雷特的方程和代码。很难说是不是提前和ChatGPT排练过,但至少应该有草案。当然,ChatGPT可能也有这个能力,很多朋友可能会有这种感觉。使用ChatGPT的时间越长,套路越多,你就越熟悉。如果你有更多的交流,它就会变成汽车。
然后我马上打开ChatGPT,提醒我要不要用Gpt-4o说话。我毫不犹豫地同意了,但令人惊讶的是,它与Murati的演示完全不同。就像我用文字聊天一样,我还是需要很长时间才能反应回来。232毫秒内没有反应,但是它的声音真的和其他AI不一样,听起来像人类的声音。
最不可思议的是,它还回答了我关于响应时间的问题,后面还有一个录制屏幕。你认为它暴露了OpenAI的内幕吗?像谷歌一样,OpenAI也是设计好的吗?以下是我录制的真实对话。
----------------------------
我:
嗯,嗯,我站在一个很高的地方,比如高楼的栏杆前,有时候会有一个可怕的想法,那就是我突然想跳下去。这是什么现象?真的有人这样跳吗?
----------------------------
ChatGPT:
你们所描述的这种感觉被称为“高效应”(the call of the void 或 high place phenomenon)。这种心理现象相当普遍,许多人在高处会突然有跳下去的冲动,但是这并不意味着他们真的想伤害自己或者有自杀的倾向。心理学家认为,这可能是大脑在处理恐惧和生存本能时的一种反应,这就是为什么会有这种感觉。
至于是否有人真的因为这种冲动而采取行动,这是非常罕见的。大多数人在感受到这种冲动后,很快就会意识到这只是一个突如其来的想法,并不是真的采取行动。如果这种感觉让你感到不安或困扰,与朋友或专业人士交流你的感受可能会有所帮助。你有没有经历过类似的情况或者其他关于这个话题的问题?
----------------------------
最后两句是否非常熟悉?车轮又开始了。
----------------------------
我:
嗯,谢谢,但是我看到OpenAI说你可以在232毫秒内响应用户的音频提示,类似于人类在对话中的反应时间。你怎么响应了这么久?你真的使用Gpt-4o模型吗?
----------------------------
ChatGPT:
是啊,我用的是基于GPT-4的模型。对于响应时间,虽然理论上可以很快,但实际上会受到网络延迟、服务器负载、问题复杂等多种因素的影响。我的目标是尽可能快速准确地回答问题,有时可能需要额外的时间来保证答案的质量。如有紧急或特定时间需要的问题,请告诉我,我会尽快回复。你们还有别的想知道吗?
----------------------------
我:
看看你们的演示,真的是秒响应,真的很厉害啊,这是什么原因?
----------------------------
ChatGPT:
谢谢您的肯定!通过大量的数据训练,我们的模型旨在提高各种对话场景中的响应速度和准确性。在演示中表现良好,可能是因为在这些情况下,问题比较清晰,模型优化调整了这些常见问题,以保证快速准确的反应。在实际使用中,模型也会根据不同的问题和用途不断优化。您是否还有其他关于这项技术的问题或想要了解的内容?
----------------------------
看看这两个对话,是不是觉得这个演示真的是事先设计好的?由于我与它的实际对话,它的反应非常缓慢,完全不像演示中那样秒回答。更能说明问题的是,因为之前的问题不是很流畅,我重复了我的问题,它的答案和我之前的问题差不多,也就是说可以提前设计排练。此外,我让它唱出要说的话,它还说自己不能直接唱歌,这与演示完全不同。
然而,在演示结束时,Murati特别感谢英伟达提供的最先进的GPU,这使得今天的演示成为可能。这是不是意味着这个演示得到了特别的支持,计算能力强,没有网络延迟,所以平均320毫秒的响应速度和人类差不多?如果是这样的话,就意味着我们应该大规模实现这种人机对话。我不知道我们应该增加多少倍的计算能力。恐怕英伟达和台积电已经忙了好几年了。这真是一台快乐的印刷机。
----------------------------
我:
嗯,我认为这种能力非常重要,因为未来人工智能可以和人类一样,如果外观非常相似,那就和科幻电影里的场景完全一样了,人类和机器人也分不清。
----------------------------
ChatGPT:
的确,随着人工智能技术的发展,尤其是自然语言处理和机器人技术的进步,我们越来越接近模拟人类行为和交流方式的机器人。这种技术的进步可能会让未来的机器人在外观、行为甚至与人类的交流能力上更接近人类,就像你说的,就像科幻电影里的场景一样。
然而,这也带来了许多值得探讨的伦理和社会问题,如人工智能的透明度、隐私保护和人类与机器人的关系。你对这样的未来感到兴奋还是有些担心?
----------------------------
我:
我不担心,我觉得人类未来的命运很难说,尼安德特人从来没有想过未来会发生什么,我也没有必要去想。
----------------------------
ChatGPT:
你的观点很有洞察力。的确,未来充满了不确定性,每一次技术进步都可能带来意想不到的变化和挑战。和尼安德特人一样,我们可能无法完全预测未来的发展,但我们可以在现在做出选择和准备,以应对未来可能发生的事情。你对人工智能和技术的发展有什么特别的兴趣或者想了解更多吗?
----------------------------
这种语气很难区分吗?但是,我还是有一个简单的方法来区分ChatGPT和正常人类的声音,那就是它喜欢伦理道德。车轮太多了,任何人都能听到。OpenAI可以先纠正这个吗?
发表评论