AI大模型方兴未艾,国内互联网巨头纷纷推出自己的AI大模型,那么谁的大模型最强呢?
笔者从去年开始使用ChatGPT和微软edge浏览器自带的bingge。 AI,深刻感受到国外大型模型对中文的支持和本地化还不够,因此非常关注国内厂商的AI产品。幸运的是,我很早就获得了讯飞星火和百度文心的测试资格。说实话,最初的星火和文心比bing更好。 AI很难使用几倍,之后我更经常吐槽字节系的豆包APP。
没想到今年年初,我悄悄发现自己已经很久没有使用国外的大模型了,除了需要做一些涉外的工作,偶尔还会用到Copilot(原来的Bing)。 AI,ChatGPT 4 除了Turbo大模型),我已经习惯了国内的大模型,它们的进化速度令人愉快和鼓舞,但是你要问我谁最好,说实话,PC端的个人使用更习惯星火,移动终端偏向豆包(云雀大模型),图片偏向天工(天工大语言模型)。
但这只是基于我自己习惯的主观观点。清华大学以更严谨、更复杂的统计方法,以量化的方式评价了他们心目中最好的中文AI模型。
清华大学基础模型研究中心于2024年3月与中关村实验室联合发布了《SuPErBench大模型综合能力评估报告》。
这份报告包括了目前国内外最具影响力的14个AI模型。通过综合能力评价,报告认为百度文心是目前(或今年3月前)中文语言理解、数学能力等领域最好的AI模型。
毫无疑问,最引人注目的是各大模型对中文的处理能力,即中文理解。文心一言(文心一言4.0,下同)在推理和语言评价中的分数遥遥领先,其他模型与之相比差距明显。最让我震惊的是,我最习惯的讯飞星火竟然挂在车尾。需要注意的是,在不考虑中文的情况下,语言能力一言降至第三位,不如谷歌的Claude-3和GLM4,但仍然领先于ChatGPT。 4Turbo版本和网页版本。
在数学能力方面,文心一言和Claude-3并列第一,体现了文心一言在数学逻辑和推理上的强大实力,让人眼前一亮。此外,文心一言在安全方面排名第一。
其他大型模型也不是吴下阿蒙,它们各有优势和优势,如ChatGPT 4 Turbo版和网页版分别获得了代码编写的第一和第二名;Claude-3和ChatGPT在智能方面 四是领先对手包揽前三,其中阿里的通义千问2.1是国内最好的智能模式,文心一言反而排名靠后。
一般来说,国内AI模型基本接近美国水平。可以说,它与美国形成了AI模型领域的第一梯队,远远落后于其他国家的竞争对手。
然而,我们仍然需要确认差距。美国的AI模型在方向创新方面远远强于我们,例如Meta和ChatGPT。 5.现阶段,我们在国外的大模型背后依然走势,带领行业走出自己的创新之路,短时间内依然艰难,需要从业者继续努力。
发表评论