清华大学告诉你中文AI谁最强

yuneu 互联网资讯 2024-05-06 77 0

AI软件常用于作者手机。

AI大模型方兴未艾，国内互联网巨头纷纷推出自己的AI大模型，那么谁的大模型最强呢？

笔者从去年开始使用ChatGPT和微软edge浏览器自带的bingge。 AI，深刻感受到国外大型模型对中文的支持和本地化还不够，因此非常关注国内厂商的AI产品。幸运的是，我很早就获得了讯飞星火和百度文心的测试资格。说实话，最初的星火和文心比bing更好。 AI很难使用几倍，之后我更经常吐槽字节系的豆包APP。

没想到今年年初，我悄悄发现自己已经很久没有使用国外的大模型了，除了需要做一些涉外的工作，偶尔还会用到Copilot(原来的Bing)。 AI，ChatGPT 4 除了Turbo大模型)，我已经习惯了国内的大模型，它们的进化速度令人愉快和鼓舞，但是你要问我谁最好，说实话，PC端的个人使用更习惯星火，移动终端偏向豆包(云雀大模型)，图片偏向天工(天工大语言模型)。

但这只是基于我自己习惯的主观观点。清华大学以更严谨、更复杂的统计方法，以量化的方式评价了他们心目中最好的中文AI模型。

清华大学基础模型研究中心于2024年3月与中关村实验室联合发布了《SuPErBench大模型综合能力评估报告》。

这份报告包括了目前国内外最具影响力的14个AI模型。通过综合能力评价，报告认为百度文心是目前(或今年3月前)中文语言理解、数学能力等领域最好的AI模型。

毫无疑问，最引人注目的是各大模型对中文的处理能力，即中文理解。文心一言(文心一言4.0，下同)在推理和语言评价中的分数遥遥领先，其他模型与之相比差距明显。最让我震惊的是，我最习惯的讯飞星火竟然挂在车尾。需要注意的是，在不考虑中文的情况下，语言能力一言降至第三位，不如谷歌的Claude-3和GLM4，但仍然领先于ChatGPT。 4Turbo版本和网页版本。