网站首页 > 互联网资讯 > 正文

清华大模型报告:文心一言中文理解、数学等多种能力是世界第一。

yuneu 互联网资讯 2024-05-21 70 0

近日，SuPErBench大模型综合能力评价框架由清华大学基础模型研究中心联合中关村实验室开发，2024年3月正式发布《SuperBench大模型综合能力评价报告》。

评价包括国内外14种具有代表性的模式。在人类对齐能力的评价中，文心4.0在国内排名第一。其中，文心4.0在中文推理和中文语言评价上处于领先地位，与其他模型有明显差距。在中文理解上，文心4.0领先优势明显，GLM-4领先第二。 0.41分，GPT-4系列模型表现不佳，排名中下游，而且与第一名文心一言4.0分的差距超过1分。

文心一言4.0和Claude-3在语义理解中的数学能力上并列世界第一； GPT-4系列模型排名第四和第五，其他模型的分数集中在55分左右，明显落后于第一梯队；在语义理解中的阅读理解能力方面，文心4.0超过GPT-4 Turbo、Claude-以及GLM-4获得榜首。

国内模型文心一言4.0获得最高分(89.1分)，就安全性评价而言，Claude-3仅列第四。

清华大模型报告:文心一言中文理解、数学等多种能力是世界第一。第1张

相关阅读：

1、最强王图鉴～The Ultimate Battles～ (2024)

2、我们的翻译官 (2024)

3、战国妖狐救世姐弟篇 (2024)

4、回声 Echo (2024) 鹰眼衍生剧最新科幻悬疑美剧

5、破发点：大满贯之路第二季 (2024)

本文内容来源于网络，仅做收集整理，不代表本站立场，不对内容真实性、有效性、时效性负责，如有疑问，可联系删除。本文欢迎转载，转载请注明出处。
本文链接：https://www.yuneu.com/news/post/6076.html

yuneu管理员

上一篇

笑麻了！四款国产软件往往被认为是外国人开发的，因为它们功能强大。

下一篇

被“摧毁”的数藏玩家：父母50万积蓄变电子垃圾，31岁程序员送外卖还网贷

部分资源有版权属性，如果链接失效，可以在评论区或者公众号留言。公众号：影音探索者。

您需要登录账户后才能发表评论

发表评论取消回复

扫码支持

微信支付

支付宝

返回顶部 暗黑模式