近日,SuPErBench大模型综合能力评价框架由清华大学基础模型研究中心联合中关村实验室开发,2024年3月正式发布《SuperBench大模型综合能力评价报告》。

评价包括国内外14种具有代表性的模式。在人类对齐能力的评价中,文心4.0在国内排名第一。其中,文心4.0在中文推理和中文语言评价上处于领先地位,与其他模型有明显差距。在中文理解上,文心4.0领先优势明显,GLM-4领先第二。 0.41分,GPT-4系列模型表现不佳,排名中下游,而且与第一名文心一言4.0分的差距超过1分。

文心一言4.0和Claude-3在语义理解中的数学能力上并列世界第一; GPT-4系列模型排名第四和第五,其他模型的分数集中在55分左右,明显落后于第一梯队;在语义理解中的阅读理解能力方面,文心4.0超过GPT-4 Turbo、Claude-以及GLM-4获得榜首。

国内模型文心一言4.0获得最高分(89.1分),就安全性评价而言,Claude-3仅列第四。

清华大模型报告:文心一言中文理解、数学等多种能力是世界第一。  第1张