由于其高度的可拓展性和丰富的功能,GPTs 一直是 ChatGPT 最具吸引力的功能之一。但在此之前,这项功能一直专属于付费的 GPT Plus 用户。
不过,就在 5 月 30 日,OPEnAI 突然给所有用户发来邮件,官宣向他们所有人开放了 GPTs 的免费使用!(不过有每日次数限制)
除了让 ChatGPT 的日常使用体验更佳,这无疑也给科研工作者们带来了福音,因为在商店中有不少学术相关的拓展程序,能让 ChatGPT 更好地辅助我们进行科研任务。
今天,我们就来测评两款 GPT 商店中很受欢迎的科研拓展插件 Consensus 和 Scispace。
这两款插件都号称基于 2 亿多篇的庞大论文数据库训练而成,能够进行论文搜索、撰写文献综述、分析论文、回答科学问题等。
它们也有各自的独立产品平台,但它们在 ChatGPT 插件也是直接和平台链接的,今天主要就是来测试一下,它们的插件表现如何,能否让 ChatGPT 化身科研能手呢?
论文搜索
首先试试 Consensus。用一个近期关注比较多的大模型可解释性为题来进行询问:“Search for related academic papers on Explainability for Large Language Models”。
Consensus 首先给出了可解释性问题的大致简介,然后给出了七篇相关文献,也附上了真实有效的参考文献链接,最后还给出了简要的结论。
总体上来说看起来表现尚可,但其中有些文献似乎并不和大模型的可解释性问题相关。
比如其中一篇“The Behavior of Large Language Models When PRompted to Generate Code Explanations”就是关于大模型解释代码能力的相关文献,而非大模型的可解释性问题。
我猜它大概是按照“LLM”和“Explanation”这两个关键词来匹配文献了,而没有真正理解对应的问题是什么。
这似乎和它官网宣称的“轻松找到特定的研究论文,而无需依赖精确的关键字匹配”能力并不相符。
再来看看 Scispace。
提出同样的问题,Scispace 先是根据检索到的 5 篇文献简单的撰写了一个综述,然后还列出了一个表格,包括参考文献的主要内容、链接和引用量(虽然这个数量并不准确,大概没有持续更新),相对来说更为直观。
在内容上,和主题的相关度也是比较高的,没有出现理解上的错误,所引的文献也相对来说比较具有代表性。
还推荐了一些相关的问题:
另外,也试了试这它们各自覆盖的论文库的时间范围,多次提问后,发现基本上都是 2024 年以前的文献,今年一月份的文献似乎也并没有被录入,但不知道是否与我使用的免费账户无法联网有关。
分析文献
先来试试 Consensus。
上传 PDF 后,它会给出文献的简要总结、主要发现、详细结果和结论等,内容也是准确的。
对论文内容进行进一步提问,也能给出准确的回答。
但如果同时上传多篇文献,它只会单独地对每一篇文献进行综述,然后简要总结,无法做到对几篇论文进行分析比较。
再来看看 Scispace。
相对而言,Scispace 给出的单篇文献信息就比较简略了,只包括了主要发现和内容分析,不如 Consensus 详细和直观。
不过,同时上传多篇文献后,Scispace 会分析给出几篇文献各自侧重的内容,还会给出一个分析表格,只是相对来说还是比较简单。
对论文内容进行提问,发现 Scispace 的回答也是比较准确的,并且比 Consensus 的分析要更为详细一点。
不过,要注意的是,由于 OpenAI 的限制,免费用户目前每天上传文件的次数是有限的。
文献综述撰写
这两款插件也各自强调了自己撰写研究综述的功能,所以我们再来试试它们能否撰写一篇合格的综述。
先试试 Consensus。
让它撰写一篇有关大模型幻觉问题的研究综述,内容上来说是没什么问题,给出的文献质量也不错,但因为搜索不到 24 年之后的文献,对于一些领域来说适用性会打折扣。
但是,如果你提问一些完全不合逻辑的主题,例如“意大利面搅拌 42 号混凝土的研究综述”,它不会告诉你没有相关文献,反而出现了幻觉,像模像样地编造出来了这一研究主题,并列出了相关文献。
虽然文献都真实存在,对每篇文献的总结也没什么问题,但把它们和这一毫无逻辑的主题结合在一起,甚至得出结论“通过使用先进的优化技术、可持续材料和预测模型,意大利面混合 42 混凝土和类似的高强度混凝土混合物的研究正在取得进展”,确实有点难绷。
再问问 Scispace。它的回答其实和我们搜索相关文献时的回答没有太大差别,作为综述的话,要略显简单了。
再问一下意大利面的问题,表现和 Consensus 半斤八两。
但如果在它们各自的原有平台上进行提问的话,就不会出现这种现象了,不知道是不是因为 ChatGPT 本身的幻觉导致了这一问题。
总结
除了上述这些功能之外,它们也有调整参考文献格式等功能,只是这一点目前并不新鲜。
总体来说,Consensus 作为目前 GPT 商店里使用量最高的学术类插件之一,它的火爆确实不是没来由的,它检索文献、撰写综述、分析文献的能力,相对来说都表现不错,只是有些时候不算准确,需要多加核实。
而 Scispace 作为后起之秀,在一些功能上要比 Consensus 更加丰富,比如表格展示、文献比较分析等,而且在检索时也相对准确一点,只是在撰写综述的能力就不如 Consensus 了,如果之后能继续完善的话,还是很有潜力的。
这两个插件都能增强 ChatGPT 在学术相关能力上的表现,值得一用,特别是在如今 GPTs 免费的情况下。
只是如果能再提高一点准确性,丰富一下最新的论文库的话,它们的实用性应该也能更强一点了。
限于测试内容,对工具的评价可能还不够全面,也希望了解小伙伴们多多补充,有什么想让我们测评的工具欢迎提出!
本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。
发表评论