2022 年 12 月,计算生物学家 Casey Greene 和 Milton Pividori 起头了一项差别寻常的尝试:他们请一名非科学家的助手帮忙他们改良三篇研究论文。他们勤恳的助手建议在几秒钟内修改文档的各个部门;每份手稿大约需要五分钟的时间来审阅。在一份生物学手稿中,他们的助手以至在引用方程式时发现了一个错误。审讯其实不老是顺利停止,但最末的手稿更容易阅读——并且费用适中,每份文件不到 0.50 美圆。
正如 Greene 和 Pividori 在 2023 年 1 月 23 日的预印本中所报导的那样,那个助手不是一小我,而是一种名为 GPT-3 的人工智能(AI)算法,该算法于 2020 年初次发布。它是被媒体鼎力大举宣传的生成式 AI 聊天机器人式东西之一,无论是被要求创做散文、诗歌、计算机代码,仍是编纂研究论文,都能够生成令人信服的流利文本。
论文链接:
https://www.biorxiv.org/content/10.1101/2023.01.21.525030v1
那些东西中最出名的东西(也称为大型语言模子或 LLM)是 ChatGPT,它是 GPT-3 的一个版本,在 2022 年 11 月发布后一举成名,因为它免费且易于拜候。其他生成式 AI 能够生成图像或声音。
「我印象十分深入。」在费城宾夕法尼亚大学工做的 Pividori 说,「那将帮忙我们进步研究人员的工做效率。」 其他科学家暗示,他们如今经常利用 LLMs,不只是为了编纂手稿,也是为了帮忙他们编写或查抄代码以及群策群力。
「我如今每天利用 LLMs。」冰岛大学的计算机科学家 Hafsteinn Einarsson 说,他从 GPT-3 起头,但后来改用 ChatGPT,那有助于他编写演示幻灯片、学生测验和课程功课,并将学生论文转化为论文。「许多人将其用做数字秘书或助理。」他说。
LLMs 是搜刮引擎、代码编写助手以至聊天机器人的一部门,它能够与其他公司的聊天机器人协商以获得更好的产物价格。ChatGPT 的创建者,加利福尼亚州旧金山的 OPEnAI,颁布发表了一项每月 20 美圆的订阅办事,许诺更快的响应时间和优先拜候新功用(虽然其试用版仍然免费)。已经投资 OpenAI 的科技巨头微软在 2023 年 1 月份颁布发表进一步投资,据报导约为 100 亿美圆。LLMs 必定要被纳入通用的文字和数据处置软件中。生成式 AI 将来在社会中的遍及存在似乎是有掌握的,尤其是因为今天的东西代表了那项处于起步阶段的手艺。
但 LLM 也引发了普遍的担忧——从他们返回谎话的倾向,到人们担忧人们将 AI 生成的文本冒充为本身的文本。当 Nature 向研究人员询问聊天机器人(例如 ChatGPT)的潜在用处时,尤其是在科学范畴,他们的兴奋中同化着忧愁。「若是你相信那项手艺具有变化的潜力,那么我认为你必需对此感应严重。」奥罗拉科罗拉多大学医学院的 Greene 说。研究人员暗示,很大水平上将取决于将来的律例和指南若何限造 AI 聊天机器人的利用。
流利但不实在
一些研究人员认为,只要有人监视,LLMs 就十分合适加快撰写论文或帮助等使命。「科学家们不会再坐下来为帮助申请写冗长的介绍。」瑞典哥德堡萨尔格伦斯卡大学病院的神经生物学家 Almira Osmanovic Thunström 说,他与人合著了一份利用 GPT-3 做为尝试的手稿,「他们只会要求系统如许做。」
论文链接:https://hal.science/hal-03701250
总部位于伦敦的软件征询公司 InstaDeep 的研究工程师 Tom Tumiel 暗示,他每天都利用 LLM 做为助手来帮忙编写代码。「那几乎就像一个更好的 Stack Overflow。」他说,指的是一个流行的社区网站,法式员能够在该网站上互相答复问题。
但研究人员强调,LLMs 在答复问题时底子不成靠,有时会产生错误的答复。「当我们利用那些系统来产生常识时,我们需要连结警觉。」Osmanovic Thunström 说。
那种不成靠性融入了 LLM 的构建体例。ChatGPT 及其合作敌手通过进修庞大的在线文本数据库中的语言统计形式来工做——包罗任何不实在、成见或过时的常识。当 LLM 收到提醒时(例如 Greene 和 Pividori 精心设想的重写部门手稿的恳求),他们只是逐字吐出任安在体裁上似乎合理的体例来继续对话。
成果是 LLM 很容易产生错误和误导性信息,出格是关于他们可能没有几数据能够训练的手艺主题。LLMs 也无法显示其信息的来源;若是被要求撰写学术论文,他们会编造虚构的引文。「不克不及相信该东西可以准确处置事实或生成可靠的参考材料。」Nature Machine Intelligence 杂志 2023 年 1 月份在 ChatGPT 上颁发的一篇社论指出。
有了那些警告,ChatGPT 和其他 LLM 能够成为研究人员的有效助手,那些研究人员具有足够的专业常识来间接发现问题或轻松验证谜底,例如计算机代码的解释或建议能否准确。
但是那些东西可能会误导不明本相的用户。例如,2022 年 12 月,Stack Overflow 暂时制止利用 ChatGPT,因为网站版主发现本身被热心用户发送的大量不准确但看似有说服力的 LLM 生成的谜底所吞没。那可能是搜刮引擎的噩梦。
缺点能处理吗?
一些搜刮引擎东西,例如以研究人员为中心的 Elicit,通过起首利用它们的功用来引导对相关文献的查询,然后简要总结引擎找到的每个网站或文档,从而处理 LLM 的归因问题——因而产生明显引用内容的输出(虽然 LLM 可能仍然错误地总结每个零丁的文档)。
成立 LLM 的公司也很清晰那些问题。2022 年 9 月,谷歌子公司 DeepMind 颁发了一篇关于名为 Sparrow 的「对话代办署理」的论文,该公司的首席施行官兼结合开创人 Demis Hassabis 后来告诉《时代》杂志,该论文将在本年内发布;该杂志报导说,谷歌的目的是开发包罗引用动静来源的才能在内的功用。其他合作敌手,例如 Anthropic,暗示他们已经处理了 ChatGPT 的一些问题。
一些科学家说,目前,ChatGPT 还没有承受足够专业的内容培训,无法对手艺主题有所帮忙。Kareem Carr 是马萨诸塞州剑桥市哈佛大学的生物统计学博士生,当他在工做中试用它时,他感应手足无措。「我认为 ChatGPT 很难到达我需要的特异性程度,」他说。(即使如斯,卡尔说,当他向 ChatGPT 询问处理研究问题的 20 种办法时,它回复了胡言乱语和一个有用的设法——一个他从未传闻过的统计术语,将他引向了学术文献的一个新范畴。)
一些科技公司正在按照专业科学文献对聊天机器人停止培训——虽然它们也碰到了本身的问题。2022 年 11 月,拥有 Facebook 的科技巨头 Meta 发布了一个名为 Galactica 的 LLMs 项目,该项目承受过科学摘要培训,旨在使其出格擅长造做学术内容和答复研究问题。在用户让它产生禁绝确和种族主义之后,该演示已从公共拜候中撤出(虽然其代码仍然可用)。「不再可能通过随意滥用它来获得一些乐趣。高兴吗?」Meta 的首席人工智能科学家 Yann LeCun 在推特上回应攻讦。
平安与责任
Galactica 碰到了伦理学家多年来不断指出的一个熟悉的平安问题:若是没有输出控造,LLM 很容易被用来生构怨恨言论和垃圾邮件,以及可能隐含在其训练数据中的种族主义、性别蔑视和其他有害联想。
密歇根大学科学、手艺和公共政策项目主任 Shobita Parthasarathy 说,除了间接产生有毒内容外,还有人担忧人工智能聊天机器人会从他们的训练数据中嵌入汗青成见或关于世界的设法,例如特定文化的优胜性。她弥补说,因为创建大型 LLM 的公司大多处于那些文化中,而且来自那些文化,因而他们可能很少测验考试克制那种系统性且难以纠正的成见。
OpenAI 在决定公开发布 ChatGPT 时试图回避此中的许多问题。它将其常识库限造在 2021 年,阻遏其阅读互联网并安拆过滤器以试图让该东西回绝为敏感或有毒提醒生成内容。然而,要实现那一点,需要人工审核员来标识表记标帜有毒文本。记者报导说,那些工人的工资很低,有些人还遭到了创伤。社交媒体公司也对工人抽剥提出了类似的担忧,那些公司雇用人员来训练主动机器人来标识表记标帜有毒内容。
OpenAI 的护栏并没有完全胜利。2022 年 12 月,加州大学伯克利分校的计算神经科学家 Steven Piantadosi 在推特上暗示,他已要求 ChatGPT 开发一个 Python 法式,以确定一小我能否应该按照其原籍国遭到酷刑。聊天机器人回复了代码,邀请用户输入一个国度;若是阿谁国度是朝鲜、叙利亚、伊朗或苏丹,则打印「那小我应该遭到熬煎」。(OpenAI 随后封闭了此类问题。)
2022 年,一群学者发布了一个名为 BLOOM 的替代 LLMs。研究人员试图通过在少量高量量的多语言文本源上对其停止训练来削减有害输出。相关团队还完全开放了其训练数据(与 OpenAI 差别)。研究人员已催促大型科技公司负责任地效仿那个例子——但尚不清晰他们能否会遵守。
一些研究人员暗示,学术界应该完全回绝撑持大型贸易 LLM。除了成见、平安问题和受抽剥的工人等问题外,那些计算密集型算法还需要大量能量来训练,那引发了人们对其生态脚印的担忧。更令人担忧的是,通过将思维转移给主动聊天机器人,研究人员可能会失去表达本身设法的才能。「做为学者,我们为什么会急于利用和宣传那种产物?」 荷兰拉德堡德大学大学的计算认知科学家 Iris van Rooij 在一篇博文中写道,催促学术界抵抗他们的吸引力。
进一步的紊乱是一些 LLMs 的法令地位,那些 LLMs 是按照从互联网上抓取的内容停止培训的,有时权限不太明白。版权和答应法目前涵盖像素、文本和软件的间接复造,但不包罗其气概的模拟。当那些通过 AI 生成的模拟品通过摄取原件停止训练时,就会呈现问题。包罗 Stable Diffusion 和 Midjourney 在内的一些 AI 艺术法式的创做者目前正在被艺术家和摄影机构告状;OpenAI 和微软(连同其子公司手艺网站 GitHub)也因创建其 AI 编码助手 Copilot 而被告状盗版软件。英国纽卡斯尔大学互联网法专家 Lilian Edwards 暗示,强烈抗议可能会迫使法令发作变革。
强迫诚笃利用
一些研究人员暗示,因而,为那些东西设定边界可能至关重要。Edwards 建议,现有的关于蔑视和成见的法令(以及方案中的对 AI 的危险利用的监管)将有助于连结 LLM 的利用诚笃、通明和公允。「那里有大量的法令,」她说,「那只是应用它或略微调整它的问题。」
同时,有人鞭策 LLM 的利用通明公开。学术出书商(包罗《Nature》的出书商)暗示,科学家应该在研究论文中披露 LLM 的利用情况;教师们暗示,他们希望学生也有类似的行为。《Science》杂志走得更远,称不克不及在论文中利用由 ChatGPT 或任何其别人工智能东西生成的文本。
一个关键的手艺问题是人工智能生成的内容能否能够随便被发现。许多研究人员正努力于此,此中心思惟是利用 LLM 自己来发现 AI 创建的文本的输出。
例如,2022 年 12 月,新泽西州普林斯顿大学计算机科学本科生 Edward Tian 发布了 GPTZero。那种 AI 检测东西以两种体例阐发文本。一个是「猜疑」,权衡 LLMs 对文本的熟悉水平。Tian 的东西利用了一个早期的模子,称为 GPT-2;若是它发现大部门单词和句子都是可预测的,那么文本很可能是人工智能生成的。该东西还查抄文本的变革,一种称为「突发性」的度量:与人类编写的文底细比,人工智能生成的文本在语气、节拍和猜疑度方面往往愈加一致。
许多其他产物同样旨在检测 AI 编写的内容。OpenAI 自己已经发布了 GPT-2 检测器,并在 1 月份发布了另一个检测东西。出于科学家的目标,由反抄袭软件开发商 Turnitin 公司开发的东西可能出格重要,因为 Turnitin 的产物已被世界各地的学校、大学和学术出书商利用。该公司暗示,自 GPT-3 于 2020 年发布以来,它不断在开发人工智能检测软件,估计将在本年上半年推出。
然而,那些东西中没有一个声称是满有把握的,尤其是在随后编纂 AI 生成的文本的情况下。此外,德克萨斯大学奥斯汀分校的计算机科学家兼 OpenAI 的客座研究员 Scott Aaronson 说,检测器可能会错误地表示一些人类编写的文本是人工智能生成的。该公司暗示,在测试中,其最新东西在 9% 的情况下将人类编写的文本错误地标识表记标帜为 AI 编写的,而且仅准确识别了 26% 的 AI 编写的文本。Aaronson 说,例如,在指控一论理学生仅仅按照检测器测试隐瞒他们对 AI 的利用之前,可能需要进一步的证据。
另一个设法是人工智能内容将带有本身的水印。2022 年 11 月,Aaronson 颁布发表他和 OpenAI 正在研究一种为 ChatGPT 输出添加水印的办法。它尚未发布,但由马里兰大学帕克分校的计算机科学家 Tom Goldstein 指导的团队在 1 月 24 日发布的预印本提出了一种造做水印的办法。那个设法是在 LLM 生成输出的特按时刻利用随机数生成器,以创建 LLM 被指示从中选择的合理替代词列表。那会在最末文本中留下一些选定单词的陈迹,那些单词能够通过统计体例识别,但对读者来说其实不明显。编纂可能会消弭那种陈迹,但戈德斯坦建议编纂必需更改超越一半的单词。
论文链接:https://arxiv.org/abs/2301.10226
Aaronson 指出,加水印的一个长处是它很少产生误报。若是有水印,则文本可能是用 AI 生成的。不外,它不会是满有把握的,他说:「若是你有足够的决心,必定有法子击败任何水印计划。」 检测东西和水印只会让棍骗性地利用 AI 变得愈加困难——并不是不成能。
与此同时,LLM 的创建者正忙于开发基于更大数据集的更复杂的聊天机器人(OpenAI 有望在本年发布 GPT-4)——包罗专门针对学术或医学工做的东西。2022 年 12 月下旬,谷歌和 DeepMind 发布了一份关于名为 Med-PaLM 的以临床为重点的 LLMs 的预印本。该东西几乎能够像通俗人类医生一样答复一些开放式的医学问题,虽然它仍然出缺点和不成靠。
论文链接:https://arxiv.org/abs/2212.13138
斯克里普斯研究转化研究所(位于圣地亚哥)所长 Eric Topol 暗示,他希望在将来,包罗 LLMs 在内的 AI 以至能够通过穿插查抄来自学术界的文原来帮忙诊断癌症和领会那种疾病。反对身体扫描图像的文学。但他强调,那一切都需要专家的明智监视。
生成人工智能背后的计算机科学开展如斯之快,以致于每个月城市呈现立异。研究人员若何选择利用它们将决定他们和我们的将来。「认为在 2023 岁首年月,我们已经看到了那种情况的完毕,那太疯狂了。」Topol 说,「实的才刚刚起头。」
相关报导:
https://www.nature.com/articles/d41586-023-00340-6
编纂:文婧
发表评论