近几年,随着ChatGPT、大型对话模型如Claude相继出现,它们已开始为数百万用户提供服务。这类强大的AI助手能够与人进行多轮流畅的对话,完成写作、编程、分析等各项任务,展现广阔的应用前景。但目前大部分公开的人机对话数据集都是专家根据特定场景设计生成的,与真实用户的自然交互存在差异,使得研究人员难以深入了解用户与AI助手的实际交互模式。

近日,艾伦人工智能研究所发布了包括100万真实用户与ChatGPT对话在内的WilDChat数据集。研究发现,WildChat涵盖了编程、创意写作、数学等多种主题,支持68种语言,用户提问和模型回复的平均长度超过了现有数据集。值得注意的是,超过10%的对话涉及不当言论,为AI应对恶意输入的研究提供了样本。另外,在WildChat上微调语言模型,可以显著提高模型的多轮对话能力。

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(GPT-4全面吊打):
https://hiclaude3.com

WildChat为对话AI研究提供了真实而丰富的数据。相信基于这一数据集的进一步研究,将有助于构建更智能、更安全、更贴近用户的AI对话系统,促进人机交互技术的发展。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第1张

论文标题:

WildChat: 1M ChatGPT Interaction Logs in the Wild

论文链接:

https://arxiv.org/pdf/2405.01470

WildChat:AI对话研究"改变游戏规则"

不按套路出牌:野生数据打破AI对话固有模式

Alpacacaca等传统人机对话数据集、Dolly等。,主要是由专家根据特定的场景设计问答生成的。虽然这种数据质量很高,但与真实用户的自然互动存在差距。用户在实际使用中的提问方式、语言风格和关注点往往更加多样化,对话往往是多轮互动,而不是简单的提问和回答。

WildChat的出现给对话AI的研究带来了新的突破。该数据集包含了真实用户与ChatGPT的100万个多轮对话,总token数超过8亿,是目前最大的公开人机对话数据集之一。更重要的是,这些对话是用户在实际使用中自然产生的,涵盖了编程、写作、数学、角色扮演等各种真实场景。

68种语言的百万对话,AI话匣游"数据"世界

WildChat的一个亮点是它的语言多样性。从主流英语、汉语到斯瓦希里语等小语种,数据集中包含了68种语言的对话,覆盖了世界各地的用户。这为多语言对话AI的研究提供了宝贵的资源。通过分析不同语言用户的互动特征,可以设计出更本地化、更个性化的对话策略。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第2张

与此同时,WildChat在数据规模上也非常惊人。每一个用户的平均问题包括295个token,是Alpaca的15倍;每一个AI回复包含441个token,是Dolly的5倍。如此大量的数据,为训练更强大的对话AI模型奠定了基础。WildChat数据集与现有人机对话数据集之间的对比如下图所示。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第3张

模型混乱!中美俄网友图案"调教"ChatGPT

WildChat数据集涵盖了ChatGPT模型生成的不同版本的数据,其中GPT-3.5系列模型约占76%,GPT-4系列模型约占24%。它为研究不同模型在真实场景中的表现差异提供了基础。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第4张

WildChat的用户主要来自美国俄罗斯、中国等国家,这反映了ChatGPT在世界范围内的普及程度。WildChat为研究这些差异提供了数据支持,因为不同国家和地区的用户之间的互动模式可能存在差异。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第5张

此外,WildChat还展示了对话主题的多样性。研究人员发现,辅助/创意写作是最常见的对话目的,其次是分析/决策解释(13.6%)和编程(6.7%),通过分析英语对话的第一轮用户提问,其次是分析/决策解释(13.6%)。这种分布有助于我们了解真实用户对话AI的主要使用场景和需求偏好。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第6张

VS话匣子用户VS话唠AI。:巅峰对决谁怕谁?GPT家族内战再次升级!

当话匣子用户遇到话匣子AI时,会产生怎样的火花?WildChat数据集给出了答案。数据显示,WildChat中近41%的对话是多轮互动,双方进行了巅峰对决。面对话匣子用户的连环问题,AI助手并没有表现出任何弱点。平均每次对话都要生成441个回复,是用户提问长度的1.5倍,可以称之为话匣子。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第7张

这些高强度的多轮对话不仅考验了AI的知识储备,也考验了它们的逻辑思维和语言组织能力。AI助手要想在嘴唇、枪和剑的对抗中占据上风,必须时刻保持头脑清晰,对话连贯,懂得看招拆招,不落后。否则,如果你不小心,你可能会被话匣用户抓住,陷入尴尬的境地。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第8张

GPT家族内斗的秘密故事也在话匣之战的背后。据统计,在WildChat的百万对话中,GPT-在GPT-4系列模型中,3.5系列模型占76%,其次是24%。久而久之,GPT-四是崛起如破竹,到2024年1月,其对话量已经超过GPT-3.5。这两个模型阵营的这一消长,似乎预示着AI话匣行业的新王即将诞生。而且很多话匣子的网友,在这场家族内战中又会扮演什么角色呢?

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第9张

不但语言模型热衷于喋喋不休,就连用户也是来自世界各地,语言独特。据统计,WildChat包含多达68种语言,远远超过其它同类数据集。除英语占一半以上外,中文和俄语用户还分别贡献了13%和12%的对话内容。如此丰富的多语言语料,使WildChat成为名副其实的"小联合国"。如果AI想要玩世界,语言关就不能失守啊!

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第10张

AI话匣全景图:狂飙突进或急刹猛击?

把AI变成"暴力制造机":超过10%的对话令人惊讶!

WildChat数据集揭示了一个令人不安的事实:在真正的人机交互中,不当言论无处不在。数据显示,WildChat中超过10%的对话涉及各种不当内容,包括仇恨、骚扰、色情和暴力。这一发现敲响了AI安全的警钟,凸显了加强对话AI内容审计和风险控制的迫切需求。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第11张

更令人担忧的是,面对用户的恶意输入,目前的对话AI系统非常脆弱。据统计,当用户输入不恰当的内容时,ChatGPT有6%的概率产生同样不恰当的回复。一旦放任这种情况,AI助手可能会沦为"。;暴力制造机",给用户带来意想不到的伤害。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第12张

那到底是什么因素导致了AI助手的堕落呢?研究人员通过对WildChat数据的深入分析,发现了一些值得关注的模式。第一,匿名互动的环境似乎是一种不恰当言论的温床。超过88%的有害内容出现在未登录用户的匿名对话中,这是WildChat的对话。第二,一些热门"越狱提示"它在煽动AI产生有害回复方面发挥了重要作用。资料表明,使用PRompt诱导AI无视伦理限制,成功率超过60%。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第13张

面对这些棘手的问题,研究人员提出了一系列应对建议。首先,要建立完善的内容审计机制,实时检测和过滤有害信息,并将其扼杀在萌芽状态。其次,要加强对话AI的鲁棒训练,提高抵御恶意输入的能力,避免被用户轻易摆布。此外,平台方还需要完善用户管理,限制和惩罚非法用户,创造更健康的互动环境。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第14张

虽然WildChat数据集揭示了对话AI安全的许多隐患,但它也为相关研究指明了方向。通过分析这些真实的不当对话,研究人员可以洞察有害内容的来源、传播和演变规律,为构建更智能、更安全的对话AI系统提供参考。也许有一天,我们可以教AI辨别是非,让它抵御人性的恶意,成为一个值得信赖的好助手和好伙伴。

AI模型炼丹术:WildChat神药让Chatbot更上一层楼!

WildChat数据集不仅是研究人员的金矿,也是AI模型的炼丹炉。如果你想建立一个优秀的对话AI助手,你必须在真实数据的熔炉中进行锤炼和锤炼。作者看中了WildChat的潜力,试图用它来微调语言模型,结果引人注目。

研究者们祭祀炼丹界的顶级法宝——Llama-以WildChat为导向的7B模型,以大量的计算能力为炉,开始了一场大规模的炼丹打怪。在270万轮对话的蒸馏液中,他们反复淬炼3个epoch,学习率为2e-5,只是为了锻造最强的AI话匣。而且他们的秘诀在于OPEnAI的独特绝学-使用Llama"指令微调"。

好事多磨,WildChat的神功真的名副其实。在开源对话能力评价MT-bench上,微调Llama模型一骑绝尘,将纯种Llama甩出几条街。WildLlama完全碾压了整体对话质量、角色扮演和编程能力,呈现出惊人的实力增长。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第15张

更加令人惊讶的是,炼丹师傅还特意安排了WildLlama与各行各业AI大师的巅峰对决。面临Vicuna、Alpaca、开源界的一线选手,比如Dolly,WildLlama可谓神挡杀神佛挡杀佛。资料表明,它在多个领域的任务中取得了全面的胜利,显示出压倒性的优势。作为调参圣药,WildChat的作用得到了充分的验证。它还提醒我们,真正的人机交互数据是语言模型增长的养分,适当的服用可以使你的Chatbot更上一层楼。相信以后会有越来越多的"炼丹师"将目光投向WildChat,在这个大数据熔炉中淬炼出更多AI界的明日之星。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第16张

展望未来:个性化AI助手还远吗?

WildChat数据集为对话AI研究打开了一扇新的大门。它就像一面魔镜,反映了各种各样的人机对话:有话匣子的唇枪舌战,多语言的异域风情,不当言论的暗流涌动。所有这些都为我们理解用户需求、提高AI系统性能提供了宝贵的参考。

当然,WildChat的神奇功效远不止于此。它也是一种神奇的药物,可以训练AI,让你的Chatbot更听话、更聪明、更全能。只要找到合适的配方,精心制作,一个不负众望的AI助手指日可待。

然而,建立明星AI的道路也充满了挑战。怎样驯服话匣子用户?怎样制止不恰当的言论?怎样适应全球市场?这是对研究人员智慧和技术的考验。幸好有了WildChat这样的利器,相信这些难题迟早会迎刃而解。

未来,随着人机对话数据的不断积累和算法的不断完善,我们最终会到达AI对话的理想国家:在那里,每个人都可以有一个聪明、忠诚、可靠的AI伙伴,包括工作、生活和娱乐。而这一切,也许就从WildChat的一场"话匣子对抗"悄悄地开始了。

百万级ChatGPT对话曝光!AI居然经常被“调戏”?  第17张