导读 本文分享主题为腾讯文本理解系统 TexSmart 中的细粒度实体识别关键手艺。
次要介绍以下内容:
1. TexSmart 系统介绍
2. TexSmart 细粒度 NER 综述
3. 基于常识库的组合办法
4. 基于类似实体揣度的长途监视办法
5. 基于多源交融的 Zero-shot 办法
分享嘉宾|蒋海云博士 腾讯 AI Lab 高级研究员
编纂整理|程煜晴 新疆大学
出品社区|DataFun
01
TexSmart 系统介绍
TexSmart[1] 是一种天然语言理解系统,例如各人熟知的哈工大的 LTP[2]、复旦大学的 FastNLP[3]、斯坦福的 CoreNLP[4],供给一种面向天然语言理解的东西和办事,可以对中、英文两种语言的文本停止词法、句法和语义阐发。比拟现有的系统,TexSmart 具有以下三大特色:
① 细粒度 NER(细粒度定名实体识别)
可以撑持上千种实体类型的识别和分类,同时撑持类型之间的层级构造。
② 加强的语义理解功用
如给定一个词,可以撑持上下文相关的语义联想。
③ 为多维度应用需求而设想
兼顾学术与工业界对精度和速度的差别需求。
如下图所示,关于句子“上个月30号,南昌王先生在本身家里边看流离地球边吃煲仔饭”,传统的文本理解东西的 NER(Named Entity Recognition,实体识别)功用可以识别出“南昌”、“王先生”实体,而 TexSmart 在根底粒度根底上,还能进一步识别复合粒度的实体,如“流离地球”,以及“流离”和“地球”。

“南昌”在传统东西中被识别为“处所”,而在 TexSmart 中被识别为“城市”;“流离地球”在传统东西中可能被识别为“做品”或不被识别,而 TexSmart 进一步将其定义为“片子”。
此外,TexSmart 还供给上下文相关的语义联想,好比与“流离地球”相关的“战狼二”等片子。
由此,面临细粒度 NER 碰到的可扩展性和歧义问题的挑战,TexSmart 颠末人工整理和挑选,将传统十几品种别实体扩大到一千多品种别,加强了实体识此外可扩展性。

在语义联想方面,TexSmart 可以做到对句子中给定的实体,预测与其联系关系的实体集合。

同时,TexSmart 对系统中的每一种算法都供给了大于等于两种的候选实现体例,可以适应对精度和速度的差别要求;在测试范畴上,TexSmart 多接纳无监视办法,可以笼盖更多的复杂数据;TexSmart 也会按期搜集无标签数据,动态更新模子。

除了上述功用,TexSmart 同样撑持文本理解,如分词、词性标注、文天职类等场景,并撑持文本婚配和文本图谱应用。

--
02
TexSmart 细粒度 NER 概述
NER 的步调一般是先找出文本中的 mention 位置,再在此根底上识别类型,在那一模块,我们专注于 NER 中的细粒度场景,若何识别上千品种此外实体,实现“超细粒度”的识别。

如图是超细粒度 NER 中的类别样例,在 Ontology 树中 PErson 类此外深度到达了7层。

下面,我们将介绍若何在给定一句话中的 mention 后,识别此中蕴含的实体类别。
--
03
基于常识库的组合办法
1. 无监视算法
那类办法已经较为成熟,借鉴了上下文抽取以及概念图谱的思惟,先从无构造的文本数据中抽取出大量 “is-a” 对,如(苹果,公司)、(苹果,生果),之后通过人工将上位词映射到预定义的实体类别,如(苹果,org.company)、(苹果,food.fruit),得到 term(mention)-to-type graph,由此,在 Type 下积累了一系列的 mentions,在利用时,只需要计算上下文与 mentions 的类似度,即可得到实体的类别。


如要识别出“苹果汁”中的“苹果”实体的类别,在已构造好的实体集合-类别库中,上下文与“汁”相关的更多是食物或饮料类此外 mention,与 company 类比拟,那里的“苹果”更可能属于 fruit 类,由此实现了消歧。


那类办法同样存在一些缺点,起首,词典需要足够大,关于新的实体无法很好地识别,其次,我们也面对词典规模与笼盖率的折衷问题。

2. 无监视和有监视的组合办法
为了缓解那一问题,我们提出了一种组合算法。在粗粒度上,因为类别数量较少,能够通过少量标签数据训练出一个有监视模子,在细粒度的类别预测上接纳无监视办法,最初将两者连系,结合推理出更优的细粒度类别。

如图,关于“王青松”那一词典中没有的 mention,在无监视中模子中无法间接预测,但有监视模子将其预测为 person;又如“流离地球”在有监视模子中被预测为(work, generic),在无监视模子中被预测为(work,movie),颠末结合,综合预测成果为(work,movie)。

能够看到,我们的 Hybrid 办法在 Base 根底上获得了有效提拔。

--
04
基于类似实体揣度的长途监视办法
在细粒度实体识此外场景下,因为上下文非常复杂,或者是非常简短而具有歧义,因而很难学到有效的暗示。在 ACL2022上,我们颁发了一篇基于类似实体揣度的办法,其核心思惟类似于检索办法,即通过类似的实体揣度出目的实体。

我们将类似实体定义为 Sibling Mentions(一般情况下,Mention 代表识别前的实体,为便利表述,在 Slides 中我们混用了 Mention 和实体,请留意),类似实体指该实体与目的实体具有不异或类似的概念散布,如 country 和 nation。在语料库中,我们常会发现上下文中呈现了与识别实体类似的“兄弟实体”,即 Sibling Mention,那类实体能否能帮忙我们揣度出目的实体。

我们将其建模成一种异构图问题,即图中有两类节点,一类是 Mention,一类是 Type;三种关系,Mention 之间的“兄弟”关系、Type 之间的层级构造以及训练数据中已有 “is-a” 的关系,对应 Mention 与 Type 之间的关系。

之后,接纳图神经收集办法进修异构图中的节点暗示,并停止节点分类。

1. 若何找出类似实体
起首,在类似 Mention 的检测方面,我们接纳了两种办法:

① Word distribution-based metric
起首,接纳 TF-IDF 将 mention 中的词映射成稀少向量,并用余弦类似度办法停止类似度计算。
② Typing distribution-based metric
别的一种更切确的办法是在训练数据上先训练一个轻量实体识别模子,运用模子对实体做初步类型预测,并将预测的 Type 信息做为先验常识。
2. 若何揣度目的实体
图神经收集建模了图上节点传布的过程,即若何通过邻人节点的信息更新当前节点信息。我们接纳一种自留意力求神经收集,因为在图上有 Mention 节点与 Type 节点两品种型,关于 Type 节点,我们通过子节点更新上层父节点;关于 Mention 节点,我们通过 Sibling mention 和 ground truth 的 Type 更新节点的暗示,在预测时,用最初一层神经收集的节点做分类即可。

但是,那种办法存在着 ground truth 泄露问题,使得模子退化到只存眷 ground truth 中的 type 邻人,即只预测那一种 type。为了克制那一问题,我们接纳一种 Dropout 的办法,在构图时,关于每一个 mention,其每一个邻人都有必然概率被丢弃,使得预测模子需要“白手起家”,进而改善预测的效果。

3. 可扩展的模子推理
在模子推理过程中,当有新的 mention,起首将它做为一个节点参加图,与训练集中的类似实体相连。值得留意的是,新 mention 是没有 Type 邻人的(那恰是我们需要预测的),且我们以 batch 的体例参加,参加的一批 mentions 之间也没有边的联系关系。

之后,在连结原参数稳定的情况下,利用图神经收集得到节点暗示,并用于节点分类。从成果来看,我们在以往的 baseline 中得到了较为明显的提拔。

我们也做了相关消融尝试,验证类似实体的有效性。我们定义了三种目标,别离是 Purity、Coverage 和 Quality,别离对应 PRecision、Recall 和 F1-score。

尝试中,关于寻找类似实体,我们的两种办法与随机取实体、基于 ground truth 取实体做了比力,能够看出,当类似实体定义地越好时,节点分类的效果也越好。

--
05
多源交融的Zero-shot办法

多源能够理解为一种多视角进修,Zero-shot 在实体分类中能够定义为在训练集中完全没有见过的实体。

我们认为,Zero-shot 的核心是需要成立训练时实体类别和推理时实体类此外语义相关性,在实体分类使命中如斯,其余使命亦然。为了成立那一种相关性,我们需要引入辅助信息。
辅助信息源次要分为三类:
(1) Context consistency
把 Type 当做一个词,从语言模子的角度建模当前的 Type 与上下文的相关性。
(2)Type hierarchy
Type 之间的相关性能够通过 Ontology 树得到,例如,当预测文中实体的类型为 Organization 时,我们倾向于进一步预测实体为 Corporation 或 Government,而非 fruit。

(3)Background Knowledge
Protypes:为 Type 选择一个具有代表性的 mention。Descriptions:通过 WordNet 获取关于每个 Type 词的描述信息。
为了对前面三种信息别离建模。

(1) Context-Consistency-Aware Module(CA)
我们起首通过大规模预训练语言模子(如,BERT),捕获当前 Type 和其上下文语义上的兼容性。

(2) Type-Hierarchy-Aware Module(HA)
Hierarchy-aware type encoder借鉴 Transformer 的思惟,因为 Type 之间的关系是不具挨次的,因而去掉此中的 position embedding。关于 self-attention 机造,我们针对 Type 的层级构造特点,使得每个 Type 只 attend 它的父节点和它本身。

为了实现那一点,我们引入一个 MASK 矩阵,当两个节点之间不需要 attention,我们就将矩阵元素置为-∞,在颠末 softmax 之后值就趋于0。

利用 ELMo 进修词向量,并对 Mention 及其 context 的词向量停止堆叠。

成立丧失函数如下:

(3) Background-Knowledge-Aware Module(KA)
我们将其建模为多前提的文本蕴含使命,前提即为 Context、Prototype 和 Description。


在丧失函数上,借鉴常识图谱暗示进修中的 Trans 系列手艺,使假设的暗示和前提暗示加起来尽可能相等,丧失函数暗示如下:


最末在训练和测试时,得分由三个子模子的得分得到,按照验证集对三个子模子响应设置参数。

在 BBN 和 Wiki 两个数据集上,比照 Baseline 提拔4~5个点。


在有监视尝试上,只考虑粗粒度样本,切分一部门做为测试。

同时,我们也考虑每个辅助信息源的效果,停止消融尝试。

此外,我们发现当 context 越长时,效果越好。

对每一个辅助信息源的预测才能,我们做如下尝试。

上图中未重合的部门暗示只要该部门的辅助信息源可以预测,有共16.05%的例子是三种辅助信息源都无法预测的,有待进一步摸索。
--
06
问答环节
1. TextSmart 比来在细粒度 NER 使命中的表示,以及后续规划?
A1:后续将在若何设想 Span 上做进一步摸索,目前在细粒度实体识别上的表示大部门都比力好。
2. Prototype 是从训练集数据中选择的吗?
A2:我们引用了2016年的一篇 Entity typing 相关工做[6],利用了他们的开源数据。
3. 在异构图节点暗示中,为什么要弱化异构图,能否有测验考试过其他的 GNN 办法?
A3:我们在那里的偏重点在若何用 Sibling Type 学到目的实体,利用异构图只是因为我们的有两类节点,三种边,并没有强调异构图的特征,能够继续测验考试其他图神经收集办法。
--
07
参考文献
[1] https://ai.tencent.com/ailab/nlp/texsmart/en/index.html
[2] https://ltp.ai/
[3] http://www.fastnlp.top/about/
[4] https://stanfordnlp.github.io/CoreNLP/
[5] https://aclanthology.org/C16-1017/
今天的分享就到那里,谢谢各人。
|分享嘉宾|

蒋海云 博士|腾讯 AI Lab 高级研究员
蒋海云,男,2020年博士结业于复旦大学数据科学标的目的,次要研究包罗常识图谱、文本理解,天然语言生成等,在 ACL,EMNLP,IJCAI、AAAI、ICDE 等会议颁发论文20余篇。
|DataFun新媒体矩阵|

|关于DataFun|
专注于大数据、人工智能手艺应用的分享与交换。倡议于2017年,在北京、上海、深圳、杭州等城市举办超越100+线下和100+线上沙龙、论坛及峰会,已邀请超越2000位专家和学者参与分享。其公家号 DataFunTalk 累计消费原创文章900+,百万+阅读,16万+精准粉丝。
发表评论