W2NER详解

2023-11-09

论文：https://arxiv.org/pdf/2112.10070.pdf

代码：https://github.com/ljynlp/W2NER

文章目录

W2NER

介绍

W2NER模型，将NER任务转化预测word-word（备注，中文是字-字），它能够统一处理扁平实体、重叠实体和非连续实体三种NER任务。

假定摄入的句子 X 由 N 个tokne或word组成， X = { x 1 , x 2 , . . . , x N } X = \{x_1,x_2,...,x_N\} X={x1,x2,...,xN}，模型对每个word pair( x i , x j x_i,x_j xi,xj)中的两个word关系类别R进行预测，其中 R ∈ { N o n e , N N W , T H W − ∗ } R\in\{None,NNW,THW-^*\} R∈{None,NNW,THW−∗}

None：两个word之间没有关系，不属于同一实体
NNW：即Next-Neighboring-Word，表示这两个word在同一个实体中相邻的位置
THW-*：即Tail-Head-Word-*，表示这两个word在同一个实体中，且分别是实体的结尾和开始。用来判断实体的类别和边界，其中*是实体类型

举一个具体的例子（蓝色箭头为NNW、红色箭头为THW-*）：

上面的句子中由两个症状（symptom）实体，“aching in legs” 和 “aching in shoulders”，分别记作 e 1 , e 2 e_1,e_2 e1,e2；针对这两个实体，可以得到（b）中的word-word之间的关系，将句子按word维度构建二维矩阵为：

模型架构

W2NER模型主要是用来预测word pair中两个word之间的关系，也就是最右边的这个图。

接下来，让我们来看下数据流转：

输入的sentence经过EncoderLayer（BERT + BiLSTM）得到word_reps

word_reps = {batch_size，cur_batch_max_sentence_length，lstm_hidden_size}

将word_reps经过CLN（Conditional Layer Normalization）层，得到cln

cln = {batch_size，cur_batch_max_sentence_length，cur_batch_max_sentence_length，lstm_hidden_size}

将word pair的distance_embedding和三角区域的region_embedding 和 word_reps按最后一个维度拼接，得到conv_inputs

conv_inputs = {batch_size, cur_batch_max_sentence_length, cur_batch_max_sentence_length, dist_emb_size + type_emb_size + lstm_hidden_size}

将conv_inputs经过卷积层（核为1*1的常规二维卷积 + 核为3*3的多层空洞卷积），得到conv_outputs

conv_outputs = {batch_size, output_height = cur_batch_max_sentence_length, output_width = cur_batch_max_sentence_length, conv_hidden_size * 3}

将conv_outputs经过CoPredictor（由Biaffine + MLP组成），得到output

output = {batch_size, cur_batch_max_sentence_length, cur_batch_max_sentence_length, label_num}

此时对output对最后一个维度取softmax，可得到word-word pair，再进行关系解码

解码

情况a（扁平实体）

	（B,A）的关系为THW，则表示B是实体的结尾，A是实体的开始；又（A,B）的关系为NNW，表示A和B是在同一个实体中的相邻位置，所以得到扁平实体“AB”
	同理可得扁平实体“DE”

情况b（重叠实体）

	（C,A）的关系为THW，则C是实体的结尾，A是实体的开始；又（A,B）和（B,C）的关系均为NNW，表示A和B是在同一个实体中的相邻位置，B和C是在同一个实体中的相邻位置，所以得到扁平实体“ABC”
	同理得到扁平实体“BC”

情况c（扁平实体 + 非连续实体）

	得到扁平实体“ABC”、“ABD”

情况d（扁平实体 + 非连续实体）

	得到非连续实体“ACD”、“BCE”

源码介绍

数据输入格式

B指batch_size，L指当前句子的长度

bert_inputs：bert模型的输入token_ids，也就是input_ids包含[CLS]和[SEP] 维度[B，L + 2]
grid_labels：标注数据实体构建的THW和NHW关系二维矩阵维度[B,L,L]
grid_mask2d：网格mask信息，有效信息True，padding为False，维度[B,L,L]
dist_inputs：网格字符的相对位置信息，维度[B,L,L]
pieces2word：维度[B,L,L+2]
entity_text：用来标明实体信息，包括位置，类别。最后用来做评估使用

假设有句子：常建良，男

实体为：常建良（Name类型）

则pieces2word、pieces2word、grid_mask2d、grid_labels如下

id2index为

dis2idx = np.zeros((1000), dtype='int64')
dis2idx[1] = 1
dis2idx[2:] = 2
dis2idx[4:] = 3
dis2idx[8:] = 4
dis2idx[16:] = 5
dis2idx[32:] = 6
dis2idx[64:] = 7
dis2idx[128:] = 8
dis2idx[256:] = 9

模型代码

模型主类Model

class Model(BaseModel):
    def __init__(self, use_bert_last_4_layers=False):
        super().__init__()
        self.use_bert_last_4_layers = use_bert_last_4_layers
        self.bert = build_transformer_model(config_path=config_path, checkpoint_path=checkpoint_path, # segment_vocab_size=0, 
                                            output_all_encoded_layers = True if use_bert_last_4_layers else False)
        lstm_input_size = self.bert.configs['hidden_size']

        self.dis_embs = nn.Embedding(20, dist_emb_size)
        self.reg_embs = nn.Embedding(3, type_emb_size)

        self.encoder = nn.LSTM(lstm_input_size, lstm_hid_size // 2, num_layers=1, batch_first=True,
                            bidirectional=True)

        conv_input_size = lstm_hid_size + dist_emb_size + type_emb_size

        self.convLayer = ConvolutionLayer(conv_input_size, conv_hid_size, dilation, conv_dropout)
        self.dropout = nn.Dropout(emb_dropout)
        self.predictor = CoPredictor(label_num, lstm_hid_size, biaffine_size,
                                     conv_hid_size * len(dilation), ffnn_hid_size, out_dropout)

        self.cln = LayerNorm(lstm_hid_size, conditional_size=lstm_hid_size)

    def forward(self, token_ids, pieces2word, dist_inputs, sent_length, grid_mask2d):
        bert_embs = self.bert([token_ids, torch.zeros_like(token_ids)])
        if self.use_bert_last_4_layers:
            bert_embs = torch.stack(bert_embs[-4:], dim=-1).mean(-1) # 取最后四层的均值

        length = pieces2word.size(1)
        min_value = torch.min(bert_embs).item()

        # 最大池化
        _bert_embs = bert_embs.unsqueeze(1).expand(-1, length, -1, -1)
        _bert_embs = torch.masked_fill(_bert_embs, pieces2word.eq(0).unsqueeze(-1), min_value)
        word_reps, _ = torch.max(_bert_embs, dim=2)

        # LSTM
        word_reps = self.dropout(word_reps)
        packed_embs = pack_padded_sequence(word_reps, sent_length.cpu(), batch_first=True, enforce_sorted=False)
        packed_outs, (hidden, _) = self.encoder(packed_embs)
        word_reps, _ = pad_packed_sequence(packed_outs, batch_first=True, total_length=sent_length.max())

        # 条件LayerNorm
        cln = self.cln(word_reps.unsqueeze(2), word_reps)

        # concat
        dis_emb = self.dis_embs(dist_inputs)
        tril_mask = torch.tril(grid_mask2d.clone().long())
        reg_inputs = tril_mask + grid_mask2d.clone().long()
        reg_emb = self.reg_embs(reg_inputs)
        conv_inputs = torch.cat([dis_emb, reg_emb, cln], dim=-1)
        
        # 卷积层
        conv_inputs = torch.masked_fill(conv_inputs, grid_mask2d.eq(0).unsqueeze(-1), 0.0)
        conv_outputs = self.convLayer(conv_inputs)
        conv_outputs = torch.masked_fill(conv_outputs, grid_mask2d.eq(0).unsqueeze(-1), 0.0)

        # 输出层
        outputs = self.predictor(word_reps, word_reps, conv_outputs)
        return outputs

ConvolutionLayer类

   class ConvolutionLayer(nn.Module):
    '''卷积层
    '''
    def __init__(self, input_size, channels, dilation, dropout=0.1):
        super(ConvolutionLayer, self).__init__()
        self.base = nn.Sequential(
            nn.Dropout2d(dropout),
            nn.Conv2d(input_size, channels, kernel_size=1),
            nn.GELU(),
        )

        self.convs = nn.ModuleList(
            [nn.Conv2d(channels, channels, kernel_size=3, groups=channels, dilation=d, padding=d) for d in dilation])

    def forward(self, x):
        x = x.permute(0, 3, 1, 2).contiguous()
        x = self.base(x)

        outputs = []
        for conv in self.convs:
            x = conv(x)
            x = F.gelu(x)
            outputs.append(x)
        outputs = torch.cat(outputs, dim=1)
        outputs = outputs.permute(0, 2, 3, 1).contiguous()
        return outputs

CoPredictor类

class CoPredictor(nn.Module):
    def __init__(self, cls_num, hid_size, biaffine_size, channels, ffnn_hid_size, dropout=0):
        super().__init__()
        self.mlp1 = MLP(n_in=hid_size, n_out=biaffine_size, dropout=dropout)
        self.mlp2 = MLP(n_in=hid_size, n_out=biaffine_size, dropout=dropout)
        self.biaffine = Biaffine(n_in=biaffine_size, n_out=cls_num, bias_x=True, bias_y=True)
        self.mlp_rel = MLP(channels, ffnn_hid_size, dropout=dropout)
        self.linear = nn.Linear(ffnn_hid_size, cls_num)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x, y, z):
        h = self.dropout(self.mlp1(x))
        t = self.dropout(self.mlp2(y))
        o1 = self.biaffine(h, t)

        z = self.dropout(self.mlp_rel(z))
        o2 = self.linear(z)
        return o1 + o2

MLP类

class MLP(nn.Module):
    '''MLP全连接
    '''
    def __init__(self, n_in, n_out, dropout=0):
        super().__init__()

        self.linear = nn.Linear(n_in, n_out)
        self.activation = nn.GELU()
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        x = self.dropout(x)
        x = self.linear(x)
        x = self.activation(x)
        return x

Biaffine类

class Biaffine(nn.Module):
    '''仿射变换
    '''
    def __init__(self, n_in, n_out=1, bias_x=True, bias_y=True):
        super(Biaffine, self).__init__()

        self.n_in = n_in
        self.n_out = n_out
        self.bias_x = bias_x
        self.bias_y = bias_y
        weight = torch.zeros((n_out, n_in + int(bias_x), n_in + int(bias_y)))
        nn.init.xavier_normal_(weight)
        self.weight = nn.Parameter(weight, requires_grad=True)

    def extra_repr(self):
        s = f"n_in={self.n_in}, n_out={self.n_out}"
        if self.bias_x:
            s += f", bias_x={self.bias_x}"
        if self.bias_y:
            s += f", bias_y={self.bias_y}"

        return s

    def forward(self, x, y):
        if self.bias_x:
            x = torch.cat((x, torch.ones_like(x[..., :1])), -1)
        if self.bias_y:
            y = torch.cat((y, torch.ones_like(y[..., :1])), -1)
        # [batch_size, n_out, seq_len, seq_len]
        s = torch.einsum('bxi,oij,byj->boxy', x, self.weight, y)
        # remove dim 1 if n_out == 1
        s = s.permute(0, 2, 3, 1)

        return s

参考资料

https://blog.csdn.net/HUSTHY/article/details/123870372

https://zhuanlan.zhihu.com/p/546602235

参照代码：

https://github.com/Tongjilibo/bert4torch/blob/master/examples/sequence_labeling/task_sequence_labeling_ner_W2NER.py

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

自然语言处理

W2NER详解的相关文章

AttributeError：使用 CRF 时“Tensor”对象没有属性“_keras_history”

我知道关于这个问题有很多问题我已经阅读了其中的一些问题但没有一个对我有用 I am trying to build a model with the following architecture 代码如下 token inputs In
NLTK CoreNLPDependencyParser：无法建立连接

我正在尝试通过 NLTK 使用斯坦福解析器按照示例here http www nltk org api nltk parse html nltk parse corenlp CoreNLPDependencyParser 20tutori
word2vec中单词的向量代表什么？

word2vec https code google com p word2vec 是 Google 的开源工具它为每个单词提供一个浮点值向量它们到底代表什么还有一篇论文关于段落向量 http cs stanford edu quoc
SGDClassifier 每次为文本分类提供不同的准确度

我使用 SVM 分类器将文本分类为好文本和乱码我正在使用 python 的 scikit learn 并按如下方式执行 Created on May 5 2017 import re import random import numpy
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
将单引号替换为双引号并排除某些元素

我想用双引号替换字符串中的所有单引号但出现的情况除外例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
否定句子的算法

我想知道是否有人熟悉算法句子否定的任何尝试例如给定一个句子这本书很好请提供任意数量的意思相反的替代句子例如这本书不好甚至这本书不好显然以高精度实现这一点可能超出了当前 NLP 的范围但我确信在这个主题上已经有了一些工作
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
如何在Python中使用多处理来加速循环执行

我有两个清单列表 A 包含 500 个单词列表 B 包含 10000 个单词我正在尝试为列表 A 找到与 B 相关的相似单词我正在使用 Spacy 的相似函数我面临的问题是计算需要很长时间我是多处理使用的新手因此请求帮助如何
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
斯坦福 CoreNLP：使用部分现有注释

我们正在尝试利用现有的代币化句子分割和命名实体标记同时我们希望使用斯坦福 CoreNlp 额外为我们提供词性标注词形还原和解析目前我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert
验证 Transformer 中多头注意力的实现

我已经实施了MultiAttention head in Transformers 周围有太多的实现所以很混乱有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行运行了一些测试查询并注意到如果原始术语是单数则复数查询不会返回结果我知道雪球分析器增加了词干支持这听起来不错不过我想知道超过标准的雪球锣是否有任何
Keras：嵌入/向量的附加层？

我有 3 个词嵌入嵌入 1 w11 w12 w13 w14 嵌入 2 w21 w22 w23 w24 嵌入 3 w31 w32 w33 w34 有没有办法通过添加所有三个向量来获得第四个嵌入并使用所有向量的可训练权重例如嵌入 4 w
Java 中的自然语言处理 (NLP) [重复]

这个问题在这里已经有答案了可能的重复 Java 有没有好的自然语言处理库 https stackoverflow com questions 870460 java is there a good natural language pro

随机推荐

ArcGIS Maritime Server 开发教程（三）Maritime Service 功能解读

ArcGIS Maritime Server 开发教程三 Maritime Service 功能解读本章导读 ArcGIS Maritime Server 能够以极简的方式发布海图服务其服务的标准与传统的 MapService 对齐
小白数学建模模型入门(二)

数学建模模型入门二 1 图论模型 Dijkstra算法应用于求初始点到其他所有顶点的最短路径本质是一种标号法给赋权图的每一个顶点记一个数称为顶点的标号临时标号称T标号固定标号称为P标号 T标号表示从始顶点到该标点的最短路长
The last packet sent successfully to the server was 0 milliseconds ago

今天在弄数据库迁移及部署到客户服务器时发现启动成功了但是数据请求超时赶紧打开日志看一下报了这样的错 The last packet sent successfully to the server was 0 milliseconds
&和&&的区别（单与和双与的区别）

和都可以用作逻辑与的运算符为短路与不是短路与可以作为整数的位运算符举两个例子 1 对于if str null str equals 这个表达式当str null 时后面的表达式就不会执行也不会出现NullPointerExc
跨平台编程开发工具Xojo 2023 Release mac中文版功能介绍

Xojo mac是一款跨平台的软件开发工具它允许开发人员使用一种编程语言来创建应用程序然后可以在多个操作系统上运行 Xojo 2023是Xojo开发工具的最新版本它提供了许多功能和改进以帮助开发人员更轻松地构建高质量的应用程序 Xo
转载super resolution 超分辨率的一些论文和代码

1 CVPR 2019 神奇的超分辨率算法DPSR 应对图像模糊降质 code 2 从SRCNN到EDSR 总结深度学习端到端超分辨率方法发展历程 3 超分辨率在人脸识别中的工业应用商汤算法一骑绝尘打造公安人脸识别智能核心 4 人脸超分
linux开放端口命令tcp,linux开放端口命令

linux系统中控制端口的开启与关闭可以由命令来执行下面由学习啦小编为大家整理了linux下开放端口命令的相关知识希望对大家有所帮助 linux开放端口命令1 打开指定端口 sbin iptables I INPUT p tcp dpo
数据、常量和变量 2014-3-19总结

今天学习了数据常量和变量一数据数据分为两种静态数据和动态数据 1 静态数据 1 概念静态数据是指一些永久性的数据硬盘内存比较大所以一般的存储在硬盘中 2 存储的时长计算机关闭之后再开启这些数据依旧还在只要你不主动删掉或
Backtrader量化&回测11——策略信号Indicator

对于程序来讲该有的代码一行都不会少但是把代码分块就可以很直观的阅读或修改代码使用Indicator可以将策略的信号从策略类Strategy中脱离出来方便策略进行协调与控制文章目录策略信号示例代码策略信号官网中对于Indic
Pycharm 的使用技巧（启动界面弹出Tips的内容翻译）

Pycharm 启动界面弹出Tips的部分内容翻译 1 ctrl N 打开类的查找框 2 在拼写类的名字时可以用ctrl 空格来补充未写完的部分活着弹出可选项在两次点击ctrl 空格时将在补充完类的拼写的同时自动添加导入该类的语句 3
手撕boost/buck

手撕Boost Boost公式推导及实验验证手撕Buck Buck公式推导过程 Boost Boost的拓扑结构在开关导通的时候电感两端电压U Vi不变电感量L也是常数 di dt U L 常数电流随时间线性变化如果我们规定电流
MySQL高级篇之视图

视图 1 介绍视图 View 是一种虚拟存在的表视图中的数据并不在数据库中实际存在行和列数据来自定义视图的查询中使用的表并且是在使用视图时动态生成的通俗的讲视图只保存了查询的SQL逻辑不保存查询结果所以我们在创建视图的时候
IDEA创建mybatis的xml文件

当我们用IDEA写项目写mybatis的mapper 直接去新建xml文件的时候发现没有这个选项我们需要去创建一个xml的file模板这样我们去新建的时候就很方便了 1 File gt Settings 2 Editor gt File
Opencv画图函数整理及 cvCircle cvLine 只能画出黑白两种颜色问题解决

一句话用这些画图函数在RGB图上画则能画出来彩色如果您在灰度图上画则无论怎么设置color都只能画出黑白两种颜色就这一句话搞了我一个晚上惭愧 Opencv绘图函数 http www opencv org cn index php
C语言函数大全--h开头的函数

h开头的函数或宏 1 hypot hypotf hypotl 1 1 函数说明 1 2 演示示例 1 3 运行结果 2 HUGE VAL HUGE VALF HUGE VALL 2 1 函数说明 2 2 演示示例 2 3 运行结果 3 ha
linux安装gitlab并修改gitlab默认端口号

安装系统 centos 6 5 官网安装地址 https about gitlab com install centos 6 可以先根据官网安装步骤进行安装分别执行以下命令 1 打开http访问和ssh访问 sudo yum instal
Premiere Pro 2022

第1章视频编辑的基础知识 1 1 视频编辑术语帧视频的基础单位可以理解为一张静态图片就是一帧关键帧是素材中的特定帧标记为进行特殊的编辑或其他操作以便控制完成动画的流回放或其他特性帧速率代表每秒播放帧的数量单位是每秒多
机器学习、计算机视觉和深度学习

机器学习计算机视觉和深度学习 1 什么是机器学习 2 机器学习的类型 3 什么是计算机视觉 4 计算机视觉的机器学习应用 5 总结参考这篇博客将简要介绍机器学习和用于计算机视觉的机器学习想象一下你可以使用人脸检测算法在图像或视频
为 Prometheus Node Exporter 加上认证

这篇文章主要是为了庆祝 Node Exporter 终于迎来了 v1 0 0 版本 Prometheus https prometheus io 是最早由 SoundCloud 开源的监控告警解决方案并已经成长为继 Kubernetes
W2NER详解

论文 https arxiv org pdf 2112 10070 pdf 代码 https github com ljynlp W2NER 文章目录 W2NER 介绍模型架构解码源码介绍数据输入格式模型代码参考资料 W2NER