文本信息关系抽取的方法

2023-11-08

3.2 关系抽取的方法

由于传统机器学习的关系抽取方法选择的特征向量依赖于人工完成,也需要大量领域专业知识,而深度学习的关系抽取方法通过训练大量数据自动获得模型,不需要人工提取特征。2006年Hinton 等人(《Reducing the dimensionality of data with neural networks》)首次正式提出深度学习的概念。深度学习经过多年的发展,逐渐被研究者应用在实体关系抽取方面。目前,研究者大多对基于有监督和远程监督2种深度学习的关系抽取方法进行深入研究。此外,预训练模型Bert(bidirectional encoder representation from transformers)自2018年提出以来就备受关注,广泛应用于命名实体识别、关系抽取等多个领域。

3.2.1 有监督的关系抽取方法

有监督的深度学习关系抽取方法能解决经典方法中存在的人工特征选择、特征提取误差传播2大主要问题,将低层特征进行组合,形成更加抽象的高层特征,用来寻找数据的分布式特征表示。目前,有监督的关系抽取方法主要有流水线学习(pipeline)和联合学习(joint)两种。

3.2.1.1 流水线(pipeline)学习

流水线学习方法是指在实体识别已经完成的基础上直接进行实体之间关系的抽取。早期的流水式学习方法主要采用卷积神经网络(convolutional neural networks, CNNs)和循环神经网络(recurrent neural networks, RNNs)两大类结构。其中,CNNs多样性卷积核的特性有利于识别目标的结构特征,而RNNs能充分考虑长距离词之间的依赖性,其记忆功能有利于识别序列。随着深度学习的不断发展,研究者不断改进和完善CNN 和RNN 的方法,并产生了许多变体,如长短期记忆网络(long short term memory, LSTM)、双向长短期记忆网络(bidirectional long short term memory, Bi-LSTM)等,此外,随着图卷积神经网络(graph convolutional network, GCN)在自然语言处理领域的应用,GCN 也越来越多地用于挖掘和利用实体间的潜在信息,为解决关系重叠、实体重叠提供了新思路,从而进一步促进了关系抽取的发展。

  •  CNN

2014年Zeng等人(《Relation classification via convolutional deep neural network》)首次使用CNN 提取词级和句子级的特征,通过隐藏层和softmax层进行关系分类,提高了关系抽取模型的准确性;Liu等人(《Convolution neural network for relation extraction》)在实体关系抽取方面使用简单的CNN 模型,该模型主要由输入层、卷积层、池化层和softmax层组成,输入词向量和距离向量等原始数据进行实体关系抽取;为了消除了文本大小的任意性所带来的不便,Collobert等人(《Natural language processing  (almost) from scratch》)利用设置大小固定的滑动窗口和在输入层和卷积层之上增添max层2种办法,提出了一种基于CNN 的自然语言处理模型,方便处理多种任务;Nguyen等人(《Perspective from convolutional neural networks》)设计了多种窗口尺寸的卷积核的CNN 模型,能自动学习句子中的隐含特征,最大限度上减少了对外部工具包和资源的依赖;Santos等人(《Classifying relations by ranking with convolutional neural networks》)使用逐对排序这一新的损失函数,有效地区分了关系类别;Xu等人(《Semantic relation classification via convolutional neural networks with simple negative sampling》)融合卷积神经网络和最短依存路径的优势进行实体关系抽取,在公有数据集SemEval 2010Task8的评估结果中,F1值为85.4%,相比于不使用最短依存路径的方法提高了4.1%,验证了卷积神经网络和最短依存路径结合的有效性;Ye等人(《Jointly extracting relations with class ties via effective deep ranking》)基于关系类别之间的语义联系,利用3 种级别的损失函数AVE,ATT,ExtendedATT,在包含10717条标注样例的SemEval-2010 Task 8中进行模型评估,最佳情况下准确率、召回率、F1值分别达到了83.7%,84.7%,84.1%,有效地提高了关系抽取方法的性能;Fan等人(《structured minimally supervised learning for neural relation extraction》)提出了一种最小监督关系提取的方法,该方法结合了学习表示和结构化学习的优点,并准确地预测了句子级别关系。通过在学习过程中明确推断缺失的数据,该方法可以实现一维CNN 的大规模训练,同时缓解远程监管中固有的标签噪音问题。在中文研究方面,孙建东等人(《Chinese entity relation extraction algorithms based on COAE2016 datasets》)基于COAE2016数据集的988条训练数据和937条测试数据,提出有效结合SVM 和CNN 算法可以用于中文实体关系的抽取方法。传统文本实体关系抽取算法多数是基于特征向量对单一实体对语句进行处理,缺少考虑文本语法结构及针对多对实体关系的抽取算法;基于此,高丹等人(《Entity relation extraction based on CNN in large-scale text data》)提出一种基于CNN 和改进核函数的多实体关系抽取技术,并在25463份法律文书的实体关系抽取上,取得了较好的抽取效果和较高的计算效率。

  •  RNN

除CNN 关系分类的方法外,Socher等人(《Semantic compositionality through recursive matrix-vector spaces》)首先采用RNN 的方法进行实体关系抽取。该方法利用循环神经网络对标注文本中的句子进行句法解析,经过不断迭代得到了句子的向量表示,有效地考虑了句子的句法结构;面对纯文本的实体关系抽取任务,Lin等人(《Neural relation extraction with selective attention over instance》)使用了一种多种语言的神经网络关系抽取框架,并在句子级别引入注意力机制(attention),极大地减少了噪音句子的影响,有效地提高了跨语言的一致性和互补性。由于神经网络经常受到有限标记实例的限制,而且这些关系抽取模型是使用先进的架构和特征来实现最前沿的性能;Chen 等人(《Self-training improves recurrent neural networks performance for temporal relation extraction》)提出一种自我训练框架,并在该框架内构建具有多个语义异构嵌入的递归神经网络。该框架利用标记的、未标记的社交媒体数据集THYME实现关系抽取,并且具有较好的可扩展性和可移植性。

  •  LSTM∕Bi-LSTM

为了解决RNN 在自然语言处理任务中出现的梯度消失和梯度爆炸带来的困扰,研究者使用性能更为强大的LSTM。LSTM 是一种特殊的循环神经网络,最早是Hochreiter,Schmidhuber提出。2015年Xu等人(《Classifying relations via long short term memory networks along shortest dependency path》)提出基于LSTM 的方法进行关系抽取,该方法以句法依存分析树的最短路径为基础,融合词向量、词性、WordNet以及句法等特征,使用最大池化层、softmax 层等用于关系分类;Zhang 等人(《Bidirectional long short term memory networks for relation classification》)使用了Bi-LSTM 模型结合当前词语之前和词语之后的信息进行关系抽取,在最佳实验结果中相比于文献[58]的方法提高了14.6%,证实了Bi-LSTM 在关系抽取上具有有效性。

  •  GCN

图神经网络最早由Gori等人提出,应用于图结构数据的处理,经过不断发展,逐渐应用于自然语言处理领域。而图卷积神经网络能有效地表示实体间的关系,挖掘实体间的潜在特征,近年来受到了越来越多的关注。Schlichtkrull等人(《Modeling relational data with graph convolutional networks》)提出使用关系图卷积神经网络(R-GCNs)在2个标准知识库上分别完成了链接预测和实体分类,其中链接预测抽取出了缺失的关系,实体分类补全了实体缺失的属性;为有效利用负类数据,Zhang等人(《Graph convolution over pruned dependency trees improves relation extraction》)提出一种扩展的图卷积神经网络,可以有效地平行处理任意依赖结构,便于对实体关系进行抽取。通过在数据集TAC和SemVal-2010Task8上的评估,其最佳的实验结果的准确率、召回率、F1值为71.3%,65.4%,68.2%,该方法的性能优于序列标注和依赖神经网络。此外,作者还提出一种新的剪枝策略,对输入的树结构的信息,可以快速找到2个实体之间的最短路径;图神经网络是最有效的多跳(multi-hop)关系推理方法之一,Zhu等人(《Graph neural networks with generated parameters for relation extraction》)提出一种基于自然语言语句生成图神经网络(GP-GNNs)参数的方法,使神经网络能够对无结构化文本输入进行关系推理;针对多元关系的抽取,Song等人(《N-ary relation extraction using graph state LSTM》)提出了一种图状的LSTM 模型,该模型使用并行状态模拟每个单词,通过消息的反复传递来丰富单词的状态值。该模型保留了原始图形结构,而且可以通过并行化的方式加速计算。不仅提高了模型的计算效率,也实现了对多元关系的抽取;为有效利用依赖树的有效信息,减少无用信息的干扰,Guo等人(《Attention guided graph convolutional networks for relation extraction》)提出一种直接以全依赖树为输入的、基于注意力机制的图卷积网络模型。该模型是一种软剪枝(soft-pruning)的方法,能够有选择地自动学习对关系提取任务有用的相关子结构,支持跨句多元关系提取和大规模句级关系提取。

  •  混合抽取

为了进一步提高关系抽取模型的性能,一些研究者开始采取融合多种方法的方式进行关系抽取。2016年Miwa等人(《End-to-end relation extraction using LSTMs on sequences and tree structures》)使用联合的方法,他们融合Bi-LSTM 和Tree LSTM 模型的优点对实体和句子同时构建模型,分别在3 个公有数据集ACE04,ACE05,SemVal-2010Task8对关系抽取模型进行评估,有效地提高了实体关系抽取的性能;Zhou等人[79]提出一种基于注意力的Bi-LSTM,着重考虑词对关系分类的影响程度,该方法在只有单词向量的情况下,优于大多数当时的方法;Li等人[80]融合Bi-LSTM 和CNN 的特点,利用softmax函数来模拟目标实体之间的最短依赖路径(SDP),并用于临床关系提取的句子序列,在数据集2010i2b2∕VA 的实验结果F1为74.34%,相比于不使用语义特征的方法提高2.5%;陈宇等人[81]提出一种基于DBN(deepbeliefnets)的关系抽取方法,通过将DNB与SVM 和传统神经网络2种方法在ACE04数据集(包含221篇消息文本、10228个实体和5240个关系实例)进行了比较,F1 值分别提高了1.26% 和2.17%,达到了73.28%;召回率分别提高了3.59%和2.92%,达到了70.86%,验证了DBN 方法的有效性。此外,DBN 方法表明,字特征比词特征更适用于中文关系抽取任务,非常适用于基于高维空间特征的信息抽取任务。流水线方法的实验结果相对良好,但容易产生错误传播,影响关系分类的有效性;将命名实体识别和关系抽取分开处理,容易忽视这2个子任务之间的联系,丢失的信息会影响抽取效果;另外,冗余信息也会对模型的性能产生较大的影响。为解决这些问题,研究人员尝试将命名实体识别和关系抽取融合成一个任务,进行联合学习。

3.2.1.2 联合学习

联合学习方法有3种,包括基于参数共享的实体关系抽取方法、基于序列标注的实体关系抽取方法和基于图结构的实体关系抽取方法。

  •  基于共享参数的方法

命名实体识别和关系抽取通过共享编码层在训练过程中产生的共享参数相互依赖,最终训练得到最佳的全局参数。因此,基于共享参数方法有效地改善了流水线方法中存在的错误累积传播问题和忽视2个子任务间关系依赖的问题,提高模型的鲁棒性。2016年Miwa等人(《End-to-end relation extraction using LSTMs on sequences and tree structures》)首次利用循环神经网络、词序列以及依存树将命名实体识别和关系抽取作为一个任务进行实验,通过共享编码层的LSTM 的获得最优的全局参数,在数据集ACE04,ACE05分别减少了5.7%和12.1%的错误率,在数据集SemEval-2010Task8的F1达到了84.4%。然而Miwa忽略了实体标签之间的长距离依赖关系,为此Zheng等人(《Joint entity and relation extraction based on a hybrid neural network》)将输入句子通过公用的Embedding层和Bi-LSTM 层,分别使用一个LSTM 进行命名实体识别和一个CNN 进行关系抽取,该方法的F1达到了85.3%,相对Miwa提高了近1%。

  •  基于序列标注的方法

由于基于共性参数的方法容易产生信息冗余,因此Zheng等人(《Joint extraction of entities and relations based on a novel tagging scheme》)将命名实体识别和实体关系抽取融合成一个序列标注问题,可以同时识别出实体和关系。该方法利用一个端到端的神经网络模型抽取出实体之间的关系三元组,减少了无效实体对模型的影响,提高了关系抽取的召回率和准确率,分别为72.4%和43.7%.为了充分利用实体间有多种关系,Bekoulis等人(《Joint entity recognition and relation extraction as a multi-head selection problem》)将命名实体识别和关系抽取看作一个多头选择问题,可以表示实体间的多个关系;此外Bekoulis等人(《Adversarial training for multi-context joint entity and relation extraction》)还发现对模型加入轻微的扰动(对抗样本)可以使得WordEmbedding的质量更好,不仅提高了置信度还避免了模型过拟合,模型的性能大大提升。因此首次将对抗学习(adversarial training, AT)加入联合学习的过程中。实验结果表明,在4个公有数据集ACE04,CoNLL04,DREC,ADE的F1提高了0.4%~0.9%。

  •  基于图结构的方法

针对前2种方法无法解决的实体重叠、关系重叠问题,基于图结构的方法能有效得解决。Wang等人(《Joint extraction of entities and relations based on a novel graph scheme》)发现生成标记序列后的合并三元组标签过程采用的就近组合无法解决关系重叠问题,因此提出一种新的基于图架构的联合学习模型。该方法不仅能有效解决关系重叠问题,而且使用偏执权重的损失函数强化了相关实体间的关联,实验结果的准确率、召回率及F1值分别为64.3%,42.1%,50.9%。此外,Fu等人(《Modeling text as relational graphs for joint entity and relation extraction》)提出将图卷积神经网络用于联合学习,利用图的节点表示实体,边表示关系,有效地解决了关系重叠和实体重叠问题,不仅如此,还对边(关系)加入了权重,有效挖掘了实体对间的潜在特征,通过使用NYT 和WebNLG 数据集的评估,该方法在最佳情况下准确率、召回率及F1 值可达63.9%,60.0%,61.9%,与文献《Joint extraction of entities and relations based on a novel graph scheme》相比,召回率和F1分别提高17.9%和11.0%。本文选取了几种经典的有监督关系抽取方法进行了综合比较,具体如表4所示。深度学习的有监督方法能够自动地学习大量特征,避免人工选择特征,但对大量没有进行标记的数据,这种方法就显出其弊端。为了减少对大数据的标注的人工成本,研究者尝试使用远程监督的方法进行关系抽取。

3.2.2 远程监督的关系抽取方法

针对海量无标记数据的处理,远程监督的实体关系抽取方法极大地减少了对人工的依赖,可以自动地抽取大量的实体对,从而扩大了知识库的规模。此外,远程监督的方法具有较强的可移植性,比较容易应用到其他领域。远程监督的基本假设是如果2个实体在己知知识库中存在着某种关系,那么涉及这2个实体的所有句子都会以某种方式表达这种关系。Mintz等人(《Distant supervision for relation extraction without labeled data》)首次在ACL会议上将远程监督方法应用于实体关系抽取的任务中。他们将新闻文本与知识图谱FreeBase进行中的实体进行对齐,并利用远程监督标注的数据提取文本特征,训练关系分类模型。这类方法在数据标注过程会带来2个问题:噪音数据和抽取特征的误差传播。基于远程监督的基本假设,海量数据的实体对的关系会被错误标记,从而产生了噪音数据;由于利用自然语言处理工具抽取的特征也存在一定的误差,会引起特征的传播误差和错误积累。本文主要针对减少错误标签和错误传播问题对远程监督的关系抽取方法进行阐述。

1)针对错误标签

由于在不同语境下同一对实体关系可能存在不同含义,为了减少因此而产生的错误关系标签,Alfonseca等人[90]利用FreeBase知识库对关系进行分层处理,以启发式的方式自动识别抽取表示关系的语义和词汇;由于利用启发式的规则标记实体关系时会产生一些错误标记,Takamatsu等人(《Reducing wrong labels in distant supervision for relation extraction》)提出一种产生式模型,用于模拟远程监督的启发式标记过程,使用903000篇Wikipedia文章进行模型的训练,并使用400000篇文章进行测试,实验结果的准确率、召回率和F1 值分别为89.0%,83.2%,82.4%;为了解决Alfonseca提出的方法缺乏实体的知识背景问题,Ji等人(《Distant supervision for relation extraction with sentence-level attention and entity descriptions》)提出了一种在句子级别引入注意力机制的方法来抽取有效的实例,并通过FreeBase和Wikipedia不断地扩充实体的知识背景;之前大多方法对负类数据的利用率较低,Yu等人[93]提出结合从句子级远程监督和半监督集成学习的关系抽取方法,该方法减少了噪声数据,充分利用了负类数据。该方法首先使用远程监督对齐知识库和语料库,并生成关系实例集合,接着使用去噪算法消除关系实例集中的噪声并构建数据集。为了充分利用负类数据,该方法将所有正类数据和部分负类数据组成标注数据集,其余的负类数据组成未标注数据集。通过改进的半监督集成学习算法训练关系分类器的各项性能,然后进行关系实例的抽取。此外,为了减少错误标签产生的噪音数据对关系抽取模型的影响,Wang等人(《Label-free distant supervision for relation extraction via knowledge graph embedding》)提出了一种无标签的远程监督方法;该方法只是使用了知识库中的关系类型,而由2个实体来具体确定关系类型,避免了知识库中的先验知识标签对当前关系类型判别造成影响,也无需使用外部降噪工具包,大大提高了关系抽取的效率和性能;为了进一步提高对数据的使用效率,Ru等人(《Using semantic similarity to reduce wrong labels in distant supervision for relation extraction》)使用Jaccard算法计算知识库中的关系短语与句子中2个实体之间的语义相似性,借此过滤错误的标签。该方法在减少错误标签的过程中,利用具有单词嵌入语义的Jaccard算法选择核心的依赖短语来表示句子中的候选关系,可以提取关系分类的特征,避免以前神经网络模型关系提_取的不相关术语序列引起的负面影响。在关系分类过程中,将CNN 输入的核心依赖短语用于关系分类。实验结果表明,与使用原始远程监督数据的方法相比,使用过滤远程监督数据的方法在关系提取方面结果更佳,可以避免来自不相关术语的负面影响;为了突破距离对关系抽取模型性能的限制,Huang等人(《Distant supervision relationship extraction based on GRU and attention mechanism》)提出一种融合门控循环单元(gated recurrent unit, GRU)和注意力机制的远程监督关系抽取方法,该方法解决了传统深度模型的实体在长距离依赖性差和远程监督中容易产生错误标签的问题;实验结果表明,文献[89]的方法召回率在大于0.2时就开始迅速下降,而该方法在整个过程中都相对稳定,保证了模型的鲁棒性;此外,通过与文献(《Neural relation extraction with selective attention over instances》)的方法进行比较,该方法的召回率平均提高10%,能够充分利用整个句子的序列信息,更适合自然语言任务的处理。

2)针对误差传播

Fan等人(《Distant supervision for relation extraction with matrix completion》)提出远程监督关系提取的本质是一个具有稀疏和噪声特征的不完整多标签的分类问题。针对该问题,Fan使用特征标签矩阵的稀疏性来恢复潜在的低秩矩阵进行实体关系抽取;为了解决自然语言处理工具包提取问题带来的错误传播和错误积累问题,Zeng等人(《Adversarial learning for distant supervised relation extraction》)融合CNN 和远程监督的方法,提出分段卷积神经网络(piecewise convolutional neural network, PCNN)用于实体关系抽取,并尝试将基于CNN 的关系抽取模型扩展到远程监督数据上。该方法可以有效地减少了错误标签的传播和积累,在最佳情况下,准确率、召回率以及F1值达到了48.30%,29.52%,36.64%。针对目前在中文领域实体-属性提取中模型的低性能,He等人(《Chinese entity attributes extraction based on bidirectional LSTM networks》)提出了一种基于Bi-LSTM 的远程监督关系抽取方法。首先,该方法使用Infobox的关系三元组获取百度百科的信息框,从互联网获取训练语料库,然后基于Bi-LSTM 网络训练分类器。与经典方法相比,该方法在数据标注和特征提取方面是全自动的。该方法适用于高维空间的信息提取,与SVM 算法相比,准确率提高了12.1%,召回率提高了1.21%,F1值提高了5.9%,准确率和F1值得到显著提高。有监督的关系抽取方法借助人工标注的方法提高了关系抽取的准确性,但是需要耗费大量人力,其领域泛化能力和迁移性较差。远程监督的方法相对于有监督的方法极大地减少了人工成本,而且领域的迁移性较高。但是,远程监督的方法通过自动标注获得的数据集准确率较低,会影响整个关系抽取模型的性能。因此,目前的远程关系抽取模型的性能仍然和有监督的关系抽取模型有一定的差距,有较大的提升空间。基于深度学习的监督和远程监督方法抽取对比如表5所示:

 

3.2.3 BERT

2018年GoogleAILanguage发布了BERT模型,该模型在11个NLP任务上的表现刷新了记录,在自然语言处理学界以及工业界都引起了不小的热议。BERT的出现,彻底改变了预训练产生词向量和下游具体NLP任务的关系。在关系抽取领域,应用BERT 作预训练的关系抽取模型越来越多,如Shi等人提出了一种基于BERT的简单模型,可用于关系抽取和语义角色标签。在CoNLL05数据集中,准确率、召回率和F1值分别为88.6%,89.0%,88.8%,相比于baseline方法分别提高了1.0%,0.6%,0.7%;Shen等人借助BERT的强大性能对人际关系进行关系抽取,减少了噪音数据对关系模型的影响。此外,又使用了远程监督可以对大规模数据进行处理,在CCKS2019evalTask3IPRE数据集的结果表明,该方法优于大多数人际关系抽取方法,F1值达到了57.4%。

BERT作为一个预训练语言表示模型,通过上下文全向的方式理解整个语句的语义,并将训练学到的知识(表示)用于关系抽取等领域。但BERT 存在许多不足之处。

1) 不适合用于长文本。

BERT 以基于注意力机制的转换器作为基础,不便于处理长文本,而关系抽

取领域的文本中经常出现超过30个单词的长句,BERT会对关系抽取的性能产生影响。针对长句子的情况,可以另外设计一个深度的注意力机制,以便层级化的捕捉关系。

2)易受到噪音数据的影响。

BERT 适用于短文本,而短文本中若出现不规则表示、错别字等噪音数据,这不仅会对关系触发词的抽取造成一定的影响,而且在联合学习时进行命名实体识别阶段也会产生错误的积累和传播,最终导致模型的性能下降。

3)无法较好地处理一词多义问题。由于传统机器学习的关系抽取方法选择的特征向量依赖于人工完成,也需要大量领域专业知识,而深度学习的关系抽取方法通过训练大量数据自动获得模型,不需要人工提取特征。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

文本信息关系抽取的方法 的相关文章

  • 考虑光伏出力利用率的电动汽车充电站能量调度策略研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • AI 赋能绿色制冷,香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

    近年来 城市化进程加速所带来的碳排放量骤增 已经严重威胁到了全球环境 多个国家均已给出了 碳达峰 碳中和 的明确时间点 一场覆盖全球 全行业的 绿色革命 已经拉开序幕 在一众行业中 建筑是当之无愧的能耗大户 其中又以暖通空调 Heating
  • Java OCR 库有推荐吗? [复制]

    这个问题在这里已经有答案了 我需要检查大量图片 看看它们是否有关键字 谁能推荐一个好的 可靠的 OCR 库 我很乐意牺牲速度来换取准确性 没有纯 Java OCR 库具有与准确性有关的事情 https stackoverflow com q
  • 如何使用OCR(TesseractOCR)php库

    我使用此链接克隆了 OCR 的 git 库 git clone git github com thiagoalessio tesseract ocr for php git 然后我只需按照以下步骤包含所需的文件example http th
  • 如何在 OCR 中区分斜线零和八 (0->8)

    我正在为我的 Android 应用程序使用 ML Kit for Firebase ReCalc 收据计算器 https play google com store apps details id info trekto receipts
  • Tesseract OCR Android tessdata 目录未找到

    我目前正在使用 OCR 开发 Android 应用程序 并且已经达到了调用 BaseAPI init 方法的程度 我不断收到错误消息 指出该目录必须包含 tessdata 作为子文件夹 我已检查文件目录是否包含其中包含训练数据文件的文件夹
  • emgucv:C# 中的 pan 卡不正确的倾斜检测

    我有三个泛卡图像 用于使用 emgucv 和 c 测试图像的倾斜 顶部的第一张图像检测到 180 度工作正常 中间的第二张图像检测到的 90 度应检测为 180 度 第三张图像检测到 180 度应检测为 90 度 我想在这里分享的一个观察结
  • 使用Python从具有两列或三列数据的图像中使用OCR读取图像中的文本

    在示例图像中 仅作为参考 我的图像将具有相同的图案 一个页面具有完整的水平文本 其他页面具有两个水平文本列 如何在python中自动检测文档的模式并逐一读取另一列数据 我将 Tesseract OCR 与 Psm 6 一起使用 它是水平读取
  • Microsoft Azure 认知服务手写检测边界框参数

    我目前正在使用Microsoft Azure 认知服务手写检测 API https learn microsoft com en in azure cognitive services computer vision quickstarts
  • unicharset_extractor:找不到命令

    我想使用超正方体创建新的列车数据 因此 请按照以下网站中提到的步骤进行操作 https blog cedric ws how to train tesseract 301 https blog cedric ws how to train
  • c# OCR无法识别数字(tesseract 2)

    I m trying to extract digits from the following 它失败了 我得到了 作为回报 我正在使用 google 的 tesseract 2 使用 C 开源 c 包装器 现在我想知道 这个图像是否太糟糕
  • 我自己的 Python OCR 程序

    我还是一个初学者 但我想写一个字符识别程序 这个程序还没有准备好 而且我编辑了很多 所以评论可能不完全一致 我将使用 8 个连通性来标记连通分量 from PIL import Image import numpy as np im Ima
  • pytesseract 错误 Windows 错误 [错误 2]

    您好 我正在尝试使用 python 库 pytesseract 从图像中提取文本 请查找代码 from PIL import Image from pytesseract import image to string print image
  • TensorFlow:训练时参数不更新

    我正在使用 TensorFlow 实现分类模型 我面临的问题是 当我运行训练步骤时 我的权重和误差没有更新 结果 我的网络不断返回相同的结果 我根据以下内容开发了我的模型MNIST 示例 https www tensorflow org v
  • 如何提取图像中的表格

    我想从图像中提取表格 这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
  • 如何将 Tesseract 导入 Angular2 (TypeScript)

    我正在尝试将 Tesseract 导入 Angular2 TypeScript 我可以看到它保存到 node modules 文件夹中 但是在使用时 import Tesseract from types tesseract js it s
  • Tesseract 是否会忽略扫描文档中的任何非文本区域?

    我正在使用 Tesseract 但我不知道它是否忽略任何非文本区域并仅针对文本 我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出 Tesseract 有一个非常好的算法来检测文本 但它最终会给出误报匹配 理想情况下 您应该在将图像
  • Tess4j 问题 java.lang.UnsatisfiedLinkError

    我正在尝试解决 Tess4J 安装问题 1 我在 WEB INF win32 x86 中创建了一个文件夹2 我把 libtesseract302 dll 和 liblept168 dll 放在那里 然后将其添加到 java 构建路径中的源
  • 训练 tesseract 与 iPhone 一起使用

    我正在尝试在我的 iPhone 应用程序中使用 tesseract 2 04 只想检测数字 我在这里所做的首先是使用这篇文章交叉编译 tesseract 以生成 lib 文件http robertcarlsen net 2009 07 15
  • 如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract

    我正在尝试在 Windows 中训练 Tesseract 为此我需要一对 tiff box 文件 并且我正在尝试使用 jTessBoxEditor 创建它 但它不接受图像作为输入 我也尝试过 boxFactory 但它无法正常运行 有谁知道

随机推荐

  • 本周参加两个SAP项目面试后的感想

    本周参加两个SAP项目面试后的感想 本周二和周四 应约参加了2个不同项目的电话面试 感触挺多的 1 行业经验在很多项目选人的时候具有关键性的决定作用 A项目 是一个快消品行业的大项目 客户是世界跨国巨头 听对方介绍起来该项目规模庞大 极其复
  • JS多个对象添加到一个对象中

    var obj1 qq 10 var obj2 mm 2 nn 3 var obj3 xx 1 yy 5 obj1 field1 obj2 obj1 field2 obj3 console log obj1 转载于 https www cn
  • linux系统查看文件大小及使用空间大小

    1 查看 data test文件夹下所有文件大小之和命令 du h max depth 1 data test 2 查看 data test文件夹下所有文件大小明细 每个文件大小 命令 du h max depth 1 data test
  • 四路服务器选型项目,四路服务器详细

    四路服务器详细 内容精选 换一换 在待分析的服务器上安装节点 Web服务器 即安装鲲鹏性能分析工具的服务器 默认安装了节点 如果待分析的服务器与安装工具的服务器是同一个 请跳过该章节 已成功登录系统性能分析 待添加节点的服务器已配置操作系统
  • 17款最佳的代码审查工具

    好的代码审查器可以大大地帮助程序员提高代码质量 减少错误几率 虽然现在市场上有许多可用的代码审查工具 但如何挑选也是一个艰巨的任务 在咨询过有关专家的建议和意见之后 我们罗列出了以下17款最佳的代码审查工具 1 CodeStriker Co
  • Vue.js 条件渲染全解析

    注意标题是条件渲染而不是条件判断 Vue给v if这类条件判断属性取名叫条件渲染 这些属性的目的是判断要不要渲染这些元素 而不仅仅是所谓的判断 是否渲染才是最主要的功能 v if的使用 例如下面的代码 span里面可以显示message的信
  • 关于 Diffie-Hellman 组

    Diffie Hellman DH 组确定了在密钥交换进程中使用的密钥的强度 组的编号越大安全性就越高 但是也就需要更多的时间来计算密钥 WatchGuard 设备支持 Diffie Hellman 组 1 2 和 5 DH 组 1 768
  • PAT C 语言入门题目-7-60 删除重复字符 (20 分)

    7 60 删除重复字符 20 分 本题要求编写程序 将给定字符串去掉重复的字符后 按照字符ASCII码顺序从小到大排序后输出 输入格式 输入是一个以回车结束的非空字符串 少于80个字符 输出格式 输出去重排序后的结果字符串 输入样例 ad2
  • 06_列表渲染_1

    div h2 测试 v for 遍历数组 h2 ul li index p name li ul div
  • Linux多进程:zombie process——僵尸进程

    僵尸进程zombie process 子进程终止时 父进程尚未回收子进程残留的内核区资源 从而变成僵尸进程 僵尸进程不能被 kill 9 杀死 如果父进程不调用wait 或waitpid 的话 僵尸进程不会被处理 其pcb pid等资源一直
  • 英语二作文模板及范文

    文章目录 四大写作模板 辩证分析类 短文题目 二选一 模板 A OR B 范文 解决问题类 短文题目 提纲思路 写作模板 题目 范文 Fight against Haze 个人介绍类 短文题目 提纲思路 写作模板 范文 My Hobby 电
  • 在微信公众号里使用LaTeX数学公式

    quicklatex这个神器和它的wordpress插件QuickLaTeX 几乎完美支持和兼容Mathjax所支持的LaTeX数学公式 方法很简单 只要在wordpress中安装quicklatex 然后在文章的开头添加一个 latexp
  • b树和b+树的数据结构

    在B树中 你可以将键和值存放在内部节点和叶子节点 但在B 树中 内部节点都是键 没有值 叶子节点同时存放键和值 B 树的叶子节点有一条链相连 而B树的叶子节点各自独立 B树 普通的二叉树一个节点有一个元素 B树一个节点可以有多个元素 节点里
  • 进程调度:时间片轮转调度算法

    一 实验目的 1 加深对进程的理解 2 理解进程控制块的结构 3 理解进程运行的并发性 4 掌握时间片轮转法进程调度算法 二 实验原理 1 建立进程控制块 2 设计两个链队列 分别表示就绪队列和完成队列 3 用户输入进程标识符 进程到达时间
  • 以太坊系列 - 以太坊的测试网

    测试网简介 目前Ethereum存在三个测试网 分别是Ropsten PoW算法 支持Parity和Geth Kovan PoA算法 Parity专用 和Rinkeby Clique PoA共识算法 Geth专用 Ropsten PoW S
  • Python绘制LTspice仿真趋势图

    LTspice集成Python处理信号 首先 使用Python创建一个信号 然后 通过一个 LTspice 滤波器电路运行它 同时我们在 python 中控制一些滤波器的可调参数 最后 使用Python绘制结果 我们打开 LTspice 并
  • js 用正则去掉小数点后面多于的0(正则非捕获)

    const arr 1200 00100 1200 00000 1200 1200 1200 10000 0 120010000 0 000011111 const regexp 0 d 0 arr forEach item gt cons
  • 利用Sql Server代理中的作业实现数据库的自动备份

    1 在Sql server代理中新建作业 2 填写作业名称 3 新建步骤 4 填写步骤名称 选择类型为T Sql脚本 在命令中输入操作脚本 以数据库databaseA 为例 脚本内容如下 DECLARE filename VARCHAR 2
  • C++数组与指针的转换

    double aa 3 0 1 2 double p 获得某个返回值为double类型的指针 返回值这边 gt 3 aa 0 p 0 aa 1 p 1 aa 2 p 2 参考博客 C 数组 及二维数组 与指针 互转 遍历 数组与引用 匆忙拥
  • 文本信息关系抽取的方法

    3 2 关系抽取的方法 由于传统机器学习的关系抽取方法选择的特征向量依赖于人工完成 也需要大量领域专业知识 而深度学习的关系抽取方法通过训练大量数据自动获得模型 不需要人工提取特征 2006年Hinton 等人 Reducing the d