如何处理NLP中的两种实体提取方法

2023-12-07

我正在使用两种不同的实体提取方法（https://rasa.com/docs/nlu/entities/）同时在 RASA 框架中构建我的 NLP 模型以构建聊天机器人。机器人应该处理具有自定义实体以及一些一般问题（例如位置或组织）的不同问题。因此，我使用 ner_spacy 和 ner_crf 两个组件来创建模型。之后，我用 python 构建了一个小帮助程序脚本来评估模型性能。在那里我注意到模型很难选择正确的实体。

例如，对于单词“X”，它选择了 SpaCy 中的预定义实体“ORG”，但它应该被识别为我在训练数据中定义的自定义实体。

如果我只使用 ner_crf 提取器，我在识别大写字母等位置实体时会遇到巨大的问题。我最大的问题之一也是单一答案实体。

问：“你最喜欢什么动物？”

A : Dog

我的模型无法为这个单一答案提取这个单一实体“动物”。如果我用“狗”这样的两个词回答这个问题，模型就可以毫无问题地提取值为“狗”的动物实体。

所以我的问题是，使用两个不同的组件来提取实体是否聪明？一种用于自定义实体，另一种用于预定义实体。如果我使用两种方法，模型中使用哪个提取器的机制是什么？

顺便说一句，目前我只是在测试，所以我的训练样本并没有应有的那么大（少于 100 个示例）。如果我有更多的训练样本，问题能解决吗？

你在这里面临两个问题。我建议一些我认为有用的方法。

1.自定义实体识别：为了解决这个问题，您需要添加更多具有所有可能长度的实体的训练句子。ner_crf当实体周围有可识别标记（例如介词）时，可以更好地预测

2. 从单个单词答案中提取实体：作为解决方法，我建议您在客户端进行以下操作。

当您发送类似问题时What´s your favorite animal?，在问题上附加一个标记，以向客户表明需要一个答案。例如你可以发送##SINGLE## What´s your favorite animal?给客户。

客户端可以删除##SINGLE##来自问题并将其显示给用户。但是当客户端将用户的响应发送到服务器时，它不会发送Dog，它发送类似的东西User responded with single answer as Dog

您可以训练模型从此类答案中提取实体。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

Entity

rasanlu

如何处理NLP中的两种实体提取方法的相关文章

这个 NLP 问题层次结构描述中的最大池化是什么类型

我正在尝试实现这个描述以及我所做的我生成了形状的 uni gram bi gram tri gram 15 512 使用填充然后对于每个单词我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
每个 System.ComponentModel.DataAnnotations 属性的用途是什么？

我正在使用带有 POCO 的实体框架 4 制作 MVC 3 应用程序我想尽可能多地注释我的所有实体然而我遇到一个问题我无法找到有关每个属性含义的良好文档有些非常简单比如 Required or StringLength 具有像这
BERT 输出不确定

BERT 输出是不确定的当我输入相同的输入时我希望输出值是确定性的但我的 bert 模型的值正在变化听起来很尴尬同一个值返回两次一次也就是说一旦出现另一个值就会出现相同的值并重复如何使输出具有确定性让我展示我的代码片段
如何注册hibernate spring实体监听器

我已经构建了一个实体侦听器但尚未弄清楚如何注册它以便调用它这一切都运行了我在调试器中验证了注册代码在启动时执行显然成功但调试器永远不会停止在侦听器代码中这是我的听众 public class DirtyAwareListene
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
SpaCy 中的自定义句子边界检测

我正在尝试在 spaCy 中编写一个自定义句子分段器它将整个文档作为单个句子返回我编写了一个自定义管道组件它使用以下代码来执行此操作here https github com explosion spaCy issues 1850 但
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
用于词性标记的优秀 Java 库是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用“自然”语言编写代码更好吗？

我最近看到一种编程语言叫做超新星 http supernova sourceforge net 他们在网页上说超新星编程语言是现代脚本语言和第一个提出了概念用直接虚构进行编程描述使用纯人类语言的清晰子集你可以编写如下代码 i
如何使用动词时态/语气制作稀疏匹配器模式？

我一直在尝试使用动词时态和情绪为 spacy 匹配器创建一个特定的模式我发现了如何使用 model vocab morphology tag map token tag 访问使用 spacy 解析的单词的形态特征当动词处于虚拟语气模式
如何从 Pandas DataFrame 转换为 Tensorflow BatchDataset 以进行 NLP？

老实说我想弄清楚如何转换数据集格式 pandasDataFrame或 numpy 数组转换为简单文本分类张量流模型可以训练用于情感分析的形式我使用的数据集类似于 IMDB 包含文本和标签正面或负面我看过的每个教程要么以不同的方式
混合模型优先和代码优先

我们使用模型优先方法创建了一个 Web 应用程序一名新开发人员进入该项目并使用代码优先方法使用数据库文件创建了一个新的自定义模型这这是代码第一个数据库上下文 namespace WVITDB DAL public class D
使用 OpenNLP 获取句子的解析树。陷入困境。

OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子并给出其语法结构的树例如天空是蓝色的这句话可能会被解析为 S NP VP The sky is blue where S是句子 NP
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究
Symfony 2：实体的位置

我是 Symfony 2 的新手我想知道一些事情假设我的项目中有 2 个捆绑包我想在两个包中使用从我的数据库生成的实体我应该在哪里生成实体对我来说最好的方法是在捆绑包之外但我不知道如何做到这一点感谢您的帮助我认为有两种解决

随机推荐

根据第一列值合并两个索引数组的索引数组

我有两个这样的数组 array1 10 Some Name 11 Some Name 13 Some Name array2 13 Viewed 如何在不循环的情况下合并这两个数组有没有可用的 php 功能我需要这样的输出 10 Som
无法解析的外部符号，但 dumpbin 说没问题

我下载了Crypto 5 62 并使用默认项目设置构建它在我的项目中我设置了路径cryptopp lib并在附加依赖项中定义了它的名称 Crypto 和我的项目 VS 2008 在构建我的项目期间我得到 main obj error
Django 1.7 ImageField 表单验证

我正在使用 Django 1 7 和 Python 3 4 编写单元测试下面的表格可以很好地验证file data元素被注释掉随着file data包括它不验证并且测试失败 from django core files uploaded
AppEngine 中任务队列的默认值是什么？

假设我在我的队列中创建了一个新队列queue yaml文件为 queue name my queue 指定所有参数的等效队列是什么这是我可以从docs so far queue name my queue mode push bucket
计算次太阳点

我刚刚开始使用PyEphem 我当前的任务是给定日期和时间计算地球上的亚太阳点latitude longitude价值观我会深入研究PyEphem来解决这个问题但如果有人已经这样做了我会很感激示例代码我去寻找与OP相同的答案许
如何在 pyspark 中启动 SparkSession

我想更改 Spark 会话的默认内存执行器和核心设置 Jupyter 中 HDInsight 集群上的 pyspark 笔记本中的第一个代码如下所示 from pyspark sql import SparkSession spark S
将 glassfish javax.persistence 添加到 gradle 项目

我收到这个错误梯度构建 ant javac Hello java 2 错误包 javax persistence 不存在 Hello java 2 导入 javax persistence 我应该添加到 gradle build 中以包
在PowerShell中调用动态变量

我正在尝试创建一个新变量该变量将使用具有动态名称的其他变量作为其值这就是我想做的我有一个包含两个值的 System Array Years 2015 2016 另一个变量 Transactions有各种交易的清单我尝试按以下方式使用
黄瓜：自动创建步骤文件？

当我运行黄瓜时它显示我应该定义的可能步骤 RSpec 书中的一个示例 1 scenario 1 undefined 4 steps 4 undefined 0m0 001s You can implement step definitio
selenium.common.exceptions.SessionNotCreatedException：消息：会话未创建：此版本的 ChromeDriver 仅支持 Chrome 版本 114

我收到以下错误 selenium common exceptions SessionNotCreatedException 消息会话未创建此版本的 ChromeDriver 仅支持 Chrome 版本 114 当前浏览器版本为 116
在 Spring 中使用 setAllowedFields() 方法

我正在使用 Spring 3 2 0 我已经注册了一些自定义属性编辑器以满足一些基本需求如下所示 import editors DateTimeEditor import editors StrictNumberFormatEditor
实体框架 -Where 子句

假设我有一个名为 User 的表当我使用实体框架获取记录时我这样做 var db new Context var users db Users 它返回我表中的所有用户好的如果我这样做 var fooUsers db Users Wh
OpenERP中调用另一个表单的方法返回值

目前您可以将OpenERP的返回值设置为以下以获取要关闭的当前表单 return type ir actions act window close 是否有一个返回值可以打开另一个表单例如在产品表单中按钮可以调用销售表单或向导表
增量静态再生中的重新验证过程如何工作？

我有一个关于增量静态再生的问题据我所知revalidate值范围内getStaticProps 函数告诉 Next js 应该重建页面的时间我的问题是在设定的时间后每个用户请求都会发生这种情况还是从第一个用户请求点击页面开始集
出现错误：[Errno 95] 在 databricks 中写入 zip 文件时不支持操作 [重复]

这个问题在这里已经有答案了在这里我尝试使用 Databricks 中的以下代码压缩文件并将其写入一个文件夹挂载点 List all files which need to be compressed import os modelPa
将 @material-ui/core 与 NextJS/React 一起使用时的 FOUC

我的简单 NextJS 页面如下所示结果可以在https www schandillia com eslint disable no unused vars import React PureComponent Fragment from
运行谷歌应用引擎时出错：无法识别的参数：admin_console_server

我正在遵循 Python App Engine 入门教程但似乎无法连接到开发服务器当我尝试运行它时我不断从日志控制台收到以下错误 2013 08 23 09 46 43 PM Running command u usr bin py
获取窗口开始菜单项/快捷方式文件的“友好”名称

这很奇怪一些开始菜单项似乎解析为实际 lnk 文件中未包含的友好名称例如 c ProgramData Microsoft Windows Start Menu Programs Accessories System Tools df
在表单中暂停 GIF

只是想知道如何暂停 GIF 图像我正在访问服务器我希望在发生某些事情时播放 gif 图像并且如果系统冻结我希望它暂停我有一个图片框上面附有图像这可能吗 PictureBox 使用 ImageAnimator 类来制作 GIF
如何处理NLP中的两种实体提取方法

我正在使用两种不同的实体提取方法 https rasa com docs nlu entities 同时在 RASA 框架中构建我的 NLP 模型以构建聊天机器人机器人应该处理具有自定义实体以及一些一般问题例如位置或组织的不同问题因

如何处理NLP中的两种实体提取方法

如何处理NLP中的两种实体提取方法 的相关文章

随机推荐

热门标签

如何处理NLP中的两种实体提取方法的相关文章