是否可以训练斯坦福 NER 系统来识别更多命名实体类型？

2024-02-03

我现在正在使用一些 NLP 库（stanford 和 nltk）斯坦福大学我看到了演示部分，但只是想问是否可以使用它来识别更多实体类型。

因此，目前斯坦福的 NER 系统（如演示所示）可以将实体识别为人（名称）、组织或位置。但认可的组织仅限于大学或一些大型组织。我想知道是否可以使用它的 API 为更多实体类型编写程序，例如如果我的输入是“Apple”或“Square”，它可以将其识别为一家公司。

我必须制作自己的训练数据集吗？

此外，如果我想提取实体及其相互之间的关系，我觉得我应该使用斯坦福依赖解析器。我的意思是，首先提取命名实体和标记为“名词”的其他部分，并找到它们之间的关系。

我对么。

Thanks.

是的，您需要自己的训练集。预先训练的斯坦福模型仅将“斯坦福”一词识别为命名实体，因为它们已经接受了包含该单词的数据的训练（或根据它们使用的功能集非常相似的单词，我不知道那是什么）标记为命名实体。

一旦获得更多数据，您需要将其采用正确的格式，如这个问题 https://stackoverflow.com/questions/15609324/training-n-gram-ner-with-stanford-nlp和斯坦福大学的教程。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

是否可以训练斯坦福 NER 系统来识别更多命名实体类型？的相关文章

在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
scikit加权f1分数计算及使用

我有一个关于weightedsklearn metrics f1 score 中的平均值 sklearn metrics f1 score y true y pred labels None pos label 1 average weig
词干函数错误：词干需要一个位置参数

这里的stem函数显示错误指出stem需要循环中的一个位置参数如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
BERT - 池化输出与序列输出的第一个向量不同

我在 Tensorflow 中使用 BERT 有一个细节我不太明白根据文档 https tfhub dev google bert uncased L 12 H 768 A 12 1 https tfhub dev google bert
生成易于记忆的随机标识符

与所有开发人员一样我们在日常工作中不断处理某种标识符大多数时候它与错误或支持票有关我们的软件在检测到错误后会创建一个包该包的名称由时间戳和版本号格式化这是创建合理唯一标识符以避免混淆包的一种廉价方法例子错误报告 20101
将单引号替换为双引号并排除某些元素

我想用双引号替换字符串中的所有单引号但出现的情况除外例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
python中的语音识别持续时间设置问题

我有一个 Wav 格式的音频文件我想转录我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
快速 shell 命令删除文本文件中的停用词

我有一个 2GB 的文本文件我正在尝试从此文件中删除经常出现的英语停用词我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令例如 tr sed 或 awk 执行此操作的快速方法是什
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
斯坦福 CoreNLP：使用部分现有注释

我们正在尝试利用现有的代币化句子分割和命名实体标记同时我们希望使用斯坦福 CoreNlp 额外为我们提供词性标注词形还原和解析目前我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert
用于词性标记的优秀 Java 库是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何创建增量NER训练模型（追加到现有模型中）？

我正在训练定制命名实体识别 NER 模型使用斯坦福自然语言处理但问题是我想要重新训练模型 Example 假设我训练过xyz模型然后我将在一些文本上测试它如果模型检测到错误那么我最终用户将更正它并希望在更正的文本上重新训练追加模
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
如何将句子或文档转换为向量？

我们有将单词转换为向量的模型例如 word2vec 模型是否存在类似的模型可以使用为单个单词学习的向量将句子文档转换为向量 1 跳克法以及使用它的工具谷歌 word2vec https code google com p wor

随机推荐

第一个 Mac 应用程序 - Push viewcontroller

我有一个问题我做了一些 iphone 应用程序现在我想做一些 mac 应用程序从一个干净的应用程序中我在 MainMenu xib 上添加一个按钮然后使用一个操作将 NSViewController 添加到 MainMenu 来自
如何在 C++ 中反转字符串向量？ [复制]

这个问题在这里已经有答案了我有一个字符串向量我想反转该向量并打印它或者简单地说以相反的顺序打印该向量我该怎么做呢如果你想以相反的顺序打印向量 include
将 Cakephp 项目从 Cakephp 2.6.2 升级到 3.8 的最佳方法

我的任务是将遗留系统从 Cakephp2 6 2 升级到 Cakephp3 8 显然这两个是截然不同的但是有没有一种简单的方法可以让旧项目与新蛋糕版本一起工作或者有人可以引导我走向正确的方向找到最好的方法来做到这一点不存在适合所有
如何使用@Index JPA注释在主键上设置索引名称？

我的工具 gt Java 8 JPA 2 1 和 Hibernate 4 我只使用 JPA2 1 注释码头中的代码 gt Entity Table indexes Index name INDEX PK columnList ID pub
如何正确“关闭”node.js 服务器？

根据文档 http nodejs org api net html net server close callback呼叫server close 停止服务器接受新连接并保留现有连接所以我的代码是 var http require htt
如何在 ASP .NET CORE Identity 中通过 SignInManager 登录后获取用户声明？

I have an ASP NET Core 2 0 project in which I am using Microsoft s Identity framework for authentication authorization I
对多个 git 项目使用单个 git 存储库

我很便宜我不想为很多 github 帐户付费我有一个看起来像这样的项目结构 repo是项目根 repo 项目1是我有一个Java项目的地方 repo herokurails1是我有一个 Ruby Rails 项目的地方该项目部署到 h
cuda：扭曲发散开销与额外算术

当然扭曲发散通过if and switch语句在 GPU 上要不惜一切代价避免但是扭曲发散的开销是多少仅调度some执行某些行的线程与额外无用的算术考虑以下虚拟示例版本1 device int get D int A int
Android 4.4 不允许我保存使用 adb 命令捕获的图片

我的目标是使用前置和后置摄像头自动执行捕获和保存图片的过程我使用的是运行 Android 版本 4 4 2 的 Nexus 5 但尚未对其进行 root 我使用以下命令分别打开前置和后置摄像头 gt adb shell am start
即使没有析构函数，非静态类成员也会被销毁吗？

在 Bjarne Stroustrup 的 C 编程语言第 4 版第 17 6 节生成默认操作中提到了这一点如果程序员声明了复制操作移动操作或类的析构函数无复制操作移动操作或为该类生成析构函数因此我很困惑为什么Sub
导入错误：无法导入名称操作

尝试运行 django 项目安装了requirements txt 中的所有内容但仍然出现错误 from django contrib admin import ModelAdmin actions ImportError cannot
为什么 binding() 在 e2e 测试中找不到双向绑定？

The binding 函数似乎在 e2e 测试中找不到双向绑定假设有以下绑定
如何在 doInBackground 中的 AsyncTask 中显示 toast

在我正在使用的一项活动中AsyncTask In doInBackground 我正在调用各种方法在其中一种方法中我遇到了异常因此在 catch 块中我想在 Toast 中显示错误我知道我可以使用Log但我还是更喜欢吐司那么如何
将 XML 数据插入 Oracle 数据库

我的任务是从一个数据库非oracle db 获取数据并将该数据插入到另一个数据库 oracle 中我能够以 XML 形式从源数据库获取数据现在我必须将此 XML 作为输入传递到 oracle 数据库以便将 XML 内的所有数据插入到
aufs au_opts_parse:1155:docker[2010] 未知选项 dirperm1

我安装了 Docker 现在当我的 Ubuntu 14 04 Trusty 系统尝试启动时我收到以下消息 aufs au opts parse 1155 docker 2010 unknown option dirperm1 这意味着什
为什么 webpack 需要一个空扩展名

我试图弄清楚为什么 webpack 需要这个空扩展名 Inside resolve extensions总是有这样的配置 extensions js jsx 为什么不能只是这样 extensions js jsx 在较新的 Webpack
如何下载 TFS 搁置集

我需要将 TFS 中的搁置集下载到本地文件夹 Visual studio 2010 有没有下载工具集的工具或插件如果你只需要将文件从搁置集中获取到本地文件夹这是一个正常的过程称为Unshelve http msdn microsoft
即使 IP 更改或浏览器数据已清除，我如何识别网站上的唯一用户？

我正在开发一个视频流网站我想计算每个视频的独特观看次数我参考了互联网上的一些网站甚至询问了其他一些程序员他们说要么使用 cookie 要么使用会话要么使用 IP 地址但这些事情会随着时间的推移而改变另外如果可能的话我们可以
如何处理 AWS Athena 中的嵌入换行符

我在 AWS Athena 中创建了一个表如下所示 CREATE EXTERNAL TABLE IF NOT EXISTS default test line breaks col1 string col2 string ROW FORM
是否可以训练斯坦福 NER 系统来识别更多命名实体类型？

我现在正在使用一些 NLP 库 stanford 和 nltk 斯坦福大学我看到了演示部分但只是想问是否可以使用它来识别更多实体类型因此目前斯坦福的 NER 系统如演示所示可以将实体识别为人名称组织或位置但认可的组织仅限于大

是否可以训练斯坦福 NER 系统来识别更多命名实体类型？

是否可以训练斯坦福 NER 系统来识别更多命名实体类型？ 的相关文章

随机推荐

热门标签

是否可以训练斯坦福 NER 系统来识别更多命名实体类型？的相关文章