格式化斯坦福 Corenlp 的 NER 输出

2023-12-04

我正在与斯坦福 CoreNLP 合作并将其用于 NER。但是当我提取组织名称时，我看到每个单词都标有注释。因此，如果实体是“NEW YORK TIMES”，那么它会被记录为三个不同的实体：“NEW”、“YORK”和“TIMES”。我们是否可以在斯坦福 COreNLP 中设置一个属性，以便我们可以获得作为实体的组合输出？

就像在斯坦福 NER 中一样，当我们使用命令行实用程序时，我们可以选择输出格式为： inlineXML ？我们可以以某种方式设置一个属性来选择斯坦福 CoreNLP 中的输出格式吗？

如果您只想要斯坦福 NER 找到的每个命名实体的完整字符串，请尝试以下操作：

String text = "<INSERT YOUR INPUT TEXT HERE>";
AbstractSequenceClassifier<CoreMap> ner = CRFClassifier.getDefaultClassifier();
List<Triple<String, Integer, Integer>> entities = ner.classifyToCharacterOffsets(text);
for (Triple<String, Integer, Integer> entity : entities)
    System.out.println(text.substring(entity.second, entity.third), entity.second));

如果您想知道，实体类由entity.first.

或者，您可以使用ner.classifyWithInlineXML(text)得到看起来像这样的输出<PERSON>Bill Smith</PERSON> went to <LOCATION>Paris</LOCATION> .

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

stanfordnlp

格式化斯坦福 Corenlp 的 NER 输出的相关文章

创建StanfordCoreNLP对象时出错

我已经从以下位置下载并安装了所需的 jar 文件http nlp stanford edu software corenlp shtml Download 我已经包含了五个 jar 文件斯坦福 pos tagger jar 斯坦福 pso
如何使用 python nltk 加速 stanford NER 的 NE 识别

首先我将文件内容标记为句子然后对每个句子调用斯坦福 NER 但这个过程确实很慢我知道如果我在整个文件内容上调用它会更快但是我在每个句子上调用它因为我想在 NE 识别之前和之后索引每个句子 st NERTagger stanford
如何使用 Python 在 NLTK 中使用斯坦福解析器

是否可以在 NLTK 中使用斯坦福解析器我不是在谈论斯坦福 POS 请注意此答案适用于 NLTK v 3 0 而不适用于更新的版本当然请在 Python 中尝试以下操作 import os from nltk parse impor
nltk斯坦福NERTagger：如何获得不大写的专有名词

我正在尝试使用斯坦福NERTagger 和nltk 从一段文本中提取关键字 docText John Donk works for POI Brian Jones wants to meet with Xyz Corp for measur
我的公报上的实体无法识别

我想创建一个自定义 NER 模型这就是我所做的训练数据斯坦福 ner tsv Hello O O My O name O is O Damiano PERSON O 特性 stanford ner prop trainFile sta
无法在 R 中初始化 CoreNLP

我无法访问coreNLP在运行 High Sierra 的 Mac 上用 R 编写我不确定问题是什么但似乎每次我再次尝试获取coreNLP工作时我面临着不同的错误我有 JDK 9 0 4 请参阅下面的代码了解我正在尝试执行的操作以
如何使用斯坦福解析器将文本拆分为句子？

如何使用将文本或段落拆分为句子斯坦福解析器有没有什么方法可以提取句子比如getSentencesFromString 因为它是规定的Ruby 您可以检查 DocumentPreprocessor 类下面是一个简短的片段我认为可能还有
Java修改map内的关键对象

我在使用 JAVA 地图时遇到问题我在地图中输入一个对象作为键然后我修改了键地图不再将该对象视为地图的键即使对象内部的键已被相应修改我正在处理该对象CoreLabel来自斯坦福自然语言处理但我猜它适用于一般情况 Map
如何在斯坦福 CoreNLP 中获取短语标签？

如果我想获取每个单词对应的短语标签如何获取例如在这句话中我的狗也喜欢吃香肠我可以在斯坦福 NLP 中得到一个解析树例如 ROOT S NP PRP My NN dog ADVP RB also VP VBZ likes NP J
使用斯坦福 CoreNLP 进行共指解析

我是斯坦福 CoreNLP 工具包的新手并尝试将其用于解决新闻文本中的共指问题的项目为了使用斯坦福 CoreNLP 共指系统我们通常会创建一个管道这需要标记化句子分割词性标记词形还原命名实体识别和解析例如 Properti
斯坦福大学对 Python NLTK 的通用依赖关系

有什么方法可以使用 python 或 nltk 获取通用依赖项吗我只能生成解析树 Example 输入句子 My dog also likes eating sausage Output Universal dependencies nm
edu.stanford.nlp.io.RuntimeIOException：无法连接到服务器

我正在尝试使用 CoreNLP 服务器注释多个句子但是如果我尝试这样做too many我得到的句子 Exception in thread Thread 48 edu stanford nlp io RuntimeIOException
从解析树中获取某些节点

我正在研究一个涉及通过霍布斯算法进行照应解析的项目我已经使用斯坦福解析器解析了我的文本现在我想操作节点以实现我的算法目前我不明白如何根据 POS 标签访问节点例如我需要以代词开头如何获取所有代词使用访客我对 Java 有
通过斯坦福解析器提取所有名词、形容词形式和文本

我试图通过斯坦福解析器从给定文本中提取所有名词和形容词我当前的尝试是在 Tree Object 的 getChildrenAsList 中使用模式匹配来定位以下内容 NN paper NN algorithm NN information
斯坦福核心 NLP 词汇化解析器模型

我是 NLP 新手我正在尝试一个示例程序LexicalizedParser但我无法找到该模型 String parseModel models lexparser englishPCFG ser gz LexicalizedParser
如何使用斯坦福 CoreNLP 对预标记文本进行 NER 和 POS 标记？

我在我的应用程序中使用斯坦福大学的 CoreNLP 命名实体识别器 NER 和词性 POS 标记器问题是我的代码预先标记了文本然后我需要对每个标记进行 NER 和 POS 标记但是我只能找到如何使用命令行选项来执行此操作而不能以编
是否可以训练斯坦福 NER 系统来识别更多命名实体类型？

我现在正在使用一些 NLP 库 stanford 和 nltk 斯坦福大学我看到了演示部分但只是想问是否可以使用它来识别更多实体类型因此目前斯坦福的 NER 系统如演示所示可以将实体识别为人名称组织或位置但认可的组织仅限于大
文本中的句子注释不带标点符号

我很难让 CoreNLP 系统正确找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置其陷入困境的原因有些诗在整个长度上都没有标点符号有时甚至没有大小写有些诗的句子从一个段落延伸到另一个段落有些诗每行开头都大写这是一个特别棘
如何使用带有StanfordCoreNLP prop 'ner'的序列化CRFClassifier

我正在使用StanfordCoreNLP API 接口以编程方式执行一些基本的NLP 我需要在自己的语料库上训练模型但我想使用StanfordCoreNLP界面来做到这一点因为它在幕后处理许多干的机制我在那里不需要太多的专业知识我已
创建 .conll 文件作为斯坦福解析器的输出

我想使用斯坦福解析器创建一个 conll 文件以进行进一步处理到目前为止我设法使用以下命令解析测试句子 stanford parser full 2013 06 20 lexparser sh stanford parser full

随机推荐

PHP - RSS 生成器

我有一个旧网站每次创建新帖子时都会生成自己的 RSS 当我在 PHP 4 的服务器上时一切正常但现在主机更改为 PHP 5 我总是有一个格式错误的 XML 我使用 xml parser create 和 xml parse 和 fwr
C# 通过OleDb读取打开的Excel文件

我需要连接到open使用 NET 3 5 的 Excel 2003 文件看来我尝试使用的 OleDb 连接只需要该文件但我需要同时在 Excel 中打开这个文件 Is 非锁定读取可能的 EDIT 我通过在打开文件之前复制文件解决了这个问
Private 可见性修饰符的含义

在下面的 Tosee 类中当我调用 s hiddenInt 时 hiddenInt 是可见的但是当我在另一个类 CantSee 中创建 ToSee 对象时私有变量不可见为什么会这样呢我的印象是私有意味着在类的任何实例中客户端
NHibernate Validator 未与 Fluent NHibernate 集成

我在让 NHV 与 Fluent NHibernate 配合使用时遇到一些问题我的单元测试有一个应该验证失败的实体最终会抛出 ADO 异常我按照以下方式配置了 NHV private static void Init SessionF
Rails form_for 从不调用创建控制器操作来使用redirect_to

我正在使用 Rails 3 并且 StatusController 中有一个 form for 当我点击提交按钮时我的创建方法永远不会被调用我的创建方法有一个redirect to index 但是当我点击提交时所有信息都保留在表
如何使用列号从 MySQL 表中删除列

我正在尝试从与 Handsontable 一起使用的 MySQL 表中删除一列当我从 Handsontable 中删除一列时我可以使用以下命令获取该列的索引afterRemoveCol 打回来 afterRemoveCol functi
MySQL 上的数据库事务内的 Codeception 验收测试

使用 Codeception 为我们的 Custom 带有 Symfony 组件和 Doctrine 框架编写验收测试我们有一组实用方法由 Phpunit 测试单独使用用于创建要测试的各种实体这包括用户和其他相关数据等内容在我们的
重载方法值适用于替代方案：

我是 Spark 新手我试图为 json 数据定义一个模式并在 spark shell
如何修复此代码以创建字符串数组？

我想创建一个字符串数组这是代码 include
如何在 eclipselink 中禁用缓存

我尝试通过在 persistence xml 中使用以下属性使用 Eclipse indigo 禁用 EclipseLink 中的 L2 缓存
使用 OpenMP 并行化输出

我编写了一个必须处理大量数据的 C 应用程序使用 OpenMP 我很好地并行化了处理阶段但令人尴尬的是我发现输出写入现在是瓶颈我决定使用一个parallel for那里也是如此因为我输出项目的顺序是无关紧要的它们只需要作为连贯的
OpenCV 创建后更改关键点或描述符参数

在最新版本中 OpenCV 允许使用 create 函数轻松创建关键点检测器描述符或匹配器例如 cv Ptr
Unix和Linux中的“dot”和“dot dot”文件是真实文件吗？

做特殊文件 and 实际上存在并作为普通文件存储位于文件系统中或者仅在文件系统处理程序访问时才解释创建它们当前目录父目录我的假设是它们不存在否则当您创建符号链接或绑定安装时事情就会崩溃我认为目前接受的答案并不正确或者至
以编程方式添加代码模板？

我正在为我们的项目编写一个自定义 XML 编辑器并希望添加对模板的支持即当用户写
Spark异常：worker中的Python版本3.4与驱动程序3.5中的版本不同

我正在使用 Amazon EC2 并且我将主服务器和开发服务器合二为一我还有另一个针对单个工人的实例我对此很陌生但我已经设法使 Spark 在独立模式下工作现在我正在尝试集群 master 和worker 处于活动状态我可以看到它
fpdf“UnicodeEncodeError：'latin-1'编解码器无法对位置 88 中的字符 '\u2013' 进行编码：序数不在范围内（256）”

我正在尝试在 Python 中将文本文件转换为 pdf 但出现错误为什么会发生这种情况以及如何解决这是我的代码 import fpdf from fpdf import FPDF pdf FPDF pdf add page pdf se
PHP：将本地时间转换为 UTC

假设我得到一个像这样的字符串08 22 2015 10 56 PM并且该日期时间字符串始终仅指一个特定时区我需要能够将其转换为这种格式 Ymd THis Z 这是 iCal 格式如何将该字符串转换为祖鲁时间并转换为 Ymd THis
如何在 Xamarin iOS 上执行简单的后台任务

在我们的应用程序中用户可以跟踪并提交他们记录的旅程我需要一种在 iOS 中创建任务的简单方法我已经在 Android 上创建并测试了它它的工作原理是用户选择他们想要提交的旅程点击同步并创建一个前台服务将旅程同步到我们的 API
用于仅插入/仅查询应用程序的 ORM 框架

我已经使用 Hibernate 多年了从来没有遇到过任何问题但我刚刚意识到我的大部分工作都涉及 CRUD 方法其中我需要数据保持持久化并随意修改这样做的问题是有人想要制作 2 个独立的应用程序一个用于批量插入另一个对插入的数据
格式化斯坦福 Corenlp 的 NER 输出

我正在与斯坦福 CoreNLP 合作并将其用于 NER 但是当我提取组织名称时我看到每个单词都标有注释因此如果实体是 NEW YORK TIMES 那么它会被记录为三个不同的实体 NEW YORK 和 TIMES 我们是否可以在斯坦福

格式化斯坦福 Corenlp 的 NER 输出

格式化斯坦福 Corenlp 的 NER 输出 的相关文章

随机推荐

热门标签

格式化斯坦福 Corenlp 的 NER 输出的相关文章