格式化斯坦福 Corenlp 的 NER 输出

2023-12-04

我正在与斯坦福 CoreNLP 合作并将其用于 NER。但是当我提取组织名称时,我看到每个单词都标有注释。因此,如果实体是“NEW YORK TIMES”,那么它会被记录为三个不同的实体:“NEW”、“YORK”和“TIMES”。我们是否可以在斯坦福 COreNLP 中设置一个属性,以便我们可以获得作为实体的组合输出?

就像在斯坦福 NER 中一样,当我们使用命令行实用程序时,我们可以选择输出格式为: inlineXML ?我们可以以某种方式设置一个属性来选择斯坦福 CoreNLP 中的输出格式吗?


如果您只想要斯坦福 NER 找到的每个命名实体的完整字符串,请尝试以下操作:

String text = "<INSERT YOUR INPUT TEXT HERE>";
AbstractSequenceClassifier<CoreMap> ner = CRFClassifier.getDefaultClassifier();
List<Triple<String, Integer, Integer>> entities = ner.classifyToCharacterOffsets(text);
for (Triple<String, Integer, Integer> entity : entities)
    System.out.println(text.substring(entity.second, entity.third), entity.second));

如果您想知道,实体类由entity.first.

或者,您可以使用ner.classifyWithInlineXML(text)得到看起来像这样的输出<PERSON>Bill Smith</PERSON> went to <LOCATION>Paris</LOCATION> .

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

格式化斯坦福 Corenlp 的 NER 输出 的相关文章

  • 创建StanfordCoreNLP对象时出错

    我已经从以下位置下载并安装了所需的 jar 文件http nlp stanford edu software corenlp shtml Download 我已经包含了五个 jar 文件 斯坦福 pos tagger jar 斯坦福 pso
  • 如何使用 python nltk 加速 stanford NER 的 NE 识别

    首先 我将文件内容标记为句子 然后对每个句子调用斯坦福 NER 但这个过程确实很慢 我知道如果我在整个文件内容上调用它会更快 但是我在每个句子上调用它 因为我想在 NE 识别之前和之后索引每个句子 st NERTagger stanford
  • 如何使用 Python 在 NLTK 中使用斯坦福解析器

    是否可以在 NLTK 中使用斯坦福解析器 我不是在谈论斯坦福 POS 请注意 此答案适用于 NLTK v 3 0 而不适用于更新的版本 当然 请在 Python 中尝试以下操作 import os from nltk parse impor
  • nltk斯坦福NERTagger:如何获得不大写的专有名词

    我正在尝试使用斯坦福NERTagger 和nltk 从一段文本中提取关键字 docText John Donk works for POI Brian Jones wants to meet with Xyz Corp for measur
  • 我的公报上的实体无法识别

    我想创建一个自定义 NER 模型 这就是我所做的 训练数据 斯坦福 ner tsv Hello O O My O name O is O Damiano PERSON O 特性 stanford ner prop trainFile sta
  • 无法在 R 中初始化 CoreNLP

    我无法访问coreNLP在运行 High Sierra 的 Mac 上用 R 编写 我不确定问题是什么 但似乎每次我再次尝试获取coreNLP工作时 我面临着不同的错误 我有 JDK 9 0 4 请参阅下面的代码 了解我正在尝试执行的操作以
  • 如何使用斯坦福解析器将文本拆分为句子?

    如何使用将文本或段落拆分为句子斯坦福解析器 有没有什么方法可以提取句子 比如getSentencesFromString 因为它是规定的Ruby 您可以检查 DocumentPreprocessor 类 下面是一个简短的片段 我认为可能还有
  • Java修改map内的关键对象

    我在使用 JAVA 地图时遇到问题 我在地图中输入一个对象作为键 然后我修改了键 地图不再将该对象视为地图的键 即使对象内部的键已被相应修改 我正在处理该对象CoreLabel来自斯坦福自然语言处理 但我猜它适用于一般情况 Map
  • 如何在斯坦福 CoreNLP 中获取短语标签?

    如果我想获取每个单词对应的短语标签 如何获取 例如 在这句话中 我的狗也喜欢吃香肠 我可以在斯坦福 NLP 中得到一个解析树 例如 ROOT S NP PRP My NN dog ADVP RB also VP VBZ likes NP J
  • 使用斯坦福 CoreNLP 进行共指解析

    我是斯坦福 CoreNLP 工具包的新手 并尝试将其用于解决新闻文本中的共指问题的项目 为了使用斯坦福 CoreNLP 共指系统 我们通常会创建一个管道 这需要标记化 句子分割 词性标记 词形还原 命名实体识别和解析 例如 Properti
  • 斯坦福大学对 Python NLTK 的通用依赖关系

    有什么方法可以使用 python 或 nltk 获取通用依赖项吗 我只能生成解析树 Example 输入句子 My dog also likes eating sausage Output Universal dependencies nm
  • edu.stanford.nlp.io.RuntimeIOException:无法连接到服务器

    我正在尝试使用 CoreNLP 服务器注释多个句子 但是 如果我尝试这样做too many我得到的句子 Exception in thread Thread 48 edu stanford nlp io RuntimeIOException
  • 从解析树中获取某些节点

    我正在研究一个涉及通过霍布斯算法进行照应解析的项目 我已经使用斯坦福解析器解析了我的文本 现在我想操作节点以实现我的算法 目前 我不明白如何 根据 POS 标签访问节点 例如 我需要以代词开头 如何获取所有代词 使用访客 我对 Java 有
  • 通过斯坦福解析器提取所有名词、形容词形式和文本

    我试图通过斯坦福解析器从给定文本中提取所有名词和形容词 我当前的尝试是在 Tree Object 的 getChildrenAsList 中使用模式匹配来定位以下内容 NN paper NN algorithm NN information
  • 斯坦福核心 NLP 词汇化解析器模型

    我是 NLP 新手 我正在尝试一个示例程序LexicalizedParser但我无法找到该模型 String parseModel models lexparser englishPCFG ser gz LexicalizedParser
  • 如何使用斯坦福 CoreNLP 对预标记文本进行 NER 和 POS 标记?

    我在我的应用程序中使用斯坦福大学的 CoreNLP 命名实体识别器 NER 和词性 POS 标记器 问题是我的代码预先标记了文本 然后我需要对每个标记进行 NER 和 POS 标记 但是 我只能找到如何使用命令行选项来执行此操作 而不能以编
  • 是否可以训练斯坦福 NER 系统来识别更多命名实体类型?

    我现在正在使用一些 NLP 库 stanford 和 nltk 斯坦福大学我看到了演示部分 但只是想问是否可以使用它来识别更多实体类型 因此 目前斯坦福的 NER 系统 如演示所示 可以将实体识别为人 名称 组织或位置 但认可的组织仅限于大
  • 文本中的句子注释不带标点符号

    我很难让 CoreNLP 系统正确找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置 其陷入困境的原因 有些诗在整个长度上都没有标点符号 有时甚至没有大小写 有些诗的句子从一个段落延伸到另一个段落 有些诗每行开头都大写 这是一个特别棘
  • 如何使用带有StanfordCoreNLP prop 'ner'的序列化CRFClassifier

    我正在使用StanfordCoreNLP API 接口以编程方式执行一些基本的NLP 我需要在自己的语料库上训练模型 但我想使用StanfordCoreNLP界面来做到这一点 因为它在幕后处理许多干的机制 我在那里不需要太多的专业知识 我已
  • 创建 .conll 文件作为斯坦福解析器的输出

    我想使用斯坦福解析器创建一个 conll 文件以进行进一步处理 到目前为止 我设法使用以下命令解析测试句子 stanford parser full 2013 06 20 lexparser sh stanford parser full

随机推荐

  • PHP - RSS 生成器

    我有一个旧网站 每次创建新帖子时都会生成自己的 RSS 当我在 PHP 4 的服务器上时一切正常 但现在主机更改为 PHP 5 我总是有一个 格式错误的 XML 我使用 xml parser create 和 xml parse 和 fwr
  • C# 通过OleDb读取打开的Excel文件

    我需要连接到open使用 NET 3 5 的 Excel 2003 文件 看来我尝试使用的 OleDb 连接只需要该文件 但我需要同时在 Excel 中打开这个文件 Is 非锁定读取可能的 EDIT 我通过在打开文件之前复制文件解决了这个问
  • Private 可见性修饰符的含义

    在下面的 Tosee 类中 当我调用 s hiddenInt 时 hiddenInt 是可见的 但是 当我在另一个类 CantSee 中创建 ToSee 对象时 私有变量不可见 为什么会这样呢 我的印象是 私有意味着在类的任何实例中 客户端
  • NHibernate Validator 未与 Fluent NHibernate 集成

    我在让 NHV 与 Fluent NHibernate 配合使用时遇到一些问题 我的单元测试有一个应该验证失败的实体 最终会抛出 ADO 异常 我按照以下方式配置了 NHV private static void Init SessionF
  • Rails form_for 从不调用创建控制器操作来使用redirect_to

    我正在使用 Rails 3 并且 StatusController 中有一个 form for 当我点击提交按钮时 我的创建方法永远不会被调用 我的创建方法有一个redirect to index 但是当我点击 提交 时 所有信息都保留在表
  • 如何使用列号从 MySQL 表中删除列

    我正在尝试从与 Handsontable 一起使用的 MySQL 表中删除一列 当我从 Handsontable 中删除一列时 我可以使用以下命令获取该列的索引afterRemoveCol 打回来 afterRemoveCol functi
  • MySQL 上的数据库事务内的 Codeception 验收测试

    使用 Codeception 为我们的 Custom 带有 Symfony 组件和 Doctrine 框架编写验收测试 我们有一组实用方法 由 Phpunit 测试单独使用 用于创建要测试的各种实体 这包括用户和其他相关数据等内容 在我们的
  • 重载方法值适用于替代方案:

    我是 Spark 新手 我试图为 json 数据定义一个模式 并在 spark shell
  • 如何修复此代码以创建字符串数组?

    我想创建一个字符串数组 这是代码 include
  • 如何在 eclipselink 中禁用缓存

    我尝试通过在 persistence xml 中使用以下属性 使用 Eclipse indigo 禁用 EclipseLink 中的 L2 缓存
  • 使用 OpenMP 并行化输出

    我编写了一个必须处理大量数据的 C 应用程序 使用 OpenMP 我很好地并行化了处理阶段 但令人尴尬的是 我发现输出写入现在是瓶颈 我决定使用一个parallel for那里也是如此 因为我输出项目的顺序是无关紧要的 它们只需要作为连贯的
  • OpenCV 创建后更改关键点或描述符参数

    在最新版本中 OpenCV 允许使用 create 函数轻松创建关键点检测器 描述符或匹配器 例如 cv Ptr
  • Unix和Linux中的“dot”和“dot dot”文件是真实文件吗?

    做特殊文件 and 实际上存在并作为普通文件存储 位于文件系统中 或者仅在文件系统处理程序访问时才解释 创建它们 当前目录 父目录 我的假设是它们不存在 否则 当您创建符号链接或绑定安装时 事情就会崩溃 我认为目前接受的答案并不正确 或者至
  • 以编程方式添加代码模板?

    我正在为我们的项目编写一个自定义 XML 编辑器 并希望添加对模板的支持 即当用户写
  • Spark异常:worker中的Python版本3.4与驱动程序3.5中的版本不同

    我正在使用 Amazon EC2 并且我将主服务器和开发服务器合二为一 我还有另一个针对单个工人的实例 我对此很陌生 但我已经设法使 Spark 在独立模式下工作 现在我正在尝试集群 master 和worker 处于活动状态 我可以看到它
  • fpdf“UnicodeEncodeError:'latin-1'编解码器无法对位置 88 中的字符 '\u2013' 进行编码:序数不在范围内(256)”

    我正在尝试在 Python 中将文本文件转换为 pdf 但出现错误 为什么会发生这种情况以及如何解决 这是我的代码 import fpdf from fpdf import FPDF pdf FPDF pdf add page pdf se
  • PHP:将本地时间转换为 UTC

    假设我得到一个像这样的字符串08 22 2015 10 56 PM并且该日期 时间字符串始终仅指一个特定时区 我需要能够将其转换为这种格式 Ymd THis Z 这是 iCal 格式 如何将该字符串转换为祖鲁时间并转换为 Ymd THis
  • 如何在 Xamarin iOS 上执行简单的后台任务

    在我们的应用程序中 用户可以跟踪并提交他们记录的旅程 我需要一种在 iOS 中创建任务的简单方法 我已经在 Android 上创建并测试了它 它的工作原理是 用户选择他们想要提交的旅程 点击同步并创建一个前台服务 将旅程同步到我们的 API
  • 用于仅插入/仅查询应用程序的 ORM 框架

    我已经使用 Hibernate 多年了 从来没有遇到过任何问题 但我刚刚意识到我的大部分工作都涉及 CRUD 方法 其中我需要数据保持持久化并随意修改 这样做的问题是 有人想要制作 2 个独立的应用程序 一个用于批量插入 另一个对插入的数据
  • 格式化斯坦福 Corenlp 的 NER 输出

    我正在与斯坦福 CoreNLP 合作并将其用于 NER 但是当我提取组织名称时 我看到每个单词都标有注释 因此 如果实体是 NEW YORK TIMES 那么它会被记录为三个不同的实体 NEW YORK 和 TIMES 我们是否可以在斯坦福