通过斯坦福解析器提取所有名词、形容词形式和文本

2023-12-20

我试图通过斯坦福解析器从给定文本中提取所有名词和形容词。

我当前的尝试是在 Tree-Object 的 getChildrenAsList() 中使用模式匹配来定位以下内容：

(NN paper), (NN algorithm), (NN information), ...

并将它们保存在数组中。

输入句子：

在本文中，我们提出了一种从任意文本中提取语义信息的算法。

结果 - 字符串：

[(S (PP (IN In) (NP (DT this) (NN paper))) (NP (PRP we)) (VP (VBP present) (NP (NP (DT an) (NN algorithm)) (SBAR (WHNP (WDT that)) (S (VP (VBD extracts) (NP (JJ semantic) (NN information)) (PP (IN from) (NP (DT an) (ADJP (JJ arbitrary)) (NN text)))))))) (. .))]

我尝试使用模式匹配，因为我在斯坦福解析器中找不到返回所有词类（例如名词）的方法。

有没有更好的方法来提取这些词类或者解析器是否提供了特定的方法？

public static void main(String[] args) {
    String str = "In this paper we present an algorithm that extracts semantic information from an arbitrary text.";
    LexicalizedParser lp = new LexicalizedParser("englishPCFG.ser.gz"); 
    Tree parseS = (Tree) lp.apply(str);
    System.out.println("tr.getChildrenAsList().toString()"+ parseS.getChildrenAsList().toString());
    }
}

顺便说一句，如果您想要的只是名词和动词等词性，则应该使用词性标注器，例如斯坦福词性标注器。它将运行速度提高几个数量级，并且至少同样准确。

但你可以用解析器来做到这一点。你想要的方法是taggedYield()它返回一个List<TaggedWord>。所以你有了

List<TaggedWord> taggedWords = (Tree) lp.apply(str);
for (TaggedWord tw : taggedWords) {
  if (tw.tag().startsWith("N") || tw.tag().startsWith("J")) {
    System.out.printf("%s/%s%n", tw.word(), tw.tag());
  }
}

（此方法有捷径，因为知道 Penn 树库标签集中所有且仅有形容词和名词标签以 J 或 N 开头。您可以更普遍地检查一组标签中的成员资格。）

附注使用 stanford-nlp 标签最适合 stackoverflow 上的斯坦福 NLP 工具。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Parsing

stanfordnlp

通过斯坦福解析器提取所有名词、形容词形式和文本的相关文章

在 String 值之后打印 int 值

我有以下示例代码 int pay 80 int bonus 65 System out println pay bonus bonus pay 有人可以向我解释一下为什么我得到以下输出 145 6580 您的代码正在从左到右解释表达式 pa
如何在ArrayList中的特定位置插入对象

假设我有一个大小为 n 的对象的 ArrayList 现在我想在特定位置插入另一个对象假设在索引位置 k 大于 0 且小于 n 并且我希望索引位置 k 处及其之后的其他对象向前移动一个索引位置那么有没有什么方法可以直接在Java中做到这
Java，顺序流在哪个线程中执行？

在阅读有关流的文档时我遇到了以下句子 attempting to access mutable state from behavioral parameters presents you with a bad choice if you
如何从 Java 访问 Windows 设备管理器中的信息？

我有一个串行 USB 设备并且其中多个设备可以连接到计算机我需要查询和检索设备连接到的 COM 端口列表在 Windows 设备管理器中您可以获得当前连接的设备的 COM 端口友好名称该列表是动态的从注册表中读取不工作 htt
如何准确判断 double 是否为整数？ [复制]

这个问题在这里已经有答案了具体来说在 Java 中我如何确定double是一个整数为了澄清我想知道如何确定 double 实际上不包含任何分数或小数我主要关心的是浮点数的性质我想到的方法以及我通过谷歌找到的方法基本上遵循以
Selenium 和 TestNG 同时使用“dependsOn”和“priority =”问题

我正在努力在 GUI 自动化测试中实现更好的工作流程控制我首先从dependsOn开始但很快发现缺点是如果一个测试失败则套件的整个其余部分都不会运行所以我改用 priority 但看到了意外的行为一个例子 Test priorit
Maven WebApp META-INF context.xml

我正在使用 Maven 3 并且尝试在 webapp 文件夹下添加 META INF 文件夹所以我正在尝试执行以下操作 src main webapp META INF context xml WEB INF 下面是我的 POM 文件
对对象集合进行排序[重复]

这个问题在这里已经有答案了如果我有一个简单的字符串列表 List
膨胀类 android.support.design.widget.NavigationView 时出错

我按照 NavigationView 的教程进行操作但无法解决此错误消息 Error inflating class android support design widget NavigationView 教程链接 https www
在Java中如何将字节数组转换为十六进制？

我有一个字节数组我希望该数组的每个字节字符串转换为其相应的十六进制值 Java中有没有将字节数组转换为十六进制的函数 byte bytes 1 0 1 2 3 StringBuilder sb new StringBuilder for
Time.valueOf 方法返回错误值

我使用 Time valueOf 方法将字符串 09 00 00 转换为 Time 对象如下所示 Time valueOf LocalTime parse 09 00 00 当我调用 getTime 来显示我得到的值时 28800000
ActiveMQ JNDI 查找问题

尝试使用 JNDI 运行以下 ActiveMQ http activemq apache org jndi support html http ActiveMQ 20JNDI 并且我的 jboss server node lib 文件夹中有
错误膨胀类 android.support.design.widget.NavigationView [启动时崩溃]

该应用程序应该有一个导航抽屉可以从左侧拉出并显示各种活动但是一旦将导航栏添加到 XML Activity homescreen 文档中应用程序一启动就会崩溃主屏幕 java package com t99sdevelopment c
从字节数组设置 img src

我需要设置img src我在对象中拥有的字节数组的属性 img
Spring - 如何在不匹配列名的情况下使用 BeanPropertyRowMapper

我正在开发一个应用程序该应用程序已使用行映射器从纯 JDBC 转换为 Spring 模板我遇到的问题是数据库中的列与属性名称不匹配这阻止我使用BeanPropertyRowMapper容易地我看到一些关于在查询中使用别名的帖子这会
java.lang.UnsatisfiedLinkError - android studio gradle 中的 NDK？

文件夹结构 app main java jni Android mk Application mk hello jni c res 在构建 gradle apply plugin com android application androi
Firebase：用户注册后如何进行电话号码验证？

所以我知道我可以使用电子邮件验证或电话号码验证但我想做的是在用户注册或登录后进行电话号码验证如何连接这两种身份验证方法最后 Firebase中是否有一个函数可以检查用户是否通过电话号码验证谢谢即使用户已通过身份验证您仍然可以使用
Java 中序列化的目的是什么？

我读过很多关于序列化的文章以及它如何如此美好和伟大但没有一个论点足够令人信服我想知道是否有人能真正告诉我通过序列化一个类我们真正可以实现什么让我们先定义序列化然后我们才能讨论它为什么如此有用序列化只是将现有对象转换为字节数组该
Java时区混乱

我正在运行 Tomcat 应用程序并且需要显示一些时间值不幸的是时间快到了还有一个小时的休息时间我调查了一下发现我的默认时区被设置为 sun util calendar ZoneInfo id GMT 08 00 offset
Android ClassNotFoundException：在路径上找不到类

10 22 15 29 40 897 E AndroidRuntime 2561 FATAL EXCEPTION main 10 22 15 29 40 897 E AndroidRuntime 2561 java lang Runtime

随机推荐

ASP.NET 与 EVAL 绑定

我正在尝试对 asp net 组合框执行以下操作 Text 我想做的是如果名称列为空则绑定到其他列否则绑定到名称列任何人都知道正确的语法不断获取未设置为引用的对象我在 VB Net 中这样做 Thanks Jim 试
android 媒体播放器媒体控制器超时

我已经实现了一个媒体播放器和媒体控制器来传输 mp3 url 然而我在 TMobile 网络上的设备无法获得良好的 3G 信号因此它在 EDGE 上运行我假设媒体播放器因流太慢或不完整而崩溃是否可以设置超时没有timeout中的方
拥有字符串映射如何将其与给定字符串进行比较

我们有像 name location 这样的字符串对的映射 unix 就像绝对位置 a lamyfolder 我们得到了一些位置a lamyfolder mysubfolder myfile 如何找到哪个地图位置最适合给定的网址例如我们有
通过 DispatchGroup 与 DispatchQueue 访问主队列

我在一个在后台线程上运行的类中使用 DispatchGroup 偶尔需要更新UI 所以调用如下代码 dispatchGroup notify queue main self delegate moveTo sender self locat
在Spring Boot MVC中添加ShallowEtagHeaderFilter

我正在尝试调整我的应用程序配置以设置 ETag 支持我刚刚检查过this https stackoverflow com questions 26151057 add a servlet filter in a spring boot a
如何更改Xamarin菜单栏中的后退按钮？

这就是我所拥有的这就是我想要得到的如果导航堆栈中没有页面则标题图标将位于左上角否则将有后退箭头和后退文本我没有找到任何自定义它的选项有可能吗如果您使用的话您可以将箭头更改为汉堡包图标MasterPage在导航页面内 De
如何允许外部访问私有 Azure DevOps NuGet 源

情况如下 DevOps Org A维护私有 NuGet 提要 DevOps Org B需要在其 Pipelines 中使用上述 feed 中的包目前的解决方案包括添加用户U from Org B作为客人Org A具有利益相关者角色的 D
恒等函数在哪里以及为什么有用？

我明白为什么函数组合很重要它允许从小而简单的函数构建大而复杂的函数 val f A gt B val g B gt C val h f andThen g compose f and g 该成分符合identity and 关联性 law
产品图片不显示 (Woocommerce)

我的产品图片出现但当我点击进入产品页面时图片被隐藏只有当我点击时才会出现某些产品会在其他浏览器上显示某些产品仅在 Microsoft Edge 上显示 Edit The real problem to that was cloud
替换 PHPUnit 方法 `withConsecutive` （在 PHPUnit 10 中废弃）

作为方法withConsecutive将在 PHPUnit 10 中删除在 9 6 中已弃用我需要将此方法的所有出现替换为新代码尝试寻找一些解决方案但没有找到任何合理的解决方案例如我有一个代码 this gt personSer
Django-graphene 同一模型有多种类型

我有一个相当大的graphene djangoAPI 为两个应用程序提供支持我限制对某些字段的访问的第一个方法是拥有多个DjangoObjectTypes对于同一型号并使用fields限制每种类型可以访问哪些字段示例Organizat
节点应用程序 docker 映像在本地运行并在 Amazon ECS 上失败

该应用程序可以在本地正常部署和运行很长一段时间没有出现任何问题然而在 Amazon ECS 上它似乎总是在空闲运行大约 2 30 分钟后崩溃怎么了 Dockerfile Set the node alpine base image
计算 SPARQL 中的个体数量

我对 SPARQL 完全陌生我想计算这个本体中的参与者数量 http data linkedmdb org directory actor http data linkedmdb org directory actor 我尝试了以下方法
为什么 Mercurial 合并时很笨？如何使拉取/合并更改变得更简单？

我刚刚开始使用 Mercurial 我想我正在尝试做一些非常简单的事情一些应该非常典型的事情但我很困惑为什么它如此复杂以及为什么它不能按应有的方式工作国际海事组织我与朋友共享一些存储库他做了一些更改并检查了几个文件并推送它们现
如何在asp.net mvc中回发后清除字段？

我想知道如何在 ASP NET MVC 回发后清除字段就像现在当发生验证错误时字段会保留用户输入的内容不过这很好当没有发生验证错误时我希望清除所有字段并显示一条消息所以现在我使用 ViewData 成功显示但不确定如何清除
Kotlin 多平台：JobCancellationException：父作业已完成

我尝试编写一个使用 ktor 的 kotlin 多平台库 android 和 ios 因此我在 kotlins 协程方面遇到了一些问题 When writing tests I always get kotlinx coroutines
通过构建管道将 ASP.NET 应用程序部署到 Azure 应用服务

我继承了一个 ASP NET 4 7 2 应用程序它在我的计算机上成功运行和启动我现在尝试通过 Azure DevOps Pipeline 将其部署到 Azure 应用服务为了尝试做到这一点我创建了一个 Azure 构建管道其中包
mod_rewrite 在 URL 中带有尾随句点

我的 Apache 上有一个 RewriteRule 以使 URL 变得友好 RewriteRule log script php u 1 QSA 这使得http example com log 用户名 http example com l
gzipped Parquet 文件在 HDFS for Spark 中可拆分吗？

在互联网上搜索和阅读有关此主题的答案时我收到了令人困惑的消息有人可以分享他们的经验吗我知道 gzipped csv 不是这样的事实但也许 Parquet 的文件内部结构是这样的 Parquet 与 csv 的情况完全不同使用 GZ
通过斯坦福解析器提取所有名词、形容词形式和文本

我试图通过斯坦福解析器从给定文本中提取所有名词和形容词我当前的尝试是在 Tree Object 的 getChildrenAsList 中使用模式匹配来定位以下内容 NN paper NN algorithm NN information

通过斯坦福解析器提取所有名词、形容词形式和文本

通过斯坦福解析器提取所有名词、形容词形式和文本 的相关文章

随机推荐

热门标签

通过斯坦福解析器提取所有名词、形容词形式和文本的相关文章