根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头

2024-03-25

一般来说，名词短语的中心词是位于 NP 最右边的名词，如下所示，树是父 NP 的中心词。所以



            ROOT                             
             |                                
             S                               
          ___|________________________        
         NP                           |      
      ___|_____________               |       
     |                 PP             VP     
     |             ____|____      ____|___    
     NP           |         NP   |       PRT 
  ___|_______     |         |    |        |   
 DT  JJ  NN  NN   IN       NNP  VBD       RP 
 |   |   |   |    |         |    |        |   
The old oak tree from     India fell     down

Out[40]: Tree('S', [Tree('NP', [Tree('NP', [Tree('DT', ['The'])), Tree('JJ', ['old'] ), 树('NN', ['橡树']), 树('NN', ['树'])]), 树('PP', [树('IN', ['来自']), Tree('NP', [Tree('NNP', ['印度'])])])]), Tree('VP', [Tree('VBD', ['倒下']), Tree('PRT ', [树('RP', ['向下'])])])])

下面的代码基于java实现 https://stackoverflow.com/questions/19431754/using-stanford-parsercorenlp-to-find-phrase-heads使用一个简单的规则来找到 NP 的头，但我需要基于rules https://stackoverflow.com/questions/10297345/head-finding-rules-for-noun-phrases:

parsestr='(ROOT (S (NP (NP (DT The) (JJ old) (NN oak) (NN tree)) (PP (IN from) (NP (NNP India)))) (VP (VBD fell) (PRT (RP down)))))'
def traverse(t):
    try:
        t.label()
    except AttributeError:
          return
    else:
        if t.label()=='NP':
            print 'NP:'+str(t.leaves())
            print 'NPhead:'+str(t.leaves()[-1])
            for child in t:
                 traverse(child)

        else:
            for child in t:
                traverse(child)


tree=Tree.fromstring(parsestr)
traverse(tree)

上面的代码给出了输出：

NP:['那个'、'老'、'橡树'、'树'、'来自'、'印度'] NP头：印度 NP:['那个'、'老'、'橡树'、'树'] NP头：树 NP：['印度'] NP头：印度

虽然现在它为给定的句子提供了正确的输出，但我需要合并一个条件，即仅将最右边的名词提取为 head ，目前它不检查它是否是名词（NN）

print 'NPhead:'+str(t.leaves()[-1])

因此，类似于上面代码中的 np head 条件：

t.leaves().getrightmostnoun()

迈克尔·柯林斯 (Michael Collins) 论文（附录 A） http://www.cs.columbia.edu/~mcollins/papers/thesis.ps包括 Penn Treebank 的头部查找规则，因此不一定只有最右边的名词才是头部。因此，上述条件应包含这种情况。

对于答案之一中给出的以下示例：

（NP（NP 那个发表演讲的人））回家了

主语的中心名词是 person，但是 NP the person that made the talk 的最后一个离开节点是 talk。

有内置字符串TreeNLTK 中的对象 (http://www.nltk.org/_modules/nltk/tree.html http://www.nltk.org/_modules/nltk/tree.html), see https://github.com/nltk/nltk/blob/develop/nltk/tree.py#L541 https://github.com/nltk/nltk/blob/develop/nltk/tree.py#L541.

>>> from nltk.tree import Tree
>>> parsestr='(ROOT (S (NP (NP (DT The) (JJ old) (NN oak) (NN tree)) (PP (IN from) (NP (NNP India)))) (VP (VBD fell) (PRT (RP down)))))'
>>> for i in Tree.fromstring(parsestr).subtrees():
...     if i.label() == 'NP':
...             print i
... 
(NP
  (NP (DT The) (JJ old) (NN oak) (NN tree))
  (PP (IN from) (NP (NNP India))))
(NP (DT The) (JJ old) (NN oak) (NN tree))
(NP (NNP India))


>>> for i in Tree.fromstring(parsestr).subtrees():
...     if i.label() == 'NP':
...             print i.leaves()
... 
['The', 'old', 'oak', 'tree', 'from', 'India']
['The', 'old', 'oak', 'tree']
['India']

请注意，最右边的名词并不总是 NP 的中心名词，例如

>>> s = '(ROOT (S (NP (NN Carnac) (DT the) (NN Magnificent)) (VP (VBD gave) (NP ((DT a) (NN talk))))))'
>>> Tree.fromstring(s)
Tree('ROOT', [Tree('S', [Tree('NP', [Tree('NN', ['Carnac']), Tree('DT', ['the']), Tree('NN', ['Magnificent'])]), Tree('VP', [Tree('VBD', ['gave']), Tree('NP', [Tree('', [Tree('DT', ['a']), Tree('NN', ['talk'])])])])])])
>>> for i in Tree.fromstring(s).subtrees():
...     if i.label() == 'NP':
...             print i.leaves()[-1]
... 
Magnificent
talk

可以说，Magnificent仍可作中心名词。另一个例子是当 NP 包含关系从句时：

（NP（NP 那个发表演讲的人））回家了

主语的中心名词是person但NP的最后一个离开节点the person that gave the talk is talk.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头的相关文章

Python 错误：将 statsmodels 与一行数据一起使用时，对象的 len() 未调整大小

我可以使用 statsmodel 的 WLS 加权最小二乘回归 http statsmodels sourceforge net devel generated statsmodels regression linear model WLS
如何使用格式保存 Tkinter 文本小部件的内容

我在 python 中使用 Tkinter 在文本窗口中显示输出我发现使用 get 功能我可以从此窗口检索文本内容但我有用不同背景颜色标记的文本部分是否可以将内容与这些颜色一起复制到文件例如 html 或 doc 中没有对你想要的
我可以在pycharm中的断点处进入交互模式吗

我是一个相当新的 Pycharm 3 用户正在从事 django 项目我可以在 pycharm3 中的断点处进入交互模式吗这可能吗当程序在断点处停止时我尝试过工具 gt 打开调试命令行但我没有看到控制台打开我怎样才能让它发挥作
如何使用Peewee查询多个相似的数据库？

我遇到了使用 Peewee 查询多个数据库的问题我有 2 个现有的 mysql 数据库让我们将它们命名为 A 和 B 结构相似因为它是两个 Bugzilla 数据库我使用 Pwiz 生成模型 modelsA py 和 modelsB
统计Sweep算子的Python实现

我正在学习一些用书中缺失的数据进行统计的技术缺失数据的统计分析作者利特尔和鲁宾对于处理单调无响应数据来说一个特别有用的函数是扫频操作员详情见第 148 151 页我知道 R 模块gmm有swp函数可以做到这一点但我想知道是否有
“DATETIME_INPUT_FORMATS”在 Django Admin 中不起作用，而“DATE_INPUT_FORMATS”和“TIME_INPUT_FORMATS”则可以

I use 日期时间字段 https docs djangoproject com en 4 2 ref models fields datetimefield 日期字段 https docs djangoproject com en 4
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
自动创建带有文件输出的目录[重复]

这个问题在这里已经有答案了假设我想制作一个文件 filename foo bar baz txt with open filename w as f f write FOOBAR 这给出了一个IOError since foo bar不存
Python 中的 Firebase 身份验证时出现 KeyError：“databaseURL”

相信你做得很好我是 firebase 的新手正在尝试进行用户身份验证我已经安装了pyrebase4并在firebase控制台上创建了一个项目我还启用了使用电子邮件和密码登录并尝试连接我的应用程序下面是我正在尝试的代码 impo
如何在 FastAPI Swagger API 中按方法类型对方法进行排序？

如何在 FastAPI Swagger 自动文档中设置 API 方法的排序顺序我希望所有方法按类型分组 GET POST PUT DELETE 这个答案 https stackoverflow com questions 24951268
Python：两个列表之间的成对比较：列表 a >= 列表 b？

如果我想检查列表中的所有元素 a 1 2 3 6 大于或等于另一个列表中对应的元素 b 0 2 3 5 如果 a i gt b i 对于所有i的则返回 true 否则返回 false 这有逻辑功能吗比如a gt b 谢谢你可以这样做
AppEngine 警告 - OpenBLAS 警告 - 无法确定该系统上的 L2 缓存大小

我尝试在 GC AppEngine 上部署应用程序部署过程中没有错误但应用程序无法运行仅显示加载页面日志中唯一一个奇怪的原始日志 OpenBLAS WARNING could not determine the L2 cache s
如何在 Python 中连接两个列表？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动如何在 Python 中连接两个列表 Example listone 1 2 3 lis
使用 Celery 通过 Gevent 进行实时、同步的外部 API 查询

我正在开发一个 Web 应用程序该应用程序将接收用户的请求并且必须调用许多外部 API 来编写对该请求的答案这可以直接从主 Web 线程使用 gevent 之类的东西来扇出请求来完成或者我在想我可以将传入的请求放入队列中并使用
Tensorflow `tf.layers.batch_normalization` 不会向 `tf.GraphKeys.UPDATE_OPS` 添加更新操作

以下代码复制粘贴可运行说明了如何使用tf layers batch normalization import tensorflow as tf bn tf layers batch normalization tf constant
Django - 渲染到字符串无法加载 CSS

我正在尝试使用 Django 1 8 render to string 通过管理命令将 html 转换为 pdf 而不是使用 View request 以下代码可以将模板转换为 pdf 但它无法将 CSS 加载到模板中 def html t
Hoare Partitioning算法讲解

根据许多网站给出的伪代码我写了这个Hoare分区算法它采用一个数组根据给定的主元来分区子数组的开始和结束索引它工作得很好但是有人可以解释一下逻辑它是如何做到这一点的吗这是代码 def hoare arr start end p
java数据结构模拟数据树

我需要帮助定义使用什么方法我有一个 SOAP 响应给我一个 xml 文件我需要在屏幕上显示 3 个相关列表当您在第一个列表中选择一个项目时相应的选择将出现在第二个列表中依此类推我只对从 xml 流中提取数据后如何有效地组织数据
如何通过解析导入来组合并获取单个 Python 文件

我正在尝试获取单个 Python 文件作为输出我有一个 Python 脚本其中有多个此类导入 from that import sub 导入来自所有本地模块而不是来自系统或 Python 库有什么方法可以解决这些问题并获得一个完整的
我可以以某种方式“编译”一个Python脚本以在没有安装Python的PC上运行吗？

所以我有一个Python脚本 myscript py 我是这样执行的 python D myscript py 但是我必须安装 Python 并将其包含在PATH使其工作的环境变量是否有可能以某种方式将 Python 可执行文件与 Py

随机推荐

为什么标签在 ASP.NET 图表中消失？

Chart1 显示了所有标签但是一旦我添加第 10 个项目一半标签就消失了首先是标记
如果 QWebView 从 qresources 加载 html 文件，则不会加载任何外部资源

正如标题中所述我的问题是 qwebview 无法正确加载位于我的资源中的 html 文件如果我从资源外部将其作为普通本地文件加载它会完美加载它但这对我来说不是一个选择我想将该文件与应用程序捆绑在一起编辑顺便说一句我正在谈论来
React Hooks 静态变量：对象属性与 useRef()

在 React 函数组件中声明静态变量有什么优点或缺点useRef 钩子与简单地将它们声明为对象属性 useRef 方法 import React useRef from react const MyComponent gt const s
如何以角度禁用模板驱动表单中的所有字段

我用 Angular 5 创建了一个模板驱动表单我想首先禁用整个表单并且还希望在单击某个按钮后启用表单因此我在表单标记中添加了一个禁用属性并将其值设置为 false 如下所示这不起作用尽管
i18next 检查未使用的翻译

我想知道是否有人知道检查未使用翻译的好方法工具包我见过它用于 Rails 例如 i18n tasks 但没有用于 React 我目前正在使用react i18next 但它可以是任何可以查看您的翻译文件的内容预先非常感谢列出未使用
requestPermission：如何等待直到被授予？

Android API 23 及更高版本要求在运行时确认危险权限根据其他 StackOverflow 建议我使用 checkSelfPermissions 检查所需的权限如果需要则调用 requestPermissions 这工
以编程方式设置默认代理而不是使用 app.config

由于位于代理后面我的 Net 4 0 C 应用程序仅在存在包含以下内容的 app config 时才能工作
R中xtabs和aggregate之间的na.action不一致

我有以下数据框 x lt data frame A c Y Y Z NA B c NA TRUE FALSE TRUE C c TRUE TRUE NA FALSE 我需要计算下表xtabs A B C Y 1 2 Z 0 0
使用 PHP 发送电子邮件（防止被放入垃圾邮件文件夹）

我正在尝试使用 PHP 脚本发送电子邮件但是收件人在他她的垃圾邮件文件夹中收到它这不是所需的结果我希望将其直接发送到他们的收件箱这样我就不会必须警告他们查看垃圾邮件文件夹下面是我使用 PEAR 发送电子邮件的代码我可以进行哪
为什么 ARM 使用两条指令来屏蔽一个值？

对于以下功能 uint16 t swap const uint16 t value return value lt lt 8 value gt gt 8 为什么带 O2 的 ARM gcc 6 3 0 会产生以下程序集 swap unsig
如何删除 JavaScript 中动态生成的事件处理程序

当我单击按钮时我会看到控制台消息显示我已单击它们当我取消选中该复选框然后单击按钮时我预计不会出现控制台消息但我仍然看到它们为什么不removeEventListener删除事件监听器 const buttons document
如何以干净的方式创建通过外键与 Room DB 相关的行和子项？

这个问题在某种程度上与我的最后一个问题 https stackoverflow com q 69384937 3692177 因为这是同一个项目但现在我正努力向前迈进一步所以在我之前的问题中我只有一张桌子这次我有两个表新的第二个
为什么 git log 在传递给寻呼机时不显示 HEAD 和分支

当传递给寻呼机时 git log less watch git log https stackoverflow com q 62803231 9157799等则 HEAD gt master origin master origin HE
Pylance 无法识别新安装的 pip 软件包

我在尝试从 pip 导入新安装的软件包时收到以下错误无法解析导入皮兰斯报告缺少进口重新启动 VS Code 后 Pylance 似乎能够识别该包有没有办法解决这个问题因为它很烦人当 Pylance 没有立即检测到该模块时就会
Greasemonkey 中的函数未定义或访问对象的权限被拒绝

我正在开发一个 Greasemonkey 脚本该脚本将一个按钮注入聊天系统 Gitter 允许您发送默认消息不是垃圾邮件管理员可以发送类似行为准则的消息假设我已经注入了一个按钮
为 Flask-CORS 指定域

我有一个 Python 脚本作为 Web api 许多域会调用它来获取他们想要的数据因此为了使其可行我需要启用 CORS 我通读了 Flask 文档但没有找到指定多个域以允许 CORS 的方法以下是启用 CORS 的代码片段 fr
访问 VBA 循环（无响应）

我正在循环访问记录集以执行一些基本功能或编辑通常对于包含超过 50 条记录的记录集访问将停止响应 I have me repaint在循环命令之前但窗口始终冻结并且访问标题栏显示未响应知道如何解决这个问题吗 Thanks Dav
缺少 google-services.json 并运行“make bootstrap”（Kickstarter 应用程序 android studio）

当我尝试运行该应用程序时遇到了此谷歌服务缺失错误来自 GitHub 的 Kickstarter https github com kickstarter android oss在 Android Studio 中试图寻找答案我发现我应
将用户输入循环附加到列表中

我是 python 编程新手正在用它做一些实验希望我的问题不太愚蠢我正在编写一个小程序将输入添加到列表中并使用 while 循环在输入等于 4 时打印它问题是它永远不会停止添加输入和打印列表我的代码是 S input L wh
根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头

一般来说名词短语的中心词是位于 NP 最右边的名词如下所示树是父 NP 的中心词所以 ROOT S NP PP

根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头

根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头 的相关文章

随机推荐

热门标签

根据查找 NP 头的规则在 NLTK 和 stanford 解析中查找名词短语的头的相关文章