Python：使用 Spacy 等对名词短语以外的其他内容进行分块（例如介词）

2024-03-04

自从我得知 Spacy 是一个用于自然语音处理的强大 Python 模块以来，我现在拼命寻找一种方法，将单词组合在一起，不仅仅是名词短语，最重要的是介词短语。我怀疑是否有 Spacy 函数，但这将是我猜想的最简单的方法（SpacySpaCy 导入已在我的项目中实现）。尽管如此，我对任何短语识别/分块的可能性持开放态度。

这里有一个获取PP的解决方案。一般来说，您可以使用以下方式获取短语subtree.

def get_pps(doc):
    "Function to get PPs from a parsed document."
    pps = []
    for token in doc:
        # Try this with other parts of speech for different subtrees.
        if token.pos_ == 'ADP':
            pp = ' '.join([tok.orth_ for tok in token.subtree])
            pps.append(pp)
    return pps

Usage:

import spacy

nlp = spacy.load('en_core_web_sm')
ex = 'A short man in blue jeans is working in the kitchen.'
doc = nlp(ex)

print(get_pps(doc))

这打印：

['in blue jeans', 'in the kitchen']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

chunking

Phrases

spacy

Python：使用 Spacy 等对名词短语以外的其他内容进行分块（例如介词）的相关文章

Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包

随机推荐

SQL Server 探查器

当您使用 SQL Server 探查器时持续时间和 CPU 之间有什么区别我知道默认情况下两者都以毫秒显示 CPU 是运行查询所需的 CPU 时间而持续时间更像是查询返回任何数据所需的时间根据我的理解如果存在任何阻塞等您的 CP
如何在Java中使用PDFBox获取PDF文件中的所有书签

我是 Apache PDFbox 的新手我想使用Java中的PDFBox库提取PDF文件中的所有书签知道如何提取它们吗来自在源码下载中 PDDocument document PDDocument load new File PDDo
将表从一个数据库复制到另一个数据库的最简单方法？

当数据库位于不同用户下时将数据从一个数据库中的表复制到另一个数据库中的表的最佳方法是什么我知道我可以使用 INSERT INTO database2 table2 SELECT from database1 table1 但这里的问题是
Android 应用程序通过移动端口使用 P2P 模式流式传输 IP 摄像机？

我正在尝试通过 Android 应用程序上的 IP 摄像头流式传输视频我已经使用以下方法成功获取了视频使用媒体播放器和 Surface View 的 RTSP 使用视频视图的 RTSP 重定向到 VLC 以流式传输视频重定向到本机用
实际示例使用 dup 或 dup2

我知道什么dup dup2 http www opengroup org onlinepubs 009695399 functions dup html可以但是不知道什么时候会用到有什么实际例子吗示例之一是 I O 重定向为此您分
android sdk 位置不能位于文件系统根目录

我已经将 Android Studio 安装在 F 驱动器中我的 Flutter 项目位于 E 驱动器中 Flutter插件安装在Android Studio中但是当我在 Android Studio 中打开项目并转到 SDK 管理器时
在具有自动高度的 IFrame 中获取 Google 表单

所以我有一个用 Google Docs 构建的表单因为它看起来比从头开始更容易我通过将代码从谷歌页面复制粘贴到我的域上的页面来实现这一点我设法用我在这里找到的这个可爱的小脚本让它自动调整其高度 http www frontpagewe
仅在给定用户 ID 的情况下选择固定范围高分的有效方法

我有一个表格其中包含每个球员参加过的每场比赛的记录从这个问题的最佳答案我已经有了一个很好的开始百万条目排名 https stackoverflow com questions 5436263 ranking with millions
检测android中的home按钮按下

这已经让我发疯有一段时间了有没有什么方法可以可靠地检测 Android 应用程序中是否按下了主页按钮如果做不到这一点是否有一种可靠的方法来判断是什么导致活动进入 onPause 即我们能否检测到它是否是由新活动启动或按返回主页引起的
AWS DynamoDB - 如何在 1 次调用中实现：如果集合存在，则添加要设置的值 - 或者用值实例化集合？

我有一个用户表有一个名为朋友的属性它将是用户所有朋友的 id 的集合最初我尝试在创建用户时将 Friends 属性实例化为空集但收到错误消息指出不能有空属性因此如果某人还没有朋友我能找到的唯一解决方案是读取用户的属性
内联插件不起作用

根据Chart js 文档 http www chartjs org docs latest developers plugins html 以下代码应该可以工作 new Chart document getElementById char
Github 操作：在单个运行器中运行多个作业或在作业之间共享工作空间

有什么方法可以在单个运行器中运行多个作业或在作业之间共享 Github 操作工作区在我的组织中开发团队使用由多个团队创建和管理的多个可重用工作流程团队build创建和管理build yaml构建应用程序我的团队创建并管理analys
我可以在 Microsoft Access VBA 中使用变量作为控件的名称吗

我有一个 Microsoft Access 弹出表单用于查找地址一旦用户找到邮政编码该地址就会被放入其启动表单的各个文本框中问题是这个弹出表单是从整个数据库中的各种表单启动的因此它将结果放入的文本框位于不同的位置我尝试通过以下
使用 Python 解析电子邮件

我正在编写一个 Python 脚本来处理从Procmail http www procmail org 正如本文中所建议的question https stackoverflow com questions 1225586 checking
“Fluent Assertion”和“Should Assertion Library”的区别

有人可以指出差异吗以上确实是我的问题但您是否也可以与他们分享您的经验以及为什么您使用其中之一它们只是两个不同的库因此只需查看功能尤其是报告功能然后进行选择由于我是作者流畅的断言我显然有偏见不管怎样我对我们为使错误消息尽可
使用户能够在 Cognito 中重置过期的临时密码

我知道管理员可以使用以下命令从控制台重置用户的临时密码 aws cognito idp admin create user region us east 1 user pool id us east 1 youruserpoolid use
如何在Python中模拟sqlite3.connect

我使用的是Python 3 3 在Anaconda环境下我想模拟 sqlite3 connect 例如在MyTests 见下文我想要test sqlite3 connect返回字符串connection而不是实际的sqlite3 Con
PHP 替换大括号之间的所有内容？

我对preg很烂我永远不会学它这应该不难我可以提供一个代码示例来替换大括号之间的所有内容包括空格所有内容吗比如 string preg replace si string 或者其他的东西你错过了最初的分隔符 s 看看它在线工
Oreo - 前台服务不显示前台通知

到目前为止我已经调整了我的代码以使用ContextCompat startForegroundService context intentService 开始我的服务这样它就可以在 android 我仍然看到了差异在 android
Python：使用 Spacy 等对名词短语以外的其他内容进行分块（例如介词）

自从我得知 Spacy 是一个用于自然语音处理的强大 Python 模块以来我现在拼命寻找一种方法将单词组合在一起不仅仅是名词短语最重要的是介词短语我怀疑是否有 Spacy 函数但这将是我猜想的最简单的方法 SpacySpaCy

Python：使用 Spacy 等对名词短语以外的其他内容进行分块（例如介词）

Python：使用 Spacy 等对名词短语以外的其他内容进行分块（例如介词） 的相关文章

随机推荐

热门标签

Python：使用 Spacy 等对名词短语以外的其他内容进行分块（例如介词）的相关文章