如何使用 python 最好地将语法复杂的文本转换为语法简单的文本？

2023-12-20

我想编写一个 python 程序，能够将句法复杂的句子转换为（可能是几个）不太复杂的句子，我可以在下游任务中使用它们。

Example:

复杂的句子：“今晚我要和朋友们一起踢足球，然后再去市中心旁边的剧院看电影。”

具有相同内容的更简单的文本：“今晚我要和朋友们去踢足球。然后我们去剧院看电影。剧院就在市中心旁边。”

Goal:

可能的目标是最终输出仅包含简单的主子句（没有并列子句、没有从属子句、没有关系子句等）。本质上，结果子句最终应该有一个主语、一个谓语、一个直接宾语和一个潜在的间接/介词宾语（每个宾语可能有一个修饰语，例如形容词属性）。如果其中有多个，我不介意以重复结束（“我爱妈妈和爸爸。”-->“我爱妈妈。我爱爸爸。”）。

我已经尝试过的：

到目前为止，我已经开始实现相对子句解析器和协调解析器。他们确实工作得很好。然而，还有更多的情况需要涵盖（因果、时间、对抗性子条款等），我开始想知道是否有人对如何解决这个问题有更好的想法。

另外，我严重依赖 spaCy，但我遇到了越来越多的问题，因为转换文档（我在转换文本时所做的）违反了 spaCy 的核心原则。再次：也许我应该完全使用不同的方法？

感谢您的任何想法...

您尝试做的事情称为“句子简化”。这是一个活跃的研究课题，没有简单的解决方案，甚至没有一个可以使用的强大的库（据我所知）。恐怕你能做的最好的事情就是阅读研究论文并实现它们，寻找已发布的模型，或者通过依赖项解析进行一些足够好的处理。看here https://github.com/sebastianruder/NLP-progress/blob/master/english/simplification.md一些研究的概述。

你是对的，重写任务不是 spaCy 的设计目的。但是，如果句子级对齐就足够了，我认为将重写的句子存储为附加到每个句子的跨度扩展应该不难。

如果您需要直接操作依赖关系，我认为没有什么比 spaCy 更容易使用的了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

spacy

grammar

如何使用 python 最好地将语法复杂的文本转换为语法简单的文本？的相关文章

使用 python 制作本地服务器应用程序的最佳方法

我想要简单轻松地集成 python 和 vba 人们如果他们在阅读本文后亲自见到我阅读本文可能会杀了我但我正在使用 django 开发服务器来实现此目的有没有什么简单又好的方法仅举个例子我想使用 python 模块 openpy
将 pandas 数据框中的列减去其第一个值

我需要将 pandas 数据帧的一列中的所有元素减去其第一个值在这段代码中 pandas 抱怨 self inferred type 我猜这是循环引用 df Time df Time df Time 0 在这段代码中 pandas 抱怨为
如何屏蔽 PyTorch 权重参数中的权重？

我正在尝试在 PyTorch 中屏蔽强制为零特定权重值我试图掩盖的权重是这样定义的def init class LSTM MASK nn Module def init self options inp dim super LSTM
如何在 Ubuntu 上安装 Python 模块

我刚刚用Python写了一个函数然后我想将其做成模块并安装在我的 Ubuntu 11 04 上这就是我所做的创建 setup py 和 function py 文件使用 Python2 7 setup py sdist 构建分发文
使用 Django 的 post_save() 信号

我有两张桌子 class Advertisement models Model created at models DateTimeField auto now add True author email models EmailField
用 Python 编写一个无操作或虚拟类

假设我有这样的代码 foo fooFactory create 由于种种原因 fooFactory create 可能无法创建实例Foo 如果可以的话我想要fooFactory create 返回一个虚拟无操作对象这个对象应该是完全惰性
如何用 python 和 sympy 解决多元不等式？

我对使用 python 和 Sympy 还很陌生并且遇到了使用 sympy 解决多元不等式的问题假设我的文件中有很多函数如下所示 cst sqrt x 2 cst exp sqrt cst x 1 4 log log sqrt cst
如何将条目中的部分文本加粗并更改其背景颜色？

我正在创建一个基于 Tkinter 的 GUI 它有一个 Entry 小部件我想将其文本的一部分加粗并更改其背景颜色但我不知道我该怎么做如果我使用文本小部件我可以只使用标签但看起来它们不能与条目小部件一起使用此代码使用文本小部件
在 Python 中使用 sec 函数的反函数

我正在创建一个程序用于计算从一定高度范围和设定初始速度发射射弹的最佳角度在我需要使用的最终方程中存在一个反 sec 函数它导致了一些麻烦我已经导入了数学并尝试使用 asec 无论如何但是数学似乎无法计算反秒函数我也明白 sec
无法包含外部 pandas 文档 Pycharm v--2018.1.2

我无法包含外部 pandas 文档Pycharm v 2018 1 2 例如 numpy gt http docs scipy org doc numpy reference generated module name element na
在 Mac 上安装 Pygame 到 Enthought 构建中

关于在 Mac 上安装 Pygame 有许多未解答的问题但我将在这里提出我的具体问题并希望得到答案我在 Mac 上安装 Pygame 时遇到了难以置信的困难我使用 Enthought 版本 EPD 7 3 2 32 位它是我的默认框
如何逐像素绘制正方形（Python，PIL）

在空白画布上我想使用 Pillow 逐像素绘制一个正方形我尝试使用 img putpixel 30 60 155 155 55 绘制一个像素但它没有执行任何操作 from PIL import Image def newImg img
在谷歌Colab中使用cv2.imshow()

我正在尝试通过输入视频来对视频进行对象检测 cap cv2 VideoCapture video3 mp4 在处理部分之后我想使用实时对象检测来显示视频 while True ret image np cap read Expand di
使用 lambda 函数更改属性值

我可以使用 lambda 函数循环遍历类对象列表并更改属性值对于所有对象或满足特定条件的对象吗 class Student object def init self name age self name name self age ag
是否可以写一个负的python类型注释

这可能听起来不合理但现在我需要否定类型注释我的意思是这样的 an int Not Iterable a string Iterable 这是因为我为一个函数编写了一个重载而 mypy 不理解我我的功能看起来像这样 overload
asyncio - 多次等待协程（周期性任务）

我正在尝试为异步事件循环创建定期任务如下所示但是我收到 RuntimeError 无法重用已等待的协程异常显然 asyncio 不允许等待相同的可等待函数如中讨论的这个错误线程 https bugs python org issu
CSV 在列中查找最大值并附加新数据

大约两个小时前我问了一个关于从网站读取和写入数据的问题从那时起我花了最后两个小时试图找到一种方法来从输出的 A 列读取最大日期值将该值与刷新的网站数据进行比较并将任何新数据附加到 csv 文件而不覆盖旧的或创建重复项目前 100
从 dask 数据框中的日期时间序列获取年份和星期？

如果我有一个 Pandas 数据框和一个日期时间类型的列我可以按如下方式获取年份 df year df date dt year 对于 dask 数据框这是行不通的如果我先计算像这样 df year df date compute
具有指定置信区间的 Seaborn 条形图

我想在 Seaborn 条形图上绘制置信区间但我已经计算出置信区间如何让 Seaborn 绘制我的置信区间而不是尝试自行计算它们例如假设我有以下 pandas DataFrame x pd DataFrame Group 1 0 5
将此 MATLAB 代码转换为 Python 时我做错了什么？

我正在努力将生成波形的 MATLAB 代码转换为 Python 就上下文而言这是原子力显微镜带激发响应的模拟与代码错误无关在 MATLAB 中从 r vec 生成的图形与我在 Python 中生成的图形不同我是否正确地将 MATLA

随机推荐

Visual Studio 2010 和 COM 参考中的旧安全策略

我有一个使用 DevExpress 8 3 2008 3 的项目我最近刚刚升级为使用 VS 2010 这样做之后一切都编译得很好但在尝试使用设计器时遇到了错误我按照此处所述解决了此问题设计时模式下的 NetFx40 LegacyS
window.location强制更新？

我想知道有没有办法用武力window location更新我所在的页面使用ajax 生成结果但是该 URL 在栏中保持不变因此我无法获取真实的 URL 我想知道我该如何获取URL 我可以强迫吗window location不刷新页
如何更改 WooCommerce 订阅中的注册费文本？

到目前为止我已经尝试将以下代码添加到我的functions php中但没有成功
将字符串流转换为长整型流

我有一个List
如何获得 one-hot 向量的密集表示

假设一个Tensor包含 0 0 1 0 1 0 1 0 0 如何以本机方式获得密集表示不使用numpy或迭代 2 1 0 有tf one hot https www tensorflow org versions r0 11 api d
黑莓-如何获取后台应用程序进程ID

在我的黑莓模拟器中我在后台运行两个应用程序现在我想检索哪些是在后台运行的应用程序我不知道该怎么做是否可以显示哪些应用程序在后台运行列出和切换可见应用程序要列出所有可见的应用程序请使用ApplicationManager get
是否可以将参数值传递给 UDF 构造函数？

我编写了一个带有构造函数参数的 UDF 我已经成功初始化并使用它grunt as grunt gt register mylib jar grunt gt define Function com company pig udf MyFunc
Android - 通过 USB 连接多个设备

是否可以通过 USB 将两个或更多 Android 设备连接到开发机器并同时在两个设备上调试程序我正在尝试使用 Atrix 和 Nexus One 执行此操作但没有成功我找不到太多关于这方面的文档这让我相信这是不可能的您当然可以
如何从两个不同的sql服务器获取数据？

我有一个内联查询其中 server1 中有一个 table1 server2 中有另一个 table2 我需要连接这两个表并获取数据我可以这样做例如连接到一台服务器获取数据并连接到下一台服务器获取数据并加入他们但还有没有其他更
如何解决指针数组中的数据依赖性？

如果我们有一个整数指针数组它们都指向同一个 int 并对其进行循环操作它会比那些指向两个不同 int 的指针慢 100 这是一个具体的例子 int data 2 int a b a b 0 for auto i 0ul i lt 2
使用 play.api.libs.json 将对象序列化为 json

我正在尝试将一些相对简单的模型序列化为 json 例如我想获取以下内容的 json 表示 case class User val id Long val firstName String val lastName String val e
更新数据库功能在 Visual Studio 2012 的“发布 Web”对话框中不起作用

我正在 Visual Studio 2012 下开发 ASP NET Web 窗体应用程序我使用 Web 部署和发布 Web 对话框进行应用程序部署我正在尝试使用更新数据库功能来部署数据库架构我输入了一个指向远程 SQL Server
在谷歌地图中获取地址和邮政编码以及经度和纬度

在谷歌地图API中我想提取地图中心的纬度和经度并获取那里的地址如邮政编码这可以得到邮政编码吗我用这个来达到这个目的 var lat 24 448674 var lng 135 684569 var geocoder new goog
java字节码astore_1和astore_2有什么区别

java字节码有什么区别astore 1 and astore 2 说明astore n 对于较小的值n 只是简写等价物astore n 任一版本都将堆栈顶部的内容存储到局部变量中n
为什么实例化对象时需要在具有参数化构造函数的 POJO 文件中声明默认构造函数？

假设我有一个带有构造函数的 POJO 类 Userpublic User int id String name 但是当我实例化 User 对象时User u new User 没有参数 Eclipse 会给出如下错误构造函数 User 未定
WKWebView 与本地文件

我正在使用本地文件测试 WKWebView 该文件在模拟器中工作但在设备中不起作用 interface EDPresentationViewController
删除 couchDB 数据库

有没有办法删除Futon中的多个数据库我没有在一个数据库中创建多个文档而是错误地运行了 erlang 查询并创建了大约 3000 个数据库可以批量删除吗谢谢您无法使用 Futon 批量执行此操作但是如果您可以通过 SSH 访问
使用 dplyr quos 引用 ... 中的各个变量

阅读指南使用 dplyr 编程 http dplyr tidyverse org articles programming html 我可以参考所有一次变量但我如何单独使用它们呢这是一个计算两个变量的函数使用它成功quos and
将 PG::Result 转换为 Active Record 模型

pg ruby允许您一次性向数据库发送多个查询这有助于最大限度地减少数据库访问次数 results conn send query QUERY1 QUERY2 QUERY3 conn block while result conn get
如何使用 python 最好地将语法复杂的文本转换为语法简单的文本？

我想编写一个 python 程序能够将句法复杂的句子转换为可能是几个不太复杂的句子我可以在下游任务中使用它们 Example 复杂的句子今晚我要和朋友们一起踢足球然后再去市中心旁边的剧院看电影具有相同内容的更简单的文本今晚我

热门标签