如何使用 R 提取包含特定人名的句子

2024-04-24

我正在使用 R 来提取包含特定人名的句子来自文本，这是一个示例段落：

在蒂宾根，他作为改革家遭到反对，但在他的叔公约翰·罗伊克林的推荐下，他接受了马丁·路德的召唤，进入维滕贝格大学。梅兰希顿 21 岁时成为维滕贝格的希腊语教授。他研究圣经，尤其是保罗的圣经和福音派教义。他作为旁观者出席了莱比锡辩论（1519），但通过评论参与其中。约翰·埃克（Johann Eck）攻击了他的观点，梅兰希顿（Melanchthon）根据《辩护反对约翰·埃克乌姆》（Defensio contra Johannem Eckium）中圣经的权威进行了回应。

在这短短的一段话里，有好几个人名，比如：约翰·罗伊克林, 梅兰希顿, 约翰·艾克。在...的帮助下openNLP包裹，三个人的名字马丁路德, Paul and 梅兰希顿可以正确提取并识别。然后我有两个问题：

我怎样才能提取包含这些名字的句子?
由于命名实体识别器的输出不太有希望，如果我将“[[ ]]”添加到每个名称，例如 [[Johann Reuchlin]]、[[Melanchthon]]，我该如何提取包含这些名称表达的句子[[A]]、[[B]] ...？

Using `strsplit` and `grep`, first I set made an object `para` which was your paragraph.

toMatch <- c("Martin Luther", "Paul", "Melanchthon")

unlist(strsplit(para,split="\\."))[grep(paste(toMatch, collapse="|"),unlist(strsplit(para,split="\\.")))]


> unlist(strsplit(para,split="\\."))[grep(paste(toMatch, collapse="|"),unlist(strsplit(para,split="\\.")))]
[1] "Opposed as a reformer at Tübingen, he accepted a call to the University of Wittenberg by Martin Luther, recommended by his great-uncle Johann Reuchlin"
[2] " Melanchthon became professor of the Greek language in Wittenberg at the age of 21"                                                                    
[3] " He studied the Scripture, especially of Paul, and Evangelical doctrine"                                                                               
[4] " Johann Eck having attacked his views, Melanchthon replied based on the authority of Scripture in his Defensio contra Johannem Eckium"

或者更干净一点：

sentences<-unlist(strsplit(para,split="\\."))
sentences[grep(paste(toMatch, collapse="|"),sentences)]

如果您正在寻找每个人所在的句子作为单独的返回，那么：

toMatch <- c("Martin Luther", "Paul", "Melanchthon")
sentences<-unlist(strsplit(para,split="\\."))
foo<-function(Match){sentences[grep(Match,sentences)]}
lapply(toMatch,foo)

[[1]]
[1] "Opposed as a reformer at Tübingen, he accepted a call to the University of Wittenberg by Martin Luther, recommended by his great-uncle Johann Reuchlin"

[[2]]
[1] " He studied the Scripture, especially of Paul, and Evangelical doctrine"

[[3]]
[1] " Melanchthon became professor of the Greek language in Wittenberg at the age of 21"                                                   
[2] " Johann Eck having attacked his views, Melanchthon replied based on the authority of Scripture in his Defensio contra Johannem Eckium"

编辑 3：要添加每个人的姓名，请执行一些简单的操作，例如：

foo<-function(Match){c(Match,sentences[grep(Match,sentences)])}

EDIT 4:

如果您想查找包含多个人/地点/事物（单词）的句子，则只需为这两个添加一个参数，例如：

toMatch <- c("Martin Luther", "Paul", "Melanchthon","(?=.*Melanchthon)(?=.*Scripture)")

并改变perl to TRUE:

foo<-function(Match){c(Match,sentences[grep(Match,sentences,perl = T)])}


> lapply(toMatch,foo)
[[1]]
[1] "Martin Luther"                                                                                                                                         
[2] "Opposed as a reformer at Tübingen, he accepted a call to the University of Wittenberg by Martin Luther, recommended by his great-uncle Johann Reuchlin"

[[2]]
[1] "Paul"                                                                   
[2] " He studied the Scripture, especially of Paul, and Evangelical doctrine"

[[3]]
[1] "Melanchthon"                                                                                                                          
[2] " Melanchthon became professor of the Greek language in Wittenberg at the age of 21"                                                   
[3] " Johann Eck having attacked his views, Melanchthon replied based on the authority of Scripture in his Defensio contra Johannem Eckium"

[[4]]
[1] "(?=.*Melanchthon)(?=.*Scripture)"                                                                                                     
[2] " Johann Eck having attacked his views, Melanchthon replied based on the authority of Scripture in his Defensio contra Johannem Eckium"

编辑5：回答你的其他问题：

Given:

sentenceR<-"Opposed as a reformer at [[Tübingen]], he accepted a call to the University of [[Wittenberg]] by [[Martin Luther]], recommended by his great-uncle [[Johann Reuchlin]]"

gsub("\\[\\[|\\]\\]", "", regmatches(sentenceR, gregexpr("\\[\\[.*?\\]\\]", sentenceR))[[1]])

会给你双括号内的单词。

> gsub("\\[\\[|\\]\\]", "", regmatches(sentenceR, gregexpr("\\[\\[.*?\\]\\]", sentenceR))[[1]])
[1] "Tübingen"        "Wittenberg"      "Martin Luther"   "Johann Reuchlin"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

r

tm

opennlp

如何使用 R 提取包含特定人名的句子的相关文章

将 RDS 文件从网络（即 URL）直接加载到 R 中？

read csv 具有直接从 url 读取的出色能力 readRDS 才不是我想将 RDS 文件从 Internet 移动到我的 R 环境我看到有几种方法 Method 1 此方法会用下载的文件弄乱工作目录 myurl lt https
jupyter 中的 r 图形 - 无法启动 png() 设备

我在 Jupyter 中使用 R 但无法在笔记本本身中绘制图表这是一个可重现的示例 set seed 123 mat as matrix x rnorm 100 y rnorm 100 plot mat 在朱皮特中 Error in pn
需要 RegEx 返回第一段或前 n 个单词

我正在寻找一个正则表达式来返回段落中的前 n 个单词或者如果该段落包含少于 n 个单词则返回完整的段落例如假设我最多需要前 7 个单词 p one two p
访问 R 工作区中的数据[重复]

这个问题在这里已经有答案了我是自学 R 的可能有一些非常基本的东西我可能不熟悉如果是这样我道歉我正在尝试访问外部来源提供给我的数据它作为一个工作空间出现我的流程如下 gt ls 1 2003OHT HR gt attach 20
如何使用 sprintf 函数在字符中添加前导“0”而不是空格？

我正在尝试使用sprintf函数为字符添加前导 0 并使所有字符长度相同然而我得到的是领先空间 My code a lt c 12 123 1234 sprintf 04s a 1 12 123 1234 我试图得到什么 1 0012 0
正则表达式允许零，只要它不是第一个数字[重复]

这个问题在这里已经有答案了昨天我在这里发布了一个问题正则表达式允许 null 或 1 到 9 数字 https stackoverflow com questions 40354842 regular expression allow n
如何有效地将多个光栅 (.tif) 文件导入 R

我是 R 新手尤其是在空间数据方面我正在尝试找到一种方法来有效地将多个 600 单波段栅格 tif 文件导入到 R 中所有文件都存储在同一文件夹中不确定这是否重要但请注意在我的 Mac 和 Windows 并行 VM 上的文件夹
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
如何从 pandas 数据框中的列中删除字符串值

我正在尝试编写一些代码以逗号分隔数据帧列中的字符串因此它成为一个列表并从该列表中删除某个字符串如果存在删除不需要的字符串后我想再次以逗号加入列表元素我的数据框如下所示 df Column1 Column2 0 a a b c
为每个因素级别添加日期时间序列

我有一个带有因子列的数据框 s lt data frame id 901 910 s id lt as factor s id 我有一个日期时间序列 library lubridate start lt now as difftime 2
你能挽救我的负面回顾示例来传达数字吗？

在高级正则表达式一章中掌握 Perl http oreilly com catalog 9780596527242 我有一个损坏的示例我无法找到一个很好的修复方法这个例子可能为了自己的利益而试图变得太聪明但也许有人可以帮我解决它
R data.table 多个条件连接

我设计了一种解决方案用于从两个单独数据表的多个列中查找值并添加基于新列的值计算多个条件比较代码如下它涉及在计算两个表中的值时使用 data table 和联接但是这些表没有联接在我正在比较的列上因此我怀疑我可能无法获得 da
根据 R 数据框中的名称对列进行平均

我想知道是否有一种有效的方法来获取每组的平均值类似命名的列谁的名字结尾为 1S and 2S ex ex1S ex2S at time 1并取每组的平均值类似命名的列谁的名字结尾为 1C or 2C ex ex1C ex2C at time
如何读取 R 中的每个 .csv 文件并将其导出到单个大文件中

你好我有以下格式的数据 101 20130826T155649 3 1 round 0 10552 180 yellow 12002 1 round 1 19502 150 yellow 22452 1 round 2 28957 130
根据 row_number() 过滤 data.frame

更新自从提出这个问题以来 dplyr 已经更新现在按照 OP 的要求执行我正在尝试获取第二行到第七行data frame using dplyr 我正在这样做 require dplyr df lt data frame id 1 1
在 Java 正则表达式中获取多个模式的重叠匹配

我有同样的问题这个链接 https stackoverflow com questions 18751486 matching one string multiple times using regex in java 但有多种模式我的正
空间数据xyz到矩阵

我有一个大数据框 100 000 行其中包含 LON LAT VALUE 我想将其转换为矩阵 EPSG 中的坐标 3035 我使用以下命令尝试了 reshape2 包 acast df lon lat value var value 效果
Python re无限执行

我正在尝试执行这段代码 import re pattern r w w s re compiled re compile pattern results re compiled search COPRO HORIZON 2000 HOR p
为什么无法从 WEB-INF 文件夹内加载 POSModel 文件？

我在我的 Web 项目中使用 Spring MVC 我将模型文件放在 WEB INF 目录中 String taggerModelPath WEB INF lib en pos maxent bin String chunkerModelP
通过 R 中的数据子集执行计算

我想对数据框的 PERMNO 列中的每个公司编号进行计算其摘要可以在此处查看 gt summary companydataRETS PERMNO RET Min 10000 Min 0 971698 1st Qu 32716 1st Qu

随机推荐

如何使用 mysql 使用输入和输出参数调用 Entity Framework Core 中的存储过程

我使用 ASP net Core 2 2 与 Entity Framework core 2 2 6 和 Pomelo EntityFrameworkCore MySql 2 2 0 来连接 MySQL 我有一个存储过程它需要 3 个输入
Scapy、Npcap、WinPcap 等库如何绕过 Window 对发送原始 TCP 数据包的限制？

在尝试自己用 Python 执行 TCP 握手之后我惨痛地了解到现代 Windows 机器不允许通过原始套接字发送 TCP 数据然而 Python 库 Scapy 似乎能够很好地做到这一点其他库如 Npcap 和 WinPcap 似
Rails 中带有额外列的多对多表

是否可以仅使用两个 Rails 模型用户和事件来做到这一点 Users id name age 1 danilo 26 2 joe 23 3 carlos 50 4 katy 45 Events Users event id user
如何在 Python 中生成唯一随机浮点列表

我知道有一些简单的方法可以生成唯一随机整数的列表例如random sample range 1 100 10 我想知道除了编写一个像范围一样但接受这样的浮点数的函数之外是否有更好的方法来生成唯一随机浮点数的列表 import rando
CREATE命令被拒绝给用户？

show grants for charm localhost Grants for charm localhost GRANT USAGE ON TO charm localhost IDENTIFIED BY PASSWORD E
在 Go 中设置引用

如何通过引用传递接口并让方法为我填充它像这样的东西 var i CustomInterface Get title ref i i SomeOperationWithoutTypeAssertion i is nil here my pr
如何从 PHP 中的 json 响应中按键提取值 [重复]

这个问题在这里已经有答案了我正在使用 getResponse api 来获取订阅者的最新信息这是之后打印的内容var dump result object stdClass 2 1 updated gt int 1 我如何提取解码编
在 bash 中使用正则表达式从字符串中提取信息

我在 bash 中有一个字符串变量如下所示 SOGoTimeFormat H M SOGoMailShowSubscribedFoldersOnly 0 SOGoMailSignaturePlacement below SOGoLangu
Swift Struct 不符合 Equatable 协议？

如何使结构符合 Equatable 协议我正在使用 Xcode 7 3 1 struct MyStruct var id Int var value String init id Int value String self id id s
列出可用于 gstreamer 1.0 中 ksvideosrc 视频捕获的设备名称

我正在尝试使用 c 中的 gstreamer 1 0 查询 Windows 上可用视频捕获设备网络摄像头的列表我使用 ksvideosrc 作为源我能够捕获视频输入但我无法查询可用设备及其上限的列表在 gstreamer 0
如何在静态方法或自定义类中注入HttpClient？

我想使用角度HttpClient在静态方法或类中在类中不能将其定义为构造函数参数我尝试过类似的东西 export class SomeNotInjectableService static doSomething const injec
Ruby on Rails 3：link_创建新的嵌套资源？

我试图在 Rails 3 应用程序中创建一个链接来创建新的嵌套资源但我无法弄清楚链接到新嵌套资源的语法是什么解决方案确保您的资源正确嵌套在您的路由文件中 resources books do resources chapters e
Amazon S3：授予来自 IP 的匿名访问权限（通过存储桶策略）

我有一个 Amazon S3 存储桶并且希望将其可供特定计算机上的脚本使用而无需部署登录凭证所以我的计划是只允许从该机器的 IP 进行匿名访问我对亚马逊云还很陌生存储桶策略看起来是不错的选择我将以下策略添加到我的存储桶中 Ver
如何解决“允许的最大密钥长度为 900 字节”。

我有以下表结构 CREATE TABLE dbo Signature caption id nvarchar 512 NOT NULL signature id int NOT NULL 我想使用以下 alter 命令添加主键 ALTER
C# 中 System.String[*] 和 System.String[] 的区别

Edit 我知道 C 相当于For Each server As String In servers is foreach var item in servers 但是由于GetOPCServers返回对象应该将其转换为可迭代类型我正在
页面抓取以从谷歌财经获取价格

我试图通过抓取谷歌金融页面来获取股票价格我在 python 中使用 urllib 包然后使用正则表达式来获取价格数据当我让 python 脚本运行时它最初会运行一段时间几分钟然后开始抛出异常 HTTP 错误 503 服务不可用
如何设置“如果对象存在”条件？

有没有办法检查对象是否存在我不断收到需要对象错误我知道该对象不存在如果是这种情况我想绕过我的代码的一部分我不知道什么是我没有尝试过的 var codeName document getElementById testCode
如何阻塞直到BlockingQueue为空？

我正在寻找一种方法来阻止直到BlockingQueue是空的我知道在多线程环境下只要有生产者将物品放入BlockingQueue 可能会出现队列变空几纳秒后又充满项目的情况但是如果只有one生产者那么它可能希望在停止将项目放入
为 iPhone 或 Android 开发？（作为 C# 开发人员）[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何使用 R 提取包含特定人名的句子

我正在使用 R 来提取包含特定人名的句子来自文本这是一个示例段落在蒂宾根他作为改革家遭到反对但在他的叔公约翰罗伊克林的推荐下他接受了马丁路德的召唤进入维滕贝格大学梅兰希顿 21 岁时成为维滕贝格的希腊语教授他研究圣经尤

如何使用 R 提取包含特定人名的句子

EDIT 4:

编辑5：回答你的其他问题：

如何使用 R 提取包含特定人名的句子 的相关文章

随机推荐

热门标签

如何使用 R 提取包含特定人名的句子的相关文章