R - 使用 rvest 进行网页抓取

2024-01-17

首先我想花点时间感谢 SO 社区，您过去多次帮助过我，甚至不需要我创建一个帐户。

我当前的问题涉及使用 R 进行网页抓取。这不是我的强项。

我想报废http://www.cbs.dtu.dk/services/SignalP/ http://www.cbs.dtu.dk/services/SignalP/

我尝试过的：

    library(rvest)
    url <- "http://www.cbs.dtu.dk/services/SignalP/"
    seq <- "MTSKTCLVFFFSSLILTNFALAQDRAPHGLAYETPVAFSPSAFDFFHTQPENPDPTFNPCSESGCSPLPVAAKVQGASAKAQESDIVSISTGTRSGIEEHGVVGIIFGLAFAVMM"

    session <- rvest::html_session(url)
    form <- rvest::html_form(session)[[2]]
    form <- rvest::set_values(form, `SEQPASTE` = seq)
    form_res_cbs <- rvest::submit_form(session, form)
    #rvest prints out:
    Submitting with 'trunc'

rvest::html_text(rvest::html_nodes(form_res_cbs, "head")) 
#ouput:
"Configuration error"

rvest::html_text(rvest::html_nodes(form_res_cbs, "body"))

#ouput:
"Exception:WebfaceConfigErrorPackage:Webface::service : 358Message:Unhandled #parameter 'NULL' in form "

我不确定未处理的参数是什么。问题出在提交按钮上吗？我似乎无法强迫：

form_res_cbs <- rvest::submit_form(session, form, submit = "submit")
#rvest prints out
Error: Unknown submission name 'submit'.
Possible values: trunc

问题是submit$name 为NULL 吗？

form[["fields"]][[23]]

我尝试按照此处的建议定义假提交按钮：rvest 中没有提交按钮的情况下提交表单 https://stackoverflow.com/questions/33885629/submit-form-with-no-submit-button-in-rvest

没有运气。

我愿意接受使用 rvest 或 RCurl/httr 的解决方案，我想避免使用 RSelenium

编辑：感谢 hrbrmstr 很棒的答案，我能够为这项任务构建一个函数。它可以在 ragp 包中找到：https://github.com/missuse/ragp https://github.com/missuse/ragp

嗯，这是可行的。但这需要费点力气。

这部分：

library(rvest)
library(httr)
library(tidyverse)

POST(
  url = "http://www.cbs.dtu.dk/cgi-bin/webface2.fcgi",
  encode = "form",
  body=list(
    `configfile` = "/usr/opt/www/pub/CBS/services/SignalP-4.1/SignalP.cf",
    `SEQPASTE` = "MTSKTCLVFFFSSLILTNFALAQDRAPHGLAYETPVAFSPSAFDFFHTQPENPDPTFNPCSESGCSPLPVAAKVQGASAKAQESDIVSISTGTRSGIEEHGVVGIIFGLAFAVMM",
    `orgtype` = "euk",
    `Dcut-type` = "default",
    `Dcut-noTM` = "0.45",
    `Dcut-TM` = "0.50",
    `graphmode` = "png",
    `format` = "summary",
    `minlen` = "",
    `method` = "best",
    `trunc` = ""
  ),
  verbose()
) -> res

满足您提出的要求。我离开了verbose()这样你就可以观察发生了什么。它缺少“文件名”字段，但您指定了字符串，因此它很好地模仿了您所做的事情。

现在，棘手的部分是它使用中间重定向页面，让您有机会输入电子邮件地址以在查询完成时收到通知。它会定期（每约 10 秒左右）检查查询是否完成，如果完成，将快速重定向。

该页面具有查询 ID，可以通过以下方式提取：

content(res, as="parsed") %>% 
  html_nodes("input[name='jobid']") %>% 
  html_attr("value") -> jobid

现在，我们可以模仿最终的请求，但我会添加一个Sys.sleep(20)在此之前确保报告完成。

GET(
  url = "http://www.cbs.dtu.dk/cgi-bin/webface2.fcgi",
  query = list(
    jobid = jobid,
    wait = "20"
  ),
  verbose()
) -> res2

获取最终结果页面：

html_print(HTML(content(res2, as="text")))

您可以看到图像丢失，因为GET仅检索 HTML 内容。您可以使用以下函数rvest/xml2解析页面并刮出表格和 URL，然后您可以使用它们来获取新内容。

为了完成这一切，我使用了打嗝套件 https://portswigger.net/burp/freedownload拦截浏览器会话，然后我的burrp https://github.com/hrbrmstr/burrpR 包来检查结果。您还可以在 burpsuite 中进行直观检查并更手动地构建内容。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R - 使用 rvest 进行网页抓取的相关文章

使用 Visual Studio 构建 R 包 (C API)

我正在尝试使用 Visual Studio 构建一个简单的 R 包这是我的代码 include
错误：“tidyverse”的包或命名空间加载失败：“namespace:dplyr”未导出对象“relocate”

我使用以下命令安装了 tidyverse install packages tidyverse 但是安装后当我使用以下命令调用库时 library tidyverse 我收到此错误 Error package or namespace l
如何找到每个分类变量的连续变量的平均值

我想在 y 轴上绘制连续的 BMI 在 x 轴上绘制家庭收入的分类变量并且我希望该图绘制每个类别的平均 BMI 然而我不知道如何找到家庭收入每个因素的平均体重指数 Dataset nh 5994 total IDs with Obser
与 data.table 合并时防止重复列

我有两个数据表它们的列名部分相似 dfA lt read table text A B C D E F G iso year matchcode 1 0 1 1 1 0 1 0 NLD 2010 NLD2010 2 1 0 0 0 1 0
在r包中重新导出数据集

In R包有可能重新导出函数这使得很容易回收相同的函数而不必在不同的包之间重复代码例如 devtools session info函数是重新导出sessioninfo session info export importFrom s
自动化 RStudio 处理 RMarkdown？

我有一个 RMarkdown 文件用于生成漂亮的 HTML 报告问题是我希望能够自动化它以便它可以在无头服务器上运行因此不会有人启动 Rstudio 并按下 knithtml 按钮而且 Rstudio 似乎正在做很多额外的魔法
R 语言 - 等待用户使用 scan 或 readline 输入

我试图让用户输入一些关键字进行查询在我的脚本中我使用了 scan 或 readline 我使用 R 嵌入脚本编辑器 Windows 进行了尝试但是当我执行代码时它使用我的下一行脚本作为标准输入这是我的部分脚本 keywords
更改列的顺序

我正在处理一个包含 gt 40 列的大型数据框我希望能够移动列而不必指定所有列名称例如 a lt c 1 5 b lt c 4 3 2 1 1 Percent lt c 40 30 20 10 10 Labels lt c Cat D
在 R 中将文本文件拆分为段落文件

我正在尝试将一个巨大的 text 文件拆分为多个 text 文件每个文件仅包含一个段落让我举个例子我需要这样的文字这是第一段这没有任何意义因为这只是一个例子这是第二段和前一段一样毫无意义另存为两个独立的 txt 文件其中
将非平凡函数应用于 data.table 的有序子集

Problem 我正在尝试使用我新发现的 data table 功能永久来计算一堆数据的频率内容如下所示 Sample Channel Trial Voltage Class Subject 1 1 1 196 82253 1 1 1
C# 使用 HttpWebRequest 在 POST 中转义加号 (+)

我在发送密码字段中包含等字符的 POST 数据时遇到问题 string postData String Format username 0 password 1 anyname 13Gt2 我正在使用 HttpWebRequest 和网络
xml2 包 (R) 中的 xml_find_all 函数未找到相关节点

我使用 R 中的 xml2 包来访问 xml 数据发现它在不同的 xml documents 上表现不同在这个宠物的例子中 library xml2 doc lt read xml
使用 gbuffer 在 R 中缓冲（地理）空间点

我正在尝试缓冲数据集中半径为 100 公里的点我正在使用该功能gBuffer从包装中rgeos 这是我到目前为止所拥有的 head sampledf postalcode lat lon city province 1 A0A0A0 47
Golang 网络爬虫 NTLM 身份验证

Golang 网络抓取工具需要从经过 NTLM 验证的网页中提取信息有了有效的用户名和密码网络抓取工具如何与服务器进行 NTLM 4 次握手以获得对后面受保护网页的访问权限 url username password http www
完全缺失列的 VaR 计算

我需要计算股票收益的滚动 VaR 从这篇文章使用rollapply函数使用R进行VaR计算 https stackoverflow com questions 25045612 using rollapply function for v
在R中绘制3x3方形网格

我得到了一个数字列表 n 9 想将它们画在一个 3 3 的正方形网格中每个网格填充相应的数字我如何在 R 中执行此操作而不安装额外的软件包例如情节非常感谢这里有一个ggplot解决方案比我预期的要难一点 Setup the dat
如何从类外部更改公共 R6 类方法？

我希望能够在我的 R6 类中重新定义公共方法以便它根据该类保存的数据类型进行更改如下所示 library R6 Simple lt R6Class Simple public list dt mtcars my print functi
请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

您好我一直在使用此代码片段从网站下载文件到目前为止小于 1GB 的文件都很好但我注意到 1 5GB 文件不完整 s is requests session object r s get fileUrl headers headers
在多面图中用 N 注释 x 轴

我正在尝试生成一些按治疗条件和访问次数细分的数字结果的箱线图每个框中的观察次数都放在图下方并且也标记了访问次数这里有一些虚假数据可以用来说明我举了两个我尝试过但不太有效的例子 library ggplot2 library plyr
（R 错误）错误：cons 内存耗尽（达到限制？）

我正在处理大数据并且有一个 70GB 的 JSON 文件我正在使用 jsonlite 库将文件加载到内存中我尝试过 AWS EC2 x1 16large 机器 976 GB RAM 来执行此负载但 R 因错误而中断 Error co

随机推荐

Python 3.7 input() 不起作用，但 raw_input 起作用

这里是经典的初学者问题我一直在尝试在各种文本编辑器如 VSCode 和 Atom 上使用 Python 但它们似乎都不起作用安装 python 3 7 后如果我要求一个简单的输入程序就会崩溃将输入标记为未定义但是当我使用 ra
使用 Google 地图 JavaScript API 将“地点卡”添加到嵌入式地图？

有谁知道如何使用嵌入式 Google 地图启用地点卡谷歌地图 JavaScript API https developers google com maps documentation javascript 当我使用Google 地图嵌
创建一个d维指针[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我们用符号来表示指针迭代该过程我们获得一个双指针一个三重指针更一般地说是一个 d 维指针对于每个 d 个正自然数
从 Angular 2 中的 config.json 获取数据

我想从配置文件加载所有网址我创建了名为 config json 的 json 文件 ConfigurationService ts 来通过密钥获取 URL 但是我无法通过密钥获取 URL 配置 json loginUrl http exa
R function() 中美元符号“$”的含义是什么？

通过学习R 我刚刚遇到了下面的代码解释here https cran r project org doc manuals R intro html Scope open account lt function total list depo
如何将参数传递给 gulp-watch 调用的任务

我正在尝试将参数传递给 gulp watch 调用的任务我需要它因为我正在尝试构建一个模块化框架因此如果模块 1 中的文件发生更改则不需要重建其他模块我只想要一个函数来为每个模块创建连接和丑化的文件这是我到目前为止得到的 he
关闭应用程序并从内存中杀死它

您好我想关闭我的应用程序并且还想通过单击按钮从内存中杀死它我正在使用这种方法但它只是最小化应用程序并没有关闭完整的应用程序该怎么办 public void AppExit this finish Intent intent n
Google Datastudio：对日期源的两个不同日期列应用日期范围过滤器

我需要具有日期范围过滤器该过滤器可用于数据源的两个不同日期列一次一个或者通过单选按钮选择应应用哪个列日期范围可以在 Google Data studio 中实现这一点吗解决方法总体思路是让用户设置参数的值该参数确定包含任一日期
如何根据 ElasticSearch 中的项目数对搜索结果进行排序？

假设我在 ElasticSearch 中存储这样的文档 name user name age 43 location CA USA bio into java scala python etc tags java scala python
来自 Moodle 插件的调试信息

我是 Moodle 的新手我正在尝试创建一个本地插件当用户注册取消注册时它会自动执行任务发送电子邮件在开发这个插件时我试图echo or print r用于调试和跟踪目的的一些信息代码很简单 function perform
为什么在 .NET 7 中 DateTime.AddDays 不再四舍五入到最接近的毫秒？

The says value 参数四舍五入到最接近的毫秒然而这在 NET 7 中显然不再成立考虑以下最小示例小提琴 NET 4 7 2 https dotnetfiddle net zwmCQT 小提琴 NET 7 https do
对于运行 ios 12.1.2 的 iPhone XS Max，dyld_shared_cache_extract_dylibs 失败

我试图在运行 iOS 12 1 2 的 iPhone XS Max 上运行我的应用程序但直到构建结束并返回 dyld shared cache extract dylibs failed 我删除了它支持的文件并重新运行我的应用程序它给出
如何跳过肯定测试但运行故障安全测试？

在我的项目中我有万无一失的测试和故障安全测试如果我跑步mvn clean install DskipTests那么这两种测试都会被跳过如果我尝试使用 Dit test TestName 运行单个故障安全测试那么首先运行所有的 Sur
如何向OnClickListener传递参数？

如何将参数传递给 OnClickListener 得到了我的听众 OnClickListener myListener new OnClickListener Override public void onClick View v I wa
npm install --save，不保存有什么用

我了解之间的差异npm install something and npm install something save 对于任何想知道的人第一个只会安装依赖项而后者将安装依赖项并将其添加到 package json 中但是我不明白为
您可以删除 Plotly Python Scatter3d 中的悬停坐标线吗

使用时绘图 Scatter3D https plot ly python 3d scatter plots 默认的鼠标悬停效果显示一种坐标十字线有没有办法消除这种效果并只显示工具提示导致线条显示在轴上的悬停效果称为spikes http
mingw 构建错误：未定义对“__chkstk_ms”的引用

我刚刚在windows中安装了mingw 并编写了一个helloWorld程序来测试它代码 include
三列可变宽度CSS页面布局，中心列扩展

有大量的 CSS 列布局信息但这一切似乎都依赖于至少某些具有固定宽度或百分比的列其他列可以以此为基础我想要完成的是三列布局左列和右列的宽度可变它们可以包含任何内容但分别固定在左侧和右侧然后中心柱应该扩展以占据它们之间的任何
通过 Thunderbird 发送 Excel 宏 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我想知道是否有人知道如何在 Excel 中构建宏以通过 Thunderbird 发送电子表格 Example Option Explicit
R - 使用 rvest 进行网页抓取

首先我想花点时间感谢 SO 社区您过去多次帮助过我甚至不需要我创建一个帐户我当前的问题涉及使用 R 进行网页抓取这不是我的强项我想报废http www cbs dtu dk services SignalP http www cb

R - 使用 rvest 进行网页抓取

R - 使用 rvest 进行网页抓取 的相关文章

随机推荐

热门标签

R - 使用 rvest 进行网页抓取的相关文章