如何使用 R 登录并从 aspx 网页下载文件

2023-12-25

我正在尝试自动下载收入动态面板研究文件可在这个网页 http://simba.isr.umich.edu/Zips/ZipMain.aspx使用 R。单击这些文件中的任何一个都会使用户进入此登录/认证页面 http://simba.isr.umich.edu/u/Login.aspx。身份验证后,可以使用网络浏览器轻松下载文件。不幸的是,httr下面的代码似乎没有维护身份验证。我尝试过检查Headers在 Chrome 中的 Login.aspx 页面 (如此处所述 https://stackoverflow.com/questions/10213194/use-rcurl-to-bypass-disclaimer-page-then-do-the-web-scrapping),但即使我相信我传递了所有正确的值,它似乎也无法维持身份验证。我不在乎它是否完成httr or RCurl或者其他什么,我只是想要在 R 内部工作的东西,这样我就不需要这个脚本的用户必须手动下载文件或使用一些完全独立的程序下载文件。我对此的尝试之一如下,但它不起作用。任何帮助,将不胜感激。谢谢!! :D

require(httr)

values <- 
    list( 
        "ctl00$ContentPlaceHolder3$Login1$UserName" = "[email protected] /cdn-cgi/l/email-protection" , 
        "ctl00$ContentPlaceHolder3$Login1$Password" = "somepassword" ,
        "ctl00$ContentPlaceHolder3$Login1$LoginButton" = "Log In" ,
        "_LASTFOCUS" = "" ,
        "_EVENTTARGET" = "" ,
        "_EVENTARGUMENT" = "" 
    )

POST( "http://simba.isr.umich.edu/u/Login.aspx?redir=http%3a%2f%2fsimba.isr.umich.edu%2fZips%2fZipMain.aspx" , body = values )

resp <- GET( "http://simba.isr.umich.edu/Zips/GetFile.aspx" , query = list( file = "1053" ) )

除了在身份验证后存储 cookie(请参阅我上面的评论)之外,您的解决方案中还有另一个问题点:ASP.net 站点设置了VIEWSTATEcookie 中的键值对将在您的查询中保留 - 如果您检查,您甚至无法在示例中登录(POST命令包含有关如何登录的信息,只需查看即可)。

可能的解决方案的概述:

  1. Load RCurl包裹:

    > library(RCurl)
    
  2. 设置一些方便的curl选项:

    > curl = getCurlHandle()
    > curlSetOpt(cookiejar = 'cookies.txt', followlocation = TRUE, autoreferer = TRUE, curl = curl)
    
  3. 第一次加载页面截图VIEWSTATE:

    > html <- getURL('http://simba.isr.umich.edu/u/Login.aspx', curl = curl)
    
  4. Extract VIEWSTATE使用正则表达式或任何其他工具:

    > viewstate <- as.character(sub('.*id="__VIEWSTATE" value="([0-9a-zA-Z+/=]*).*', '\\1', html))
    
  5. 设置参数为您的用户名、密码and the VIEWSTATE:

    > params <- list(
        'ctl00$ContentPlaceHolder3$Login1$UserName'    = '<USERNAME>',
        'ctl00$ContentPlaceHolder3$Login1$Password'    = '<PASSWORD>',
        'ctl00$ContentPlaceHolder3$Login1$LoginButton' = 'Log In',
        '__VIEWSTATE'                                  = viewstate
        )
    
  6. 最后登录:

    > html = postForm('http://simba.isr.umich.edu/u/Login.aspx', .params = params, curl = curl)
    

    恭喜,现在您已登录并curl持有 cookie 来验证这一点!

  7. 验证您是否已登录:

    > grepl('Logout', html)
    [1] TRUE
    
  8. 所以你可以继续下载任何文件 - 只要确保通过curl = curl在您的所有查询中。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 R 登录并从 aspx 网页下载文件 的相关文章

随机推荐

  • 如何在tensorflow.js中获取/设置监督模型的权重?

    我想更改监督模型的权重 但更改权重后得到的结果完全相同 我究竟做错了什么 const model tf sequential model add tf layers dense model add tf layers dense model
  • 我想测试一个私有方法 - 我的设计有问题吗? [复制]

    这个问题在这里已经有答案了 因此 我对软件测试非常陌生 并且正在考虑向我的一个应用程序添加一些测试 我有一个公共方法 addKeywords 它一路上调用一个私有方法removeInvalidOperations 这个私有方法调用外部 AP
  • AngularJs - ngRepeat 带有返回新对象的过滤器

    我正在尝试对过滤器中的对象应用转换 这会导致返回一组新对象 这是因为我想在应用转换后过滤对象并显示转换结果 然而 我最终得到了无限的摘要 因为我显示的对象与我放入的对象不同 当比较它们时 ids 我解决这个问题的想法如下 使用类似的跟踪表达
  • 谷歌地图发布密钥的 SHA1 显示一些加密文本

    我正在使用谷歌地图 在调试模式下 这真是太棒了 对于发布模式 我尝试从我的 windows10 hp probook 获取发布 SHA1 密钥 但我得到了一些加密文本而不是 SHA1 我的命令如下 C Program Files Java
  • GetSupportActionBar 返回 null

    当我开始第二个 Activity 后 就没有 ActionBar 了 当我调用 GetSupportActivity 时 它返回 null 为什么 我有 minSdkVersion 10 和 targetSdkVersion 15
  • 在 Haxe 中传递任意函数参数列表

    在 ActionScript 中我可以使用 在函数声明中 因此它接受任意参数 function foo args void trace args length 然后我可以调用传递数组的函数 foo apply this argsArray
  • JS 中的动态 import() 文件

    我需要导入标记文件动态切片文件的一部分并将结果添加到变量并在我的 React 应用程序中渲染结果 import changelog md then 我试图这样做render 具有所有逻辑的方法 但我有问题 我需要在哪里导入它 在类中或外部
  • Excel 数据透视表 - 计算总和的平均值

    我确信这很简单 但是如何获得数据透视表来显示计算出的字段总和的平均值 在简化的示例中 我过滤掉了资金 x1 数据透视表显示了每人剩余资金的总和 现在我如何获得平均值按人 所以 手动计算 3300 3 我尝试使用计算字段 但无法弄清楚它是如何
  • Python xpath 不工作?

    好吧 这开始让我有点抓狂了 我已经尝试了几个 Python 的 xml xpath 库 但无法找到一种简单的方法来获取臭味十足的 标题 元素 最新的尝试如下所示 使用 Amara def view req url req content t
  • 该方法必须返回 boolean(Java) 类型的结果

    这是我的代码 boolean checkHit2 if cx lt 0 cx gt 640 return true if cy lt ground int cx return false if cx lt blue 15 cx gt blu
  • 如何在 C 中的 3d 数组中使用 memcpy

    我有一个 3 维数组int32 t x 1024 4 256 我需要将数组的所有元素复制到相同类型和大小的另一个数组int32 t y 1024 4 256 我可以用吗memcpy y x sizeof x 之后我可以访问数组的元素y与x
  • 将文件保存到 MyDocuments + 应用程序文件夹

    我正在尝试将 NET 应用程序设置文件保存到用户的 MyDocument MyApplication 文件夹 但我不知道如何检查现有文件夹 文件 并在保存时创建或附加文件夹 文件 我不想打开 saveFileDialog 因为我需要该文件位
  • SSE 错误 - 使用 m128i_i32 定义 __m128i 变量的字段

    定义一个 m128i变量以这种方式 m128i a a m128i i32 0 65000 我收到以下错误 错误 请求 a 中的非类成员 m128i i32 类型 m128i 又名 vector 2 long long int a m128
  • XPath 查找具有特定子节点的所有元素

    您能帮我找到下面示例中具有子元素 c 的所有元素 b 吗 a b b b b a
  • spring 拦截器从未被调用

    我有以下拦截器 Component public class ExternalLinkInterceptor extends HandlerInterceptorAdapter private static final Logger log
  • 使用 sse 指令进行复杂的 Mul 和 Div

    通过 SSE 指令执行复杂的乘法和除法是否有益 我知道使用 SSE 时加法和减法表现更好 有人可以告诉我如何使用 SSE 执行复杂的乘法以获得更好的性能吗 为了完整起见 可以下载 英特尔 64 和 IA 32 架构优化参考手册 here h
  • 我是否必须取消订阅ActivatedRoute(例如参数)可观察量?

    我发现很多例子ActivatedRoute可观察到的像params or url已订阅但未取消订阅 constructor private route ActivatedRoute ngOnInit this route params co
  • Amazon S3 - 如何下载匿名用户拥有的对象?

    我有一个示例网页 允许匿名用户上传对象并在我的 S3 存储桶中创建文件夹 不幸的是 在执行此操作之前 我没有设置任何特定的存储桶策略或 ACL 现在我遇到一个问题 匿名用户创建了一个文件夹并上传了我 作为根用户 无法下载或访问的对象 我计划
  • 基于referer的nginx条件路由

    我需要根据 http 请求来源路由流量 我有两个环境 我们需要使用 http referer 将 us en 的每个 http 请求重定向到环境 1 将其他请求重定向到环境 2 基于位置的重定向有效 location us en proxy
  • 如何使用 R 登录并从 aspx 网页下载文件

    我正在尝试自动下载收入动态面板研究文件可在这个网页 http simba isr umich edu Zips ZipMain aspx使用 R 单击这些文件中的任何一个都会使用户进入此登录 认证页面 http simba isr umic