是否可以抓取特定主题的所有谷歌学术结果并且合法吗？

2024-02-29

我有一些经验，但没有网站编码经验，并且认为我无法选择正确的 CSS 节点进行解析（我相信）。

library(rvest)
library(xml2)
library(selectr)
library(stringr)
library(jsonlite)

url <-'https://scholar.google.com/scholar?hl=en&as_sdt=0%2C38&q=apex+predator+conservation&btnG=&oq=apex+predator+c'
webpage <- read_html(url)

title_html <- html_nodes(webpage, 'a#rh06x-YUUvEJ')
title <- html_text(title_html)
head(title)

最终，如果我可以将所有学者成果抓取并分成一个 csv 文件，其中包含“标题”、“作者”、“年份”、“期刊”等标题，那就太好了。任何帮助将非常感激！谢谢

关于您的代码，您几乎已经完成了 - 您没有选择正确的元素。我相信您选择的是id我在哪里找到的html_nodes选择时效果最佳class。您正在寻找的课程是gs_rt and gs_a.

With regex然后，您可以通过提取作者和年份将数据处理为所需的格式。

url_name <- 'https://scholar.google.com/scholar?hl=en&as_sdt=0%2C38&q=apex+predator+conservation&btnG=&oq=apex+predator+c'
wp <- xml2::read_html(url_name)
# Extract raw data
titles <- rvest::html_text(rvest::html_nodes(wp, '.gs_rt'))
authors_years <- rvest::html_text(rvest::html_nodes(wp, '.gs_a'))
# Process data
authors <- gsub('^(.*?)\\W+-\\W+.*', '\\1', authors_years, perl = TRUE)
years <- gsub('^.*(\\d{4}).*', '\\1', authors_years, perl = TRUE)
# Make data frame
df <- data.frame(titles = titles, authors = authors, years = years, stringsAsFactors = FALSE)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

webscraping

rvest

googlescholar

是否可以抓取特定主题的所有谷歌学术结果并且合法吗？的相关文章

lmer（来自 R 包 lme4）如何计算对数似然？

我试图理解 lmer 函数我发现了很多关于如何使用该命令的信息但关于它实际执行的操作的信息却很少除了这里的一些神秘注释 http www bioconductor org help course materials 2008 PHSI
Plotly 绘图不会在 RMarkdown 文档的 for 循环内渲染

我正在尝试动态构建一个需要运行循环的报告并为每次迭代打印一些消息表格和绘图我可以让一切正常运转except为了情节示例 rmd r echo FALSE results asis fig keep all message FALSE
R：使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点？

我有一个 R 包它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环很大程度上依赖于 BLAS 和 LAPACK 例程作为 Fortran 的接口我使用 Fortran功能我刚刚读过乔纳森卡拉汉的博客文章 http
再现频率矩阵图

我想在 R 中重新创建一个情节情节如下来源 Boring E G 1941 作为动态平衡的统计频率心理学评论 48 4 279 这略高于我的工资等级能力因此在这里询问无聊的状态第一次 A 只能出现从不 0 或总是 1 在
在 R 中按组检查重叠开始和结束时间

我想检查数据的重叠这是数据 ID lt c rep 1 3 rep 3 5 rep 4 4 rep 5 5 Begin lt c 0 2 5 3 7 8 7 25 25 10 15 17 20 1 NA 10 11 13 End lt c
R-在多个图的外缘绘制居中图例

我想在具有多个绘图的设备中的绘图区域之外绘制居中图例 SO 中提出了许多关于更改 R 图中图例位置的问题略有不同例如 1 R 组合图的通用标题和图例 https stackoverflow com questions 8736966 r
无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果

我尝试创建一个矩阵为此我想降低文本为此我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
kmeans 对分组数据进行聚类

目前我尝试在分组数据中找到簇的中心通过使用示例数据集和问题定义我能够创建kmeans每个组内的集群然而当涉及到给定组的集群的每个中心时我不知道如何获取它们 https rdrr io cran broom man kmeans
在 mutate 和 across 之后使用 ~separate

目的是将所有物种 setosa 行转换为一行 setosa 这是一个最小的示例实际上有更多列和更多组我有这个数据框 head iris 2 gt select 1 2 5 gt group by Species Sepal Length
具有动态变量数的公式

假设有一些 data framefoo data frame想要找到目标列的回归Y由其他一些专栏为此目的通常使用一些公式和模型例如 linear model lt lm Y FACTOR NAME 1 FACTOR NAME 2 fo
R：编写抛硬币的随机采样程序

假设我们有以下情况有一枚硬币如果它正面朝上那么下一次抛掷正面的概率是 0 6 如果是反面那么下一次抛掷反面的概率也是 0 6 一个班有100名学生每个学生随机抛掷硬币几次 Student n 的最后一次抛硬币不会影响 Studen
R：根据元素长度从向量中删除元素

如何根据字符串的字符数或长度从字符串向量中删除元素 df lt c asdf fweafewwf af aewfawefwef awefWEfawefawef gt df 1 asdf fweafewwf af aewfawefwef aw
如何在 R 中为回归量创建“宏”？

对于长且重复的模型我想创建一个宏在 Stata 中称为宏并通过以下命令完成 global var1 var2 其中包含回归量的模型公式例如来自 library car lm income education prestige d
使用 Python 从网站下载所有 pdf 文件

我遵循了几个在线指南试图构建一个可以识别并从网站下载所有 pdf 的脚本从而避免我手动执行此操作到目前为止这是我的代码 from urllib import request from bs4 import BeautifulSoup
如何将带有观察计数的标签添加到 stat_summary ggplot？

我有一个数据集例如 outcome lt c rnorm 500 45 10 rnorm 250 40 12 rnorm 150 38 7 rnorm 1000 35 10 rnorm 100 30 7 group lt c rep A
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
将不同的 grViz 组合成一个图

我想结合不同的DiagrammeR绘制成一个图形生成的图如下例所示 library DiagrammeR pDia lt grViz digraph boxes and circles a graph statement graph ov
在函数中使用 quit/q 会导致 RStudio 出现致命错误

更多的是好奇但当你使用时q or quit在 R studio 内的函数内部它会导致致命错误如下所示但 rgui 中的相同函数会导致 R 像往常一样停止并且仅使用q 在 RStudio 中按预期关闭 R 为什么q在函数中导致 RS
从 data.frame 中提取时用 NA 填充缺失的列

我有一个函数它将具有某些列的数据框作为输入 columns a b z 现在我有一个数据框DF只有很少的这些列DF columns f u z 如果列不在其中如何创建一个包含所有值为 NA 的列的数据框DF这与DF在柱子上 f u z

随机推荐

如何跟踪量角器正在等待哪些异步任务？

我有一个中型 Angular 应用程序由于某些原因我的一些量角器测试在我的实时生产环境中运行时超时我相当确定超时是由于量角器等待某些异步任务而发生的我了解区域并且我尝试将所有长时间运行的异步任务保留在 ngZone 之外根据th
如何让定时器准确？（Flash/ActionScript 3.0）

我使用以下方法以 X 次分钟发送声音 X 通过 bpm 确定它是一个 NumericStepper 对象 var mainTimer Timer new Timer 60 bpm value 1000 0 mainTimer addEv
使用 Visual Studio 2008 编辑 RDL 文件

我已在两个工作站上安装了 SQL Server 2008 Express 在一台工作站上它更新了 VS2008 安装以便我可以创建包含 rdl 文件格式的报告的报告项目在其他工作站上 VS2008只能创建编辑 rdlc文件报告编辑
string.Format() 给出“输入字符串的格式不正确”

我在这里做错了什么 string tmp if UseImageFiles vCalHeader td img src 0 cal fastreverse gif width 13px height 9 style border 1px s
Pandas Fillna 多列与每列众数

使用人口普查数据时我想将两列 workclass 和 native country 中的 NaN 替换为这两列各自的模式我可以轻松获得模式 mode df filter workclass native country mode 它返回
使用 Javascript 将禁用属性添加到输入元素

我有一个输入框我希望禁用它并同时隐藏它以避免移植表单时出现问题到目前为止我有以下代码来隐藏我的输入 shownextrow click function this closest tr next show find longboxsm
为什么通常的访问控制检查适用于通过模板参数访问时用于指定显式实例化的名称？

C 11 14 标准在注释 14 7 2 12 temp explicit 中声明了以下内容通常的访问检查规则不适用于用于指定的名称显式实例化注意特别是模板参数以及函数声明符中使用的名称包括参数类型返回类型和异常规范可以是私
如何将 React 与 Google Places API 结合使用，在 Google 地图上显示地点标记？

我正在尝试构建一个类似的地图您可以在拖动地图时查看地点标记我想在地图上显示来自 Google Places API 的酒店标记使用以下 JavaScript 代码谷歌地图 https developers google com m
如何从wireshark复制捕获的数据包的十六进制数据

这是例子这是捕获的数据包数据 00000000 00 6e 0b 00 n 00000004 4d 5a e8 00 00 00 00 5b 52 45 55 89 e5 81 c3 81 MZ REU 00000014 12 00 00
编译用于高放射性环境的应用程序

我们正在编译一个嵌入式 C 应用程序该应用程序部署在受各种环境干扰的屏蔽设备中电离辐射 https en wikipedia org wiki Ionizing radiation 我们正在使用 GCC 和 ARM 的交叉编译部署后我
Grails：编辑和删除链接不起作用

我创建了一个额外的列并在列表末尾添加了用于编辑和删除事件的图标这是我所拥有的
您可以根据活动隐藏布局中的元素（例如微调器）吗？

我正在开发我的应用程序它在一个视图中有 3 个旋转器我的一些活动需要使用 3 个旋转器有的 2 个有的 1 个所以我想根据活动隐藏它们如果可能的话我正在尝试这样做这样我就可以尽可能高效但我不知道这是否可能 Call set
Powershell Invoke-Webrequest w/ JSON Body - 无法反序列化...？

我需要使用特定格式的正文执行 Invoke Webrequest 以将设备添加到产品这是 json 的样子直接来自供应商文档的示例 body json datasource parentId 123456789000 name name
Notepad++ HTML Tidy 未知异常 Windows 7 x64

当我尝试从 NotePad v5 9 3 中的 TextFX 菜单运行 HTML Tidy 时出现以下错误找不到配置文件 C Program Files x86 Notepad plugins Config tidy HTMLTIDY
在同一表视图上使用两个不同的单元格标识符

我正在尝试删除缓存的 UITableView 单元格我有两个部分第二部分的第一单元具有与第一部分的第一单元相同的外观对于外观我指的是单元格高度多行单元格我尝试使用不同的标识符但没有成功这是代码 NSString ident
Azure Active Directory easy auth /.auth/me 的权限错误返回 401

我有一个 Python Flask 应用程序我使用 Azure Easy Auth Azure Active Directory 作为应用程序服务登录机制运行良好不过我想要登录用户的信息即姓名电子邮件等为此我知道我们可以致电
System.Exception 与 System.SystemException

System Exception 与 System SystemException 之间有什么区别 SystemException 通常保留给 NET 运行时框架使用而不是您的应用程序代码基本上在创建您自己的自定义异常类时不要从
Pandas：如何编辑 .csv 文件列中的值？

我有一个 csv 文件如下所示 link https i stack imgur com buFdW png 我想使用 pandas 打开此文件并编辑列协调向其中的每个值添加一个常数值 756 最后我希望更改反映在 csv 文件中我怎
如何获取对象属性的默认值？ [复制]

这个问题在这里已经有答案了一些代码 foreach System Reflection PropertyInfo pi in myObject GetType GetProperties if pi CanWrite object val
是否可以抓取特定主题的所有谷歌学术结果并且合法吗？

我有一些经验但没有网站编码经验并且认为我无法选择正确的 CSS 节点进行解析我相信 library rvest library xml2 library selectr library stringr library jsonlite

是否可以抓取特定主题的所有谷歌学术结果并且合法吗？

是否可以抓取特定主题的所有谷歌学术结果并且合法吗？ 的相关文章

随机推荐

热门标签

是否可以抓取特定主题的所有谷歌学术结果并且合法吗？的相关文章