使用 Python（或 R）提取 Google Scholar 结果

2024-03-26

我想使用 python 来抓取谷歌学术搜索结果。我找到了两个不同的脚本来做到这一点，一个是gscholar.py https://github.com/venthur/gscholar另一个是scholar.py（那个可以用作 python 库吗？）。

现在，我也许应该说我对 python 完全陌生，如果我错过了显而易见的事情，我很抱歉！

问题是当我使用gscholar.py正如自述文件中所述，我得到的结果是

query() takes at least 2 arguments (1 given).

即使我指定了另一个参数（例如gscholar.query("my query", allresults=True), I get

query() takes at least 2 arguments (2 given).

这让我很困惑。我还尝试指定第三个可能的参数（outformat=4;这是 BibTex 格式），但这给了我一个函数错误列表。一位同事建议我导入 BeautifulSoup 并this http://code.activestate.com/recipes/523047-search-google-scholar/在运行查询之前，但这也不会改变问题。有什么建议如何解决问题吗？

我找到了 R 的代码（参见link http://www.github.com/gimoya/theBioBucket-Archives/blob/master/R/Functions/GScholarScraper_3.1.R）作为解决方案，但很快就被谷歌屏蔽了。也许有人可以建议如何改进该代码以避免被阻止？任何帮助，将不胜感激！谢谢！

我建议您不要使用特定的库来抓取特定的网站，而是使用经过良好测试且具有良好格式文档的通用 HTML 库，例如 BeautifulSoup。

要使用浏览器信息访问网站，您可以使用带有自定义用户代理的 url opener 类：

from urllib import FancyURLopener
class MyOpener(FancyURLopener):
    version = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.152 Safari/537.36'
openurl = MyOpener().open

然后下载所需的url，如下：

openurl(url).read()

要检索学者结果，只需使用http://scholar.google.se/scholar?hl=en&q=${query} url.

要从检索到的 HTML 文件中提取信息，您可以使用这段代码：

from bs4 import SoupStrainer, BeautifulSoup
page = BeautifulSoup(openurl(url).read(), parse_only=SoupStrainer('div', id='gs_ab_md'))

这段代码提取了一个具体的div包含 Google 学术搜索结果页面中显示的结果数的元素。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python（或 R）提取 Google Scholar 结果的相关文章

Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
如何将 numpy rearray 的子集转换为连续数组？

我有一个recarray来自读取 csv 文件我有兴趣将列的子集转换为连续浮点数组我想避免将它们转换为列表或将它们一一堆叠我尝试了中的建议https stackoverflow com a 11792956 https stackov
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
使用pivot_longer将R中的多列变成一列[重复]

这个问题在这里已经有答案了我有一个dfpopulation看起来像这样未列出所有列和行 Region X1975 X1976 X1977 X2008 National Total 942420 93717 94974 132802 Be
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
从字典中绘制直方图

我创建了一个dictionary计算 a 中出现的次数list每个键的内容我现在想绘制其内容的直方图这是我想要绘制的字典的内容 1 27 34 1 3 72 4 62 5 33 6 36 7 20 8 12 9 9 10 6 11 5
优化 R 中的嵌套 for 循环

我尝试加速下面的代码但没有成功我读到Rfast https cran r project org web packages Rfast Rfast pdf包但我也未能实现该包有没有办法优化R中的以下代码 RI lt function
如何仅注释堆积条形图的一个类别

我有一个数据框示例如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
Django 1.7 应用程序配置导入错误：没有名为 appname.apps 的模块

我正在尝试按照以下文档为我的一个名为文章的 Django 应用程序设置自定义应用程序配置https docs djangoproject com en dev ref applications https docs djangoproj
Python：“直接”调用方法是否实例化对象？

我是 Python 新手在对我的对象进行单元测试时我注意到一些奇怪的东西 class Ape object def init self print ooook def say self s print s def main Ape
抑制 R 中的错误消息

我正在 R 中运行模拟研究有时我的模拟研究会产生错误消息当我在函数中实现模拟研究时当出现此错误消息时模拟停止我知道抑制错误是不好的做法但此时对我来说除了抑制错误然后继续下一个模拟直到达到我喜欢运行的模拟总数为止没有其他选择
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
Python 或 C 语言中的 Matlab / Octave bwdist()

有谁知道 Matlab Octave bwdist 函数的 Python 替代品此函数返回给定矩阵的每个单元格到最近的非零单元格的欧几里得距离我看到了一个 Octave C 实现一个纯 Matlab 实现我想知道是否有人必须用 AN
如何在 Python 中跟踪日志文件？

我想在 Python 中提供 tail F 或类似内容的输出而无需阻塞或锁定我找到了一些非常旧的代码来做到这一点here http code activestate com recipes 436477 filetailpy 但我认为现
R lubridate：当地语言的工作日

如何获取本地语言的工作日和月份 My code library lubridate data lt c 10 02 2015 11 03 2015 data lubri lt dmy data wday data lubri label T
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
Python matplotlib：将轴标签/图例从粗体更改为常规粗细

我正在尝试制作一些出版质量的图但遇到了一个小问题默认情况下 matplotlib 轴标签和图例条目的权重似乎比轴刻度线重是否有办法强制轴标签图例条目与刻度线的重量相同 import matplotlib pyplot as plt
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
使用 Numpy 进行多维批量图像卷积

在图像处理和分类网络中一个常见的任务是输入图像与一些固定滤波器的卷积或互相关例如在卷积神经网络 CNN 中这是一种极其常见的操作我已将通用版本任务减少为 Given 一批 N 个图像 N H W D 和一组 K 个滤镜 K H W
PYTHON：从 txt 文件中删除 POS 标签

我有以下 txt 文件其中包含 POS 词性 http en wikipedia org wiki Part of speech tagging 每个单词的标签不用 jj到说 vb 我 ppss是 bedz愤怒 jj在在 dt无与伦

随机推荐

Excel 加载项失败并显示 0x8004063E

我有一个 Excel 添加它曾经完美地工作最近许多客户收到以下错误在这个问题的最后环境详情 Windows 7 8 64 位微软 Office 2013 64 位 Add in是在 net 3 5下编译的任何帮助将不胜感激 H
Scala 模板将样式应用于 inputText 的标签 [Play 2 HTML5 辅助标签]

我正在使用带有输入助手的 scala 模板我使用的类属性应用样式
C# - Silverlight 中 .NET ArrayList.ToArray(Type) 的替换

下面是我编写的一个简单方法非常简化所以我希望它仍然能够理解要点用于获取字符串中数组元素的字符串表示形式并将它们转换为这些值的实际数组 t 是数组的类型 DeserializeArray string sArrayElements o
在 Tomcat 上安装 Sonar 和 Jenkins

我有一个 tomcat 服务器我想在上面安装 Jenkins 和 Sonar 我使用的是 debian 发行版因此我通过 apt get 获得了 tomcat6 和 Jenkins 当我将 jenkins war 复制到 tomcat6
python：从程序运行交互式 python shell

我经常遇到这样的情况我将编写一个脚本并且我正在编写脚本的一部分我想以交互方式使用一些变量到达该部分需要运行我已经编写的脚本的大部分在这种情况下从 shell 内部运行该程序并非易事我必须以某种方式重新创建该函数的条件我想做的
为什么这不能是一个原始的？

我正在摆弄 JavaScript 并注意到this永远不可能是原始的我在说什么让我解释以这个函数为例 function test return typeof this test call Abc object test call 12
MVP 观点到底有多蠢？

我正在尝试学习 MVP 但有些事情让我困惑如果Presenter使用视图作为界面那么View就不能只是控件的简单渲染想象一下尝试编写一个打字练习游戏其中单词是随机生成到 UI 中的用户必须在单词从屏幕上落下时输入单词所以视图将
以编程方式搜索 GMail？

有没有什么方法可以以编程方式搜索 GMail 最好使用 C 例如我想获取与搜索匹配的所有电子邮件标签 MyLabel 来自电子邮件受保护 cdn cgi l email protection 以便我可以根据需要解析电子邮件正文我发现的
鼠标悬停在绝对定位的 div 上触发

客观的当将鼠标悬停在表格单元格上时表格单元格的右上角会出现一个小的放大镜图标将鼠标悬停在放大镜图标上并单击它将打开一个对话框窗口以显示有关特定表格单元格中的项目的详细信息我想为数百个表格单元重复使用相同的图标而不是每次都重新创建
以编程方式将库导入到 Databricks 中的工作区

我想以编程方式添加一个 Python Wheel 库到 SharedDatabricks 上的工作区在 GUI 中工作区 gt 导入 gt 库很容易做到但我不知道如何在 Databricks CLI 中做到这一点所以我想我有两种可
如何删除solidity中的数组项

我正在尝试删除 Solidity 数组中的某个项目我正在探索一些文章 https ethereum stackexchange com questions 1527 how to delete an element at a certai
获取 Linux 中 Windows 路径的基本名称

假设我有一个包含 Windows 文件地址的字符串比方说 local address C TEMP filename txt 从我使用的上述地址检索文件名 import os filename os path basename local
如何计算按 toshortdatestring 分组的表的行数？

我们有一个具有以下结构的数据库 public partial class ChartData public int Id get set public DateTime Timestamp get set public string Fun
java.lang.NoClassDefFoundError：com.google.android.gms.ads.AdView

我正在编写一段代码来在我的 Android 应用程序中显示 Admob 横幅为了实现这一目标我做了以下一些调整配置的谷歌播放服务库如下 https developers google com mobile ads sdk docs h
在 Whatsapp Business Cloud api 中向多个收件人发送消息

有没有一种方法可以在一个发布请求中向多个收件人发送消息与我发送用分号分隔的电子邮件的方式相同 WhatsApp Business Cloud API 中没有选项可以一次性向多个电话号码发送消息您必须一一发送或通过循环发送消息
React Material-UI 禁用处理程序中的按钮

尝试在用户单击按钮后禁用该按钮但通过处理程序函数我参考过这两个类似的问题 React Material UI 禁用时如何为按钮提供自定义颜色 https stackoverflow com questions 55586626 reac
ASP.NET FileUpload：选择文件后如何自动回发？

我正在开发 ASP NET 应用程序在 FileUpload 控件中选择文件后我需要回发到服务器而不必让用户显式单击提交按钮这可能吗如果是这样怎么办我假设您想立即开始上传如果是这样您应该对此做出反应changeJava
在 C++ 中访问父命名空间

我有一个类似以下的场景 class criterion stuff about criteria namespace hex class criterion public criterion does not compile This sh
双精度数据类型的简单数学运算比浮点数据类型更快？ [复制]

这个问题在这里已经有答案了可能的重复 C 中的双精度数比浮点数快吗 https stackoverflow com questions 158889 are doubles faster than floats in c 我编写了简单的基
使用 Python（或 R）提取 Google Scholar 结果

我想使用 python 来抓取谷歌学术搜索结果我找到了两个不同的脚本来做到这一点一个是gscholar py https github com venthur gscholar另一个是scholar py 那个可以用作 python 库

使用 Python（或 R）提取 Google Scholar 结果

使用 Python（或 R）提取 Google Scholar 结果 的相关文章

随机推荐

热门标签

使用 Python（或 R）提取 Google Scholar 结果的相关文章