使用 Python 进行 Google 搜索网页抓取 [关闭]

2024-05-24

最近为了工作中的一些项目，学习了很多python。

目前我需要使用谷歌搜索结果进行一些网络抓取。我发现几个网站演示了如何使用 ajax google api 进行搜索，但是在尝试使用它之后，它似乎不再受支持。有什么建议么？

我已经寻找了很长一段时间来寻找方法，但似乎找不到任何当前有效的解决方案。

您始终可以直接抓取 Google 结果。为此，您可以使用 URLhttps://google.com/search?q=<Query>这将返回前 10 个搜索结果。

然后你可以使用lxml http://lxml.de例如解析页面。根据您使用的内容，您可以通过 CSS 选择器查询生成的节点树（.r a）或使用 XPath 选择器（//h3[@class="r"]/a)

在某些情况下，生成的 URL 将重定向到 Google。通常它包含一个查询参数q其中将包含实际的请求 URL。

使用 lxml 和请求的示例代码：

from urllib.parse import urlencode, urlparse, parse_qs

from lxml.html import fromstring
from requests import get

raw = get("https://www.google.com/search?q=StackOverflow").text
page = fromstring(raw)

for result in page.cssselect(".r a"):
    url = result.get("href")
    if url.startswith("/url?"):
        url = parse_qs(urlparse(url).query)['q']
    print(url[0])

关于谷歌禁止您的IP的说明：根据我的经验，谷歌只禁止如果你开始向谷歌发送垃圾邮件搜索请求。它会回应如果 Google 认为您是机器人，则返回 503。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

googlesearch

googlesearchapi

使用 Python 进行 Google 搜索网页抓取 [关闭] 的相关文章

如何有效地从连续字符串中提取文字单词？ [复制]

这个问题在这里已经有答案了可能的重复如何将没有空格的文本拆分为单词列表 https stackoverflow com questions 8870261 how to split text without spaces into li
只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
Spyder 导入模块出错

我正在尝试在 Spyder 中使用 sklearn 一开始当我尝试导入它时我收到 ImportError No module named sklearn 然后我用 PYTHONPATH 管理器设置 PATH 然后使用工具菜单中的更新模
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a

随机推荐

本地提交推送到中央服务器

在工作中我们使用 perforce 并被鼓励定期对其进行承诺我对此很满意然而我想运行像 Mercurial 这样的东西这样我就可以在本地提交正在进行的工作并且不一定编译运行的东西然后从中定期提交到中央 perforce 服务器
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
无法从 HBase 导出表

我无法将表从 HBase 导出到 HDFS 下面是错误跟踪它的尺寸相当大还有其他方法可以导出吗我使用下面的命令来导出我增加了 rpc 超时但作业仍然失败 sudo u hdfs hbase Dhbase rpc timeout 10
如何在JasperReport中插入分页符

我有一个 JasperReports 模板带有填充的细节带如果我运行该报告我的页数为 27 27 个详细信息行我希望详细信息行号 12 以新页面开始因此我必须在页数 11 之后插入分页符但我找不到 pagebreak 元素它在
WebCore::UserGestureIndicator::processingUserGesture 中的 EXC_BAD_ACCESS (SIGSEGV)

我有一个使用 UIWebView 和 HTML5 websockets 构建的 iOS 应用程序该应用程序经历了看似随机的崩溃它发生在用户与其交互时以及在用户和应用程序之间没有发生交互的寿命测试期间崩溃日志都有以下内容 Excepti
如何有效地计算另一列中每个元素的较大元素的数量？

我有以下内容df name created utc 0 t1 cqug90j 1430438400 1 t1 cqug90k 1430438400 2 t1 cqug90z 1430438400 3 t1 cqug91c 143043840
如何将登录哈希 bcrypt 更改为 hash256

我正在尝试更改 Laravel 中的哈希值所以我在 RegisterController 中使用 salt 定制了 SHA256 注册完成但如何更改登录信息 protected function create array data sal
PostgreSQL 强制使用小写名称？

刚刚开始通过C和libpq在linux上学习PostgreSQL 9 1 现在我检查连接连接创建数据库创建表和其他基本内容但我注意到在创建表期间 PQ 将我的数据库名称转换为小写然后我看到表名和字段名也被强制小写但是当我尝试连
如何隐藏或删除 Android HoneyComb 中的状态栏？

如何隐藏或删除 Android HoneyComb 中的状态栏每次运行应用程序时我都会发现某些内容必须被状态栏覆盖我尝试改变AndroidManifest xml 但没有任何改变你不知道它被认为是永久的屏幕装饰就像电容式主页菜
在 Android Studio 中打开上次关闭的选项卡

我是 Android Studio 的新手想知道是否有任何快捷方式选项可以重新打开上次关闭的选项卡没有分配快捷方式但您可以轻松分配新的快捷方式 Go to IDE settings Keymap Main menu Window E
如何运行 Mike Bostock 的 D3 示例？

我一直在尝试经营迈克博斯托克透视地球仪 http bl ocks org mbostock 6747043例如但是如果您尝试在本地重现它则对其 json 文件的引用是不正确的问题来自于这行代码 d3 json mbostock raw
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees
Puppet 3 文件递归速度非常慢

我在 Amazon Linux 2012 09 上使用 Puppet 3 我的清单之一设置并重新配置了一些目录其中一项任务只是将文件夹所有者和组递归更改为另一个用户然而这需要 60 秒以上才能完成并且目录中几乎没有任何内容终端中的
Python模糊字符串匹配作为相关样式表/矩阵

我有一个文件其中包含 x 个字符串名称及其关联的 ID 本质上是两列数据我想要的是一个格式为 x by x 的相关样式表将相关数据作为 x 轴和 y 轴但我想要 fuzzywuzzy 库的函数 fuzz ratio x y 作为输出
如何将System.Windows dll添加到Visual Studio 2010 Express？

我正在开发一个小型应用程序C and VS2010 as IDE with NET框架4 我想用CaptureSource类以便从笔记本电脑的网络摄像头捕获视频为此我需要添加一个命名空间System Windows DependencyO
Cq5.5 将 servlet 过滤器应用于特定路径

我正在 cq5 5 中开发自定义表单处理程序一切都很顺利我现在正在努力锁定一些安全性我的任务之一是对表单处理程序路径实施请求限制过滤器目前我有类似的东西 Component immediate true metatype true
GET Ajax 在响应中返回 html 代码而不是 json 对象

我有一个 ajax get 请求如下所示我正在使用 Nodejs Express 向 openshift 中的 server js 发出 GET 请求但是我在响应方法中获取 html 内容而不是 json 对象这两个请求都是针对同
R 连接到主机时出错

我已经安装了 R 3 0 2 和包KEGGREST 在使用它的命令时我收到以下错误函数错误类型消息 asError TRUE 无法连接到主持人使用 internet2 选项后我可以很好地从互联网安装软件包该选项使用来自 In
如何从 Access 数据库中读取“是/否”值作为布尔值？

帮我找回YES NO来自 MS Access 的布尔格式数据类型我尝试解析它但它总是返回 false 更新实际上不是问题抱歉它确实接受 YES NO 作为布尔值 OleDbconnection dbConnect new OleDb
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几

使用 Python 进行 Google 搜索网页抓取 [关闭]

使用 Python 进行 Google 搜索网页抓取 [关闭] 的相关文章

随机推荐

热门标签