谷歌搜索网络抓取与Python中的关键字列表

2024-01-08

我正在尝试通过使用名称列表作为输入并在 DataFame 中获取数据集来在 Google 搜索上进行网络抓取。我之前使用 selenium 进行网页抓取，但我在构建语法时遇到了困难使用循环运行名称列表作为输入得到结果并scrape每一页。下面是我的 Python 代码：

baseUrl = 'https://www.google.com/search?q='
pluseUrl = input('CEO: ')    
url = baseUrl + quote_plus(pluseUrl)

browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
browser.get(url)

table = browser.find_elements_by_css_selector('div.ifM9O') 

df = pd.DataFrame(columns = ['ceo', 'value'])
values =[]


for row in table:
    ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''")
    value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''")

ceo = pd.Series(ceo)
value = pd.Series(value)

df = df.assign(**{'ceo': ceo, 'value': value}) 


print(df)

这是将比尔·盖茨作为输入后的结果：

CEO: Bill gates
          ceo                                              value
0  Bill Gates  Born: October 28, 1955 (age 64 years), Seattle...

任何建议或建议将不胜感激。

尝试这个：

baseUrl = 'https://www.google.com/search?q='
browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
input_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]
output = {}

def scrape_ceo_list(list_of_ceo):
     for ceo in list_of_ceo:
          browser.get(baseUrl + ceo)

          // query selectors, dataframes etc as per original code
          // ...

          output[ceo] = df

output现在是一个数据框字典，以 CEO 姓名作为字典键。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

forloop

webscraping

谷歌搜索网络抓取与Python中的关键字列表的相关文章

celery任务eta已关闭，使用rabbitmq

我使用教程中的默认设置和在 ubuntu 上运行的rabbitmq 使 Celery 任务正常进行当我毫不延迟地安排任务时一切都很好但是当我给他们一个预计时间时他们会被安排在未来就好像我的时钟在某个地方关闭了一样下面是一些请求任
在二维数组中进行所有可能的组合

我正在尝试制作具有所有可能组合的 4x4 16 像素黑白图像数组我制作了以下数组作为模板 template 0 0 0 0 start with all white pixels 0 0 0 0 0 0 0 0 0 0 0 0 然后我想迭
在 SQLAlchemy 中，过滤器是在连接之前还是之后应用？

使用 SQLAlchemy 我执行如下查询 import models as m import sqlalchemy as sa s session maker q s query m ShareCount m Article join m
学习Python中的解析器

我记得我读过有关解析器的内容您只需提供一些示例行它就知道如何解析某些文本它只是确定两条线之间的差异以了解可变部分是什么我以为它是用 python 写的但我不确定有谁知道那是什么图书馆吗可能你的意思是模板制作器 http co
有什么好的适用于 Google App Engine 应用程序的 AJAX 框架吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试在我的 Google App Engine 应用程序中实现 AJAX 因此我正在寻找一个好的
使用ideone时如何传入命令行参数？

我正在使用 ideone 在线解释器 http ideone com http ideone com 来测试一些 C 和 Python 程序如何指定命令行参数而不是使用 STDIN 输入看起来你不能但是快速破解应该做的伎俩 stati
是否可以在 IPython 控制台中显示 pandas 样式？

是否可以显示熊猫风格 https pandas pydata org pandas docs stable user guide style html在 iPython 控制台中 Jupyter 笔记本中的以下代码 import panda
在 python 中发送标头[重复]

这个问题在这里已经有答案了我有以下 python 脚本我想发送假标头信息以便我的应用程序就像 Firefox 一样运行我怎么能这么做呢 import urllib urllib2 cookielib username passw
pandas 数据框的最大大小

我正在尝试使用读取一个有点大的数据集pandas read csv or read stata功能但我不断遇到Memory Errors 数据帧的最大大小是多少我的理解是只要数据适合内存数据帧就应该没问题这对我来说不应该是问题还
lmfit模型拟合然后预测

我正在领养lmfit进行曲线拟合并使用拟合模型进行预测然而下面的代码并没有达到我想要的效果能否请你帮忙谢谢 import numpy as np from lmfit import Model def linearModel x a0
matplotlib：渲染到缓冲区/访问像素数据

我想使用 matplotlib 生成的图作为 OpenGL 中的纹理到目前为止我遇到的 matplotlib 的 OpenGL 后端要么不成熟要么已经停止使用所以我想避免使用它们我当前的方法是将图形保存到临时 png 文件中并从
使用 python 从 CSV 创建字典

我有一个 CSV 格式的文件其中 A B 和 C 是标题我如何以Python方式将此CSV转换为以下形式的字典 A 1 B 4 C 7 A 2 B 5 C 8 A 3 B 6 C 9 到目前为止我正在尝试以下代码 import csv
中断/退出嵌套在 vb.net 中

如何摆脱 vb net 中的嵌套 for 或循环我尝试使用 exit for 但它只跳转或中断了一个 for 循环我怎样才能做到以下几点 for each item in itemList for each item1 in itemL
为什么 pip 已经是最新的了却要求我升级？

我全新安装了 python 3 7 1 64 位并使用最新的 pyCharm 作为我的 IDE 我在这台机器上没有安装其他 python 我去安装 numpy 并收到以下消息 venv C Users John PycharmProjec
使用具有可变数量索引的 numpy mggrid

如何将 numpy mgrid 与可变数量的索引一起使用我在 github 上找不到任何人将其与硬编码值以外的任何内容一起使用的示例 import numpy as np np mgrid 1 10 1 10 this works fin
在Python中随机交错2个数组

假设我有两个数组 a 1 2 3 4 b 5 6 7 8 9 我想将这两个数组交错为变量 c 注意 a 和 b 不一定具有相同的长度但我不希望它们以确定性的方式交错简而言之仅仅压缩这两个数组是不够的我不想要 c 1 5 2 6 3
为数据集生成随机 JSON 结构排列

我想生成 JSON 结构的许多不同排列作为同一数据集的表示最好不需要对实现进行硬编码例如给定以下 JSON name smith occupation agent enemy humanity nemesis neo 应该产生许多不同
尝试 numba 时出现巨大错误

我在使用 numba 时遇到了大量错误讽刺的是正确的结果是在错误之后打印的我正在使用最新的 Anaconda python 并安装了 numba conda install numba 一次在 Ubuntu 13 64 位和 anac
如何仅读取 CSV 文件每行的第一列 [重复]

这个问题在这里已经有答案了如何在Python中读取CSV文件每行的第一列我的数据是这样的 1 abc 2 bcd 3 cde 我只需要循环第一列的值另外当我在 calc 中打开 csv 文件时每行中的数据都在同一个单元格中这正常
在Python中使用os.makedirs创建目录时出现权限问题

我只是想处理上传的文件并将其写入工作目录中该目录的名称是系统时间戳问题是我想以完全权限创建该目录 777 但我不能使用以下代码创建的目录755权限 def handle uploaded file upfile cTimeStamp

随机推荐

文件搜索索引的算法问题

有一个问题我也有解决方案但我无法理解解决方案请提供一些示例并提供一些经验 Question 给定一个包含大约 3 亿个社会安全号码 9 位数字的文件查找文件中没有的 9 位数字您拥有无限的驱动器空间但只有 2MB 的 RAM
如何将 Google One Tap 登录与 django-allauth 集成？

如何将 Google One Tap 登录体验与 django allauth 集成 django allauth 是集成的非常适合简单的用户名密码登录我拥有 Google OneTap 更好的用户体验可以识别用户经过身份验证的 G
从 Leaps regsubsets 获取所有模型

我使用 regsubsets 来搜索模型是否可以自动创建所有lm从参数选择列表中 library leaps leaps lt regsubsets y x1 x2 x3 data nbest 1 method exhaustive su
如何将 json 编码的 PHP 数组转换为 Javascript 中的数组？ [复制]

这个问题在这里已经有答案了我正在使用 AJAX 从 PHP 文件中获取 JSON 编码的数组但在 JavaScript 中我需要将其用作数组如何在 Javascript 中创建数组我对 PHP 文件的 AJAX 调用 ajax ty
如何在 Spinner 中选择项目并将其用作字符串？

只是想看看我是否可以找出如何在微调器中选择项目并将其存储在字符串中我已经看到了有关此问题的其他帖子人们说将此行放入代码中在我在下面发布的代码的最后一行下面 String Genders Gender getSelectedItem t
将代码分配给动态创建的按钮

我正在尝试获取一个在 Excel 用户表单上动态创建的按钮来运行名为的宏transfer我写过的Module 1我的项目的模块部分下面我将迄今为止编写的代码粘贴到用户窗体中该窗体实际上设法创建了Transfer to Sheet框架
“创建用户”怎么写？使用 MySQL 准备好的语句

I tried SET user foo localhost SET pass bar SET sql CREATE USER IDENTIFIED BY PREPARE stmt FROM sql 我得到错误 ERROR 1064 420
FastAI lrfind()方法无法正常工作

Update 1 我根据无论坡度如何你都希望从该点返回 10 倍更新了我的 lr 并将其设置为 max lr 切片 1e 3 1e 2 这就是我得到的和情节这是什么意思正如您在第二张图中看到的那样从 1e 08 开始损失就非常
为什么 JUnit 中不推荐使用assertEquals(double,double)？

我想知道为什么assertEquals double double 已弃用 I used import static org junit Assert assertEquals 我使用的是 JUnit 4 11 下面是我的代码 import
返回指向本地结构的指针

我看到一些具有如下结构的代码示例 type point struct x y int func newPoint point return point 10 20 我有 C 背景这对我来说似乎是错误这种构造的语义是什么新的点是分配在栈
在行内插入表格

我编写了一个包含两个表的脚本 tbl1是一个主表 tbl2是我想插入到的第二个表tbl1第二行使用纯JavaScript 它工作完美但是我的tbl2有一些html attribute 插入后看到代码时没有看到 note tbl1 and
如何用 PHP 解析 phpDoc 风格的注释块？

请考虑以下代码我尝试仅解析文件中的第一个 phpDoc 样式注释不使用任何其他库出于测试目的将文件内容放入 data 变量中 data file A lot of info about this file Could even co
为包含集合的对象实现 GetHashCode()

考虑以下对象 class Route public int Origin get set public int Destination get set 路由实现相等运算符 class Routing public List
术语“Update-Database”未被识别为 cmdlet 的名称

我正在使用 EF5 beta1 虽然我之前能够运行更新数据库现在我关闭了 Visual Studio 我无法让它运行我收到以下错误术语更新数据库不被识别为 cmdlet 函数脚本文件或可操作程序的名称检查名称的拼写或者如果
解释 sed、grep 和 cut 语法

我正在分析一个批处理文件其中有一行编辑文本文件输入并制作 txt 文件输出该批处理使用三个帮助tools exe grep sed and cut 我尝试阅读他们的使用手册但这并不容易该行是 type input txt se
带有“-std=c++0x”的“#include ”已损坏

如果我指定 std c 0x到 g 那么我不能 include
CSS 性能和实现较少

将 LESS 用于 CSS 的最佳方法是什么基本上开发人员应该编写一个 Less 文件然后将其编译用于生产我应该链接 LESS 代码和 javascript 文件吗或者我应该完全跳过 LESS 路线并重新制作课程我正在尝试将一些
如何使用 HTML 父子关系中的 2 个 Svelte 组件将数据从子级传递到父级

我是 Svelte 的新手我在 HTML 父子关系中有 2 个 Svelte 组件而不是 Svelte P C 关系其中 1 个 Svelte 组件导入另一个组件最终我想要这样的东西可能有很多 Accs
如何在elasticsearch中使用Query DSL找到最近/最近的数字

我正在寻找在弹性搜索的帮助下找到最近的价格号码的可能性问题是我没有范围我想要实现的是结果按最近距离排序根据示例搜索查询我的索引包含 3 个文档其价格数字如下 45 27 32 对于给定数字距我的搜索值 29 的距离是
谷歌搜索网络抓取与Python中的关键字列表

我正在尝试通过使用名称列表作为输入并在 DataFame 中获取数据集来在 Google 搜索上进行网络抓取我之前使用 selenium 进行网页抓取但我在构建语法时遇到了困难使用循环运行名称列表作为输入得到结果并scrape每一页下

谷歌搜索网络抓取与Python中的关键字列表

谷歌搜索网络抓取与Python中的关键字列表 的相关文章

随机推荐

热门标签

谷歌搜索网络抓取与Python中的关键字列表的相关文章