使用 pandas/beautiful soup 抓取表数据（而不是慢的 Selenium？），BS 实现不起作用

2024-06-18

我正在尝试抓取该网站上的网络数据，而我能够访问数据的唯一方法是迭代表的行，将它们添加到列表中（然后将它们添加到 pandas 数据框/写入csv），然后单击下一页并重复该过程 [每次搜索大约 50 页，我的程序执行 100 多个搜索]。它非常慢/效率低下，我想知道是否有一种方法可以使用 pandas 或 beautiful soup 有效地添加所有数据，而不是迭代每行/列。

url = "https://claimittexas.org/app/claim-search https://claimittexas.org/app/claim-search"

rows = driver.find_elements_by_xpath("//tbody/tr")
    try:
        for row in rows[1:]:
            row_array = []
            #print(row.text) # prints the whole row
            for col in row.find_elements_by_xpath('td')[1:]:
                row_array.append(col.text.strip())
            table_array.append(row_array)
        df = pd.DataFrame(table_array)
        df.to_csv('my_csv.csv', mode='a', header=False)
    except:
        print(letters + "no table exists")

编辑：我尝试使用美丽的汤进行刮擦，这是我在本周早些时候尝试过并发布的内容，但如果不使用硒，我似乎无法访问该表

在 bs 版本中，我放入了一堆 print 语句来查看出了什么问题，并且 rows 值只是一个空列表

html = driver.page_source
soup = BeautifulSoup(html, 'lxml')
rows = soup.find('table').find('tbody').find_all(('tr')[1:])
for row in rows[1:]:
    cells = row.find_all('td')
    for cell in cells[1:]:
        print(cell.get_text())

在 BS4 代码实现中使用这一行

rows = soup.find('table').find('tbody').find_all('tr')[1:]

代替

rows = soup.find('table').find('tbody').find_all(('tr')[1:])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

selenium

NumPy

seleniumwebdriver

beautifulsoup

使用 pandas/beautiful soup 抓取表数据（而不是慢的 Selenium？），BS 实现不起作用的相关文章

熊猫计算唯一行

我有一个类似于以下内容的 pandas 数据框 ColA ColB 1 1 1 1 1 1 1 2 1 2 2 1 3 2 我想要一个具有相同功能的输出Counter https docs python org 2 library coll
如何使用 python 和 re 匹配和删除维基百科引用

from bs4 import BeautifulSoup import requests import time import keyboard import re def searchWiki search input What do
Pandas 列值介于另一个数据帧列的值之间

我有两个 pandas 数据框如下所示 import pandas as pd import numpy as np import string size 5 student names join np random choice lis
生成多边形内的坐标

我想将多边形的值分组到一个精细的规则网格中例如我有以下坐标 data 2 353 data lats np array 57 81000137 58 15999985 58 13000107 57 77999878 data lons
使用 df.to_csv 时如何保留字符串数据

我创建了一个看起来像这样的数据框其中包含如下的股票行情列 date 2018 03 30 0001 2018 03 29 0001 2018 03 28 0001 运行大约需要 10 分钟因此完成后我使用 df to csv 创建一个文
Pandas：使用数据帧的多列作为另一个数据帧的索引

我有一个包含我的数据的大型数据框以及另一个具有相同第一维度的数据框其中包含有关每个时间点的元数据例如试验编号是什么试验类型是什么我想要做的是使用元数据帧的值对大数据帧进行切片我想将它们分开而不是将数据数据帧存储为较大数据
如何将 selenium 2 PageFactory init Elements 与 Wait.until() 一起使用？

下面的代码片段工作正常但我在使用时遇到了一些问题wait until line wait until new ElementPresent By xpath a title Go to Google Home 它有效但我想发送我的Pag
Pandas 解析 csv 错误 - 预期 1 个字段，找到 9 个字段

我正在尝试从 csv 文件解析 planets pd read csv planets csv sep 但我总是会遇到这个错误 ParserError Error tokenizing data C error Expected 1 fie
使用 pd.Grouper() 获取第一个和最后一个元素

我有一个时间序列我将其重新采样为 5s 窗口如下所示 INDEX size price 2018 05 07 21 53 13 731 0 365127 9391 800000 2018 05 07 21 53 16 201 0 666
熊猫不工作：DataFrameGroupBy；面板分组依据

我刚刚升级了 python 但无法让 pandas 正常运行请参见下文似乎没有任何效果回溯最近一次调用最后一次文件 Library Frameworks Python framework Versions 3 8 lib pyth
Pandas：根据除一行之外的其他多级列对最里面的列进行分组排序

这是我的扩展previous question https stackoverflow com questions 65021214 pandas sort innermost column group wise based on othe
pandas 替换列子集的空值

我有一个包含许多列的数据框例如 df name salary age title John 100 35 eng Bill 200 NaN adm Lena NaN 28 NaN Jane 120 45 eng 我想替换工资和年龄中的空值
使用 CSS 选择器和 BeautifulSoup 获取属性值

我正在抓取网页Python并使用BeutifulSoup library I have HTML像这样的标记 tr class deals span class hotel name a href www example2 com a sp
如何融化数据框以获取范围内的所有日期？

我有一个这样的数据集 import pandas as pd pd DataFrame col1 1 2 start date 1 3 2019 1 10 2019 end date 1 5 2019 1 12 2019 我想为开始日期和结
从 ElementFinder 数组创建 ElementArrayFinder

这是一个后续问题当条件评估为 true 时获取元素扩展 ElementArrayFinder https stackoverflow com questions 32572299 take elements while a conditi
selenium webdriver 管理器更新 - npm

我尝试使用 webdriver manager 更新 selenium webdriver 但出现错误 Error Got error Error read ECONNRESET from https selenium release st
Scipy - 求矩阵列空间的基数

我正在尝试编写一个简单的单纯形算法其第一步是找到一个基本的可行解决方案选择 A 的线性独立列的一组 B 将 x 中与不在 B 中的列相对应的所有分量设置为零求解 m 个所得方程以确定 x 的分量这些是基本变量我知道解决方案将涉及使
如何使用 python 绘制具有两个斜率的线

我使用下面的代码绘制一条具有两个斜率的线如图所示斜率应该在一定限制 limit 5 之后下降我正在使用矢量化方法来设置斜率值还有其他方法来设置斜率值有人可以帮助我吗 import matplotlib pyplot as plt
Pandas 如何删除包含所需字符串的行

我想删除包含所需字符串的所有行假设我有以下数据框 A B C 1 a x w g n 3 l p j p v 我想删除包含字符串的所有行p 我已经搜索过它但大多数答案都是基于列名称就我而言我不会知道它可以出现在任何列中输出数据帧应
编写适用于 ndarray 和 MaskedArray 的通用数值函数的最佳实践

有没有比以下更漂亮的方式 import numpy as np from numpy import ma def foo x pkg ma if isinstance x ma MaskedArray else np return pkg

随机推荐

旋转后，精灵和矩形位置在 Libgdx 中未对齐

我有以下代码其中紧密映射的精灵矩形和多边形在 libgdx 中以相同角度旋转旋转后矩形与精灵不对齐虽然精灵在绘制时会旋转但旋转后坐标和尺寸保持不变矩形的情况并非如此请参阅下面的代码和结果图 public void rotate
使用 bootstrap 渲染的 Django FilteredSelectMultiple 小部件

我正在尝试复制FilteredSelectMultipledjango 应用程序管理中使用的小部件但我的小部件呈现非常不同管理中的小部件使用Django 套装 http djangosuit com or django admin bo
使用非规范地址检索内存数据会导致 SIGSEGV 而不是 SIGBUS

我无法使用以下汇编代码产生总线错误这里我使用的内存地址不是合法的规范地址那么我怎样才能触发该错误呢我在带有 NASM 2 14 02 的 Ubuntu 20 04 LTS 下运行这段代码但它会导致负载出现 SIGSEGV 分段
获取的属性名称值

如何使用 jQuery 获取输入标记的属性名称值请帮忙
接近堆限制的无效标记压缩分配失败 - JavaScript 堆内存不足

我正在使用 Angular 7 2 当我进入ng serve 我面临以下问题致命错误接近堆限制的无效标记压缩分配失败 JavaScript 堆内存不足这意味着什么我该如何解决这个问题完整的错误消息是 FATAL ERROR Ine
在java中的super调用之前创建一个对象

考虑到简单的java代码是行不通的 public class Bar extends AbstractBar private final Foo foo new Foo bar public Bar super foo 我需要在之前创建一个
ASP.NET Webform 中的异常处理

在 ASP NET Webforms 中处理异常的首选方法是什么你有Page Error您添加的方法我认为 web config级别并且当发生错误时整个站点将被重定向到该级别这是否意味着您不应在 Web 表单应用程序中的任何位置使用
如何从 S3 中删除名称为空的文件

不知何故使用 AWS Java API 我们成功地将一个没有名称的文件上传到 S3 如果我们运行该文件就会显示s3cmd ls s3 myBucket MyFolder 但未显示在 S3 GUI 中 Running s3cmd del s
Xcode 6.1“Xcode 调试器中内置的 Swift REPL 可以检查和操作正在运行的应用程序”不起作用

对于 Xcode 6 1 更新点之一是 Xcode 调试器内置的 Swift REPL 可以检查和操作你的跑步应用程序我创建了空项目在 viewDidLoad 中设置了一个断点当应用程序在断点处停止时我在 Xcode 控制台中输入
创建费用前验证 CVC 代码

我正在尝试检查用户输入的 cvc 代码我已经存储了条带 customer id 和条带 card id 我想在向用户收费之前验证 CVC 代码以下是创建费用的代码 charge Stripe Charge create amount g
向多个 EC2 实例发送 AWS CloudWatch 警报

我想要应用 CloudWatch 警报来停止我们的预生产环境中未使用的实例我们经常会遇到实例被启动使用然后保持打开状态这确实开始花费我们相当多的钱 CloudWatch 警报有一个方便的功能我们可以根据一些指标停止这太棒了我想用
如何用C语言创建字典？

我正在用 C 语言编写一个微控制器作为它的一部分我想在 7 段显示器上显示某些字母每个字母都有一个对应的数字使 7 段显示屏显示该字母它没有真正的模式因为数字只是通过将显示字母所需的 7 段显示器上的位相加而成因此如果我可以创
iOS7 XIB 问题。顶部和底部的空白

我有一个正在设置 ImageView 的视图自动布局已选中预览中看起来不错但当应用程序实际在模拟器上运行时仅在 iPhone 视网膜 4 英寸模拟器中顶部和底部显示空白 3 5寸的看起来还不错使用 iOS7 和 XCODE 5
在 Angular 5 中使用 jquery 插件

我正在尝试在 Angular 5 项目中使用以下日期选择器但我不确定如何导入它 https bootstrap datepicker readthedocs io en latest index html https bootstrap
javaFX helloworld jar 无法在不同平台上运行

我对 JavaFX 很陌生不确定是否有人知道我做错了什么这是场景在win 7上使用netbeans 8和jdk1 8 0 05创建了一个helloworld jar 在 win 7 上 java jar helloworld jar
媒体查询跨帧泄漏

这是一些 HTML The test html页面包含一些来自外部文件的 CSS 样式表有 media all and max width 600px body background color red 上面是简化的但足以说明问题两个页
如何在 DB2 AS/400 中将小数字段转换为日期字段？

我有一个 DECIMAL 字段其中包含 AS400 格式的日期 1100614 我努力了 cast MYDATE as DATE 但我无法将 DECIMAL 转换为 DATE 而 DATE MYDATE 返回空值如何将此字段转换为日期字
如何在C#中使用默认浏览器打开带有锚点(#)的html文件

我正在尝试在 C 中打开上下文帮助文件当我没有指定锚点时它工作得很好 Process Start C Help Help htm 但是当我指定锚点时它不会打开 Process Start C Help Help htm Toc3420
纯CSS代码，没有绝对定位

我试图想出一个纯CSS代码就像你在电视上看到的那样仅not粘在屏幕底部我已经找到了涉及 JS 的东西但我正在努力避免 JS 我还发现了一些其他人创建的纯 CSS 代码但这些的问题在于它们都使用position absolute 这
使用 pandas/beautiful soup 抓取表数据（而不是慢的 Selenium？），BS 实现不起作用

我正在尝试抓取该网站上的网络数据而我能够访问数据的唯一方法是迭代表的行将它们添加到列表中然后将它们添加到 pandas 数据框写入csv 然后单击下一页并重复该过程每次搜索大约 50 页我的程序执行 100 多个搜索它非常慢

使用 pandas/beautiful soup 抓取表数据（而不是慢的 Selenium？），BS 实现不起作用

使用 pandas/beautiful soup 抓取表数据（而不是慢的 Selenium？），BS 实现不起作用 的相关文章

随机推荐

热门标签

使用 pandas/beautiful soup 抓取表数据（而不是慢的 Selenium？），BS 实现不起作用的相关文章