抓取和解析多页（aspx）表

2024-04-09

我正在尝试搜集有关灰狗比赛的信息。例如，我想刮http://www.gbgb.org.uk/RaceCard.aspx?dogName=Hardwick%20Serena http://www.gbgb.org.uk/RaceCard.aspx?dogName=Hardwick%20Serena。此页面显示了狗 Hardwick Serena 的所有结果，但它分为几个页面。

检查页面，它显示在“下一页”按钮下：

<input type="submit" name="ctl00$ctl00$mainContent$cmscontent$DogRaceCard$lvDogRaceCard$ctl00$ctl03$ctl01$ctl12" value=" " title="Next Page" class="rgPageNext">.

我希望有一个 HTML 链接，可以用于下一次抓取迭代，但没有成功。通过查看网络流量进行进一步检查，发现浏览器为 __VIEWSTATE 等发送了一个非常长的（散列？）字符串。可能保护数据库？

我正在寻找一种方法来抓取一只狗的所有页面，或者通过迭代所有页面，或者通过增加页面长度以在第 1 页上显示 100 多行。底层数据库是 .aspx。

我正在使用 Python 3.5 和 BeautifulSoup。

当前代码：

    import requests
    from   bs4 import BeautifulSoup

    url = 'http://www.gbgb.org.uk/RaceCard.aspx?dogName=Hardwick%20Serena'

    with requests.session() as s:
        s.headers['user-agent'] = 'Mozilla/5.0'

        r    = s.get(url)
        soup = BeautifulSoup(r.content, 'html5lib')

        target = 'ctl00$ctl00$mainContent$cmscontent$DogRaceCard$btnFilter_input'

        data = { tag['name']: tag['value'] 
            for tag in soup.select('input[name^=ctl00]') if tag.get('value')
        }
        state = { tag['name']: tag['value'] 
            for tag in soup.select('input[name^=__]')
        }

        data.update(state)

        numberpages = int(str(soup.find('div', 'rgWrap rgInfoPart')).split(' ')[-2].split('>')[1].split('<')[0])
        # for page in range(last_page + 1):

        for page in range(numberpages):
            data['__EVENTTARGET'] = target.format(page)
            #data['__VIEWSTATE'] = target.format(page)
            print(10)
            r    = s.post(url, data=data)
            soup = BeautifulSoup(r.content, 'html5lib')

            tables = soup.findChildren('table')
            my_table = tables[9]
            rows = my_table.findChildren(['th', 'tr'])

            tabel = [[]]
            for i in range(len(rows)):
                 cells = rows[i].findChildren('td')
                 tabel.append([])
                 for j in range(len(cells)):
                     value = cells[j].string
                     tabel[i].append(value)

            table = []
            for i in range(len(tabel)):
                if len(tabel[i]) == 16:
                    del tabel[i][-2:]
                    table.append(tabel[i])

在这种情况下，对于每个请求的页面POST使用表单 url 编码参数发出请求__EVENTTARGET & __VIEWSTATE :

__VIEWSTATE可以很容易地从input tag
__EVENTTARGET每个页面的值都不同，并且该值是从每个页面链接的 javascript 函数传递的，因此您可以使用正则表达式提取它：
```
<a href="javascript:__doPostBack('ctl00$ctl00$mainContent$cmscontent$DogRaceCard$lvDogRaceCard$ctl00$ctl03$ctl01$ctl07','')">
    <span>2</span>
</a>
```

python脚本：

from bs4 import BeautifulSoup
import requests
import re

# extract data from page
def extract_data(soup):
    tables = soup.find_all("div", {"class":"race-card"})[0].find_all("tbody")

    item_list = [
        (
            t[0].text.strip(), #date
            t[1].text.strip(), #dist
            t[2].text.strip(), #TP
            t[3].text.strip(), #StmHCP
            t[4].text.strip(), #Fin
            t[5].text.strip(), #By
            t[6].text.strip(), #WinnerOr2nd
            t[7].text.strip(), #Venue
            t[8].text.strip(), #Remarks
            t[9].text.strip(), #WinTime
            t[10].text.strip(), #Going
            t[11].text.strip(), #SP
            t[12].text.strip(), #Class
            t[13].text.strip()  #CalcTm
        )
        for t in (t.find_all('td') for t in tables[1].find_all('tr'))
        if t
    ]
    print(item_list)

session = requests.Session()

url = 'http://www.gbgb.org.uk/RaceCard.aspx?dogName=Hardwick%20Serena'

response = session.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# get view state value
view_state = soup.find_all("input", {"id":"__VIEWSTATE"})[0]["value"]

# get all event target values
event_target = soup.find_all("div", {"class":"rgNumPart"})[0]
event_target_list = [
    re.search('__doPostBack\(\'(.*)\',', t["href"]).group(1)
    for t in event_target.find_all('a')
]

# extract data for the 1st page
extract_data(soup)

# extract data for each page except the first
for link in event_target_list[1:]:
    print("get page {0}".format(link))
    post_data = {
        '__EVENTTARGET': link,
        '__VIEWSTATE': view_state
    }
    response = session.post(url, data=post_data)
    soup = BeautifulSoup(response.content, "html.parser")
    extract_data(soup)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

抓取和解析多页（aspx）表的相关文章

Python Tweepy：Twitter Api 说 /users/lookup 不存在

我正在制作一个研究应用程序研究具有高权威的 Twitter 用户之间的交互其中一部分是提取有关用户的信息我使用 Tweepy for Python 构建了一个应用程序过去 2 天我一直在提取用户信息没有出现任何问题突然提出这样的
OutOfRangeError（请参阅上面的回溯）：FIFOQueue '_1_batch/fifo_queue' 已关闭并且元素不足（请求 32，当前大小 0）

我在使用队列中张量流读取图像时遇到问题请让我知道我犯了什么错误下面是代码 import tensorflow as tf slim tf contrib slim from tensorflow python framework imp
如何检查当前日期并移至下一个日期

我遇到了一个我似乎无法理解的 python 问题不确定是否需要使用 if 语句但因为我是 python 新手所以我实际上不确定如何编写这个小问题事实上这就是我遇到的问题对于出发日历我希望 python 能够执行以下操作查看
Python 的“platform.mac_ver()”报告不正确的 MacOS 版本

我正在使用Pythonplatform module https docs python org 3 library platform html要识别 MacOS 版本如下所示 import platform print platform
Python3 类型错误：replace() 参数 1 必须是 str，而不是 int

我已经尝试了几天让这段代码在 MacOS 上运行但没有成功你能看一下我错过了什么吗运行 python 3 6 我已经上传了整个代码多谢 usr bin env python3 from future import print fun
如何使用 QWebView 显示 html。 Python？

如何在控制台中显示 HTML 格式的网页 import sys from PyQt4 QtGui import QApplication from PyQt4 QtCore import QUrl from PyQt4 QtWebKit i
参数太少错误，同时未使用参数占位符

我尝试使用 PYODBC 在 Access 数据库中执行 SQL 查询但出现以下错误 pyodbc Error 07002 07002 Microsoft ODBC Microsoft Access 驱动程序参数太少预期为 1 301
Selenium 上的切换窗口

我在 Python 中使用 Selenium 和 PhantomJS 我需要打开一个新窗口并控制它出于测试目的我这样做 from selenium import webdriver driver webdriver PhantomJS
有效地写入 pandas 中的多个相邻列

使用 numpy ndarray 可以一次写入多个列而无需先进行复制只要它们相邻如果我想写入数组的前三列我会写 a 0 0 3 1 2 3 this is very fast a is a numpy ndarray 我希望在 pa
如何列出静态链接的 python 版本中可用的所有 openssl 密码？

在python 2 7 8到2 7 9升级中 ssl模块从使用更改为 DEFAULT CIPHERS DEFAULT aNULL eNULL LOW EXPORT SSLv2 to DEFAULT CIPHERS ECDH AESGCM D
Tkinter：通过多处理启动进程会创建不需要的新窗口

我计划围绕数值模拟编写一个小型 GUI 这就是我现在使用 Tkinter 的原因模拟应在单独的进程中从 GUI 启动为了玩一下我定义了一个函数 random process 来生成成对的 randn 数字这应该是一个真正的模拟过程
创建 df 以生成给定格式的 json

我正在尝试生成一个 df 来生成下面的 json Json数据 name flare children name K1 children name Exact size 4 name synonyms size 14 name K2 chi
我无法设置顶级标题

我想为 TopLevel 设置标题但 TopLevel 显示 Root 的标题我认为我的下一个脚本与 TkInter 文档中的示例相对应但给了我不好的结果你能解释一下为什么我的设置master title 顶部 in 应用程序顶部
如何更改Python使用的SQLite版本？

我在 Debian 9 12 上安装了 Python 3 8 和 SQLite 3 16 2 并且需要升级到较新版本的 SQLite 我已经下载并编译了 SQLite 网站上提供的合并并将其放入 usr bin 所以当我这样做时 sqli
Pandas 使用什么规则来生成视图和副本？

我对 Pandas 在决定数据帧中的选择是原始数据帧的副本或原始数据帧的视图时使用的规则感到困惑例如如果我有 df pd DataFrame np random randn 8 8 columns list ABCDEFGH index
如何使用 SymPy 求给定一阶导数的 n 阶导数？

Given some f and the differential equation x t f x t how do I compute x n t in terms of x t For example given f x t sin
了解字典的深度

假设我们有这个字典 d a 1 b c 了解嵌套的最直接方法是什么depth of it 您需要创建一个递归函数 gt gt gt def depth d if isinstance d dict return 1 max map dept
使用条件在 pandas 数据框中生成新列

我有一个 pandas 数据框如下所示 portion used 0 1 1 0 1 2 0 3 2 3 0 0 3 4 0 8 我想根据以下内容创建一个新专栏used列以便df看起来像这样 portion used alert 0 1
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
如何在Python中显示坐标网格线的变换？

假设我有常规的笛卡尔坐标系 x y 并且我考虑一个矩形网格区域 D 分成小方块我想看看域 D 如何在 Python 中的坐标变换 T x y gt u x y v x y 下映射我正在寻找这样的东西 See here https mat

随机推荐

从网络浏览器中检测和访问 USB 设备 - 即使用插件

是否可以通过插件 activeX Java 或 Flex 编写一个能够检测从 USB 设备通道读取数据流的浏览器插件我做了一些研究但没有找到答案 http support microsoft com kb 832678 http sup
如何向 Visual Studio 2017 或 Visual Studio 2019 注册“自定义工具”以使其正常工作？

背景我们有一个定制工具 https msdn microsoft com en us library bb166817 aspx它接受 xml 输入并生成 cs 输出自定义工具需要注册 https learn microsoft com
从 mysql 迁移后 postgres 数据库不工作

我在sequelize中将MySQL数据库更改为postgreSQL 但是迁移后我对表或模型中的大小写首字母有问题在我的 MySQL 版本正常工作之前但在迁移之后我收到错误消息 500 SequelizeDatabaseError re
Django HTML 截断

我正在使用内置截断words html https docs djangoproject com en dev ref templates builtins from olddocs truncatewords htmlDjango 的过滤
连接二维数组

我有两个数组 mat1 和 Mat2 我想要 new mat ma1 mat2 我写了一个可以运行的函数我想知道是否有一个适用于非常大的矩阵的有效函数或者如何使用 Array CopyTo 方法来做到这一点 public static d
太多带有 unicode 文本的 UILabels

我有180UILabels 子视图UITableViewCells 在 iPad 应用程序中每个宽度为 155 X 155UILabel 并且每个都包含大量的 Unicode 文本阿拉伯语当我向下滚动时TableView它挂起 1 秒
SQL 查询查找车站之间的火车

这是我的火车时刻表我想要一个车站之间火车的解决方案 Train Code 15609 ABC 15609 XYZ 15609 PQR 15609 ADI 15609 QWE 15609 XPM 15609 IND 15680 ABC 15
如何在haml模板中的coffescript中的ruby代码中使用本地或实例变量

我是 Rails 的新手并面临着复杂的问题试图在 Haml 模板的 CoffeeScript 中的 ruby 辅助方法中使用变量这是我在 haml 中的代码 coffee input field blur gt input input
Maven 依赖插件：复制依赖项：排除单个工件

我需要从 maven dependency plugin copy dependencies 中排除单个工件在文档上 https maven apache org plugins maven dependency plugin copy
set 和 freezeset 的继承行为似乎不同

有人可以解释以下行为 class derivedset1 frozenset def new cls args return frozenset new cls args class derivedset2 set def new cls
在 vscode 中找不到 python 调试适配器 - WSL:Ubuntu

我正在尝试使用 vscode 调试 python 脚本远程WSL https marketplace visualstudio com items itemName ms vscode remote remote wsl使用 Python
如何显示本地h2数据库的内容（Web控制台）？

最近我加入了一个新团队这里的人使用 h2 进行存根服务我想知道是否可以使用网络界面显示该数据库的内容在工作中可以通过访问localhost 5080 我有一个使用 h2 数据库的项目但是当我点击时我看不到 h2 Web 控制台lo
如何将证书作为秘密存储在AWS秘密管理器中？如何使用 AWS appSync 解析器在 https 调用中传递该秘密？

我需要从 AWS dynamoDB 和第三方 httpd 服务获取元素并将这些结果合并到 AWS appSync 中并将结果作为 graphQL 响应发回我正在使用的第三方服务需要客户端证书我没有找到有关如何使用 AWS appSy
拍照之前必须启动预览模式

我们使用 cwac camera 在我们的应用程序中获取这样的堆栈跟踪 java lang IllegalStateException Preview mode must have started before you can take a
使用 Python 更改 XML 文件中包含的文本的最佳方法是什么？

假设我有一个名为 MyData xml 的现有简单 XML 文件其中包含以下内容
使用 xscreensaver 编写屏幕保护程序的提示和技巧？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 几个月来我一直在做一些简单的 Ope
SiteMesh：更改响应的内容类型

我试图说服 SiteMesh 装饰器更改响应的内容类型但没有任何乐趣内容类型最终总是与装饰后的 JSP 相同而不是装饰器的内容类型例如假设我有一个带有标头的 JSP 我还有一个 SiteMesh 装饰器 JSP 它定义了以下内容
groupby.first() 和 groupby.head(1) 有什么区别？

两者都返回每组第一行的 DataFrame 在阅读 API 参考时它首先说计算第一组值但是当并排查看两个输出时我没有发现重大差异我错过了什么吗 df pd DataFrame id 1 1 1 2 2 3 3 3 3 4 4 5
iPhone - 在 UITextfield 下面显示错误消息的最佳方式是什么[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我有一个包含许多 UITextfields 如名称密码电子邮件等的表单在验证过程中我想显示相应文本字段下方字段的错误消息做这个的最好
抓取和解析多页（aspx）表

我正在尝试搜集有关灰狗比赛的信息例如我想刮http www gbgb org uk RaceCard aspx dogName Hardwick 20Serena http www gbgb org uk RaceCard aspx d

抓取和解析多页（aspx）表

抓取和解析多页（aspx）表 的相关文章

随机推荐

热门标签

抓取和解析多页（aspx）表的相关文章