Python 中动态表单的 Web Scraper

2023-12-10

我正在尝试填写该网站的表格http://www.marutisuzuki.com/Maruti-Price.aspx.

它由三个下拉列表组成。一是汽车型号，二是州，三是城市。前两个是静态的，第三个城市是根据州的值动态生成的，有一个 onclick java 脚本事件正在运行，它获取州中相应城市的值。

我熟悉Python中的mechanize模块。我发现几个链接告诉我我无法处理动态内容在机械化。但是这个链接http://toddhayton.com/2014/12/08/form-handling-with-mechanize-and-beautifulsoup/在“动态添加项目” 指出我可以使用 mechanize 来处理动态内容，但我不明白其中的这行代码

item = Item(br.form.find_control(name='searchAuxCountryID'),{'contents': '3', 'value': '3', 'label': 3})

这行代码对应表单中城市字段的“Item”是什么。我遇到了 selenium 模块，它可能会帮助我处理动态下拉列表。但我无法在其文档或任何关于如何使用它的好博客中找到任何内容。

有人可以建议我如何针对不同的型号、州和城市提交此表格吗？任何有关如何解决此问题的链接将不胜感激。有关如何提交表单的 Python 示例代码将会很有帮助。提前致谢。

如果您在开发人员工具中查看发送到该站点的请求，您将看到在您选择状态后就会立即发送 POST。发回的响应的表单中填充了城市下拉列表中的值。

因此，要在脚本中复制此内容，您需要类似以下内容：

打开页面
选择表格
选择模型和状态的值
提交表格
从发回的回复中选择表格
选择城市值（现在应该已填充）
提交表格
解析结果表的响应

那看起来像：

#!/usr/bin/env python                                                                                                                                                                

import re
import mechanize

from bs4 import BeautifulSoup

def select_form(form):
    return form.attrs.get('id', None) == 'form1'

def get_state_items(browser):
    browser.select_form(predicate=select_form)
    ctl = browser.form.find_control('ctl00$ContentPlaceHolder1$ddlState')
    state_items = ctl.get_items()
    return state_items[1:]

def get_city_items(browser):
    browser.select_form(predicate=select_form)
    ctl = browser.form.find_control('ctl00$ContentPlaceHolder1$ddlCity')
    city_items = ctl.get_items()
    return city_items[1:]

br = mechanize.Browser()
br.open('http://www.marutisuzuki.com/Maruti-Price.aspx')    
br.select_form(predicate=select_form)
br.form['ctl00$ContentPlaceHolder1$ddlmodel'] = ['AK'] # model = Maruti Suzuki Alto K10                                                                                              

for state in get_state_items(br):
    # 1 - Submit form for state.name to get cities for this state                                                                                                                    
    br.select_form(predicate=select_form)
    br.form['ctl00$ContentPlaceHolder1$ddlState'] = [ state.name ]
    br.submit()

    # 2 - Now the city dropdown is filled for state.name                                                                                                                             
    for city in get_city_items(br):
        br.select_form(predicate=select_form)
        br.form['ctl00$ContentPlaceHolder1$ddlCity'] = [ city.name ]
        br.submit()

        s = BeautifulSoup(br.response().read())
        t = s.find('table', id='ContentPlaceHolder1_dtDealer')
        r = re.compile(r'^ContentPlaceHolder1_dtDealer_lblName_\d+$')

        header_printed = False
        for p in t.findAll('span', id=r):
            tr = p.findParent('tr')
            td = tr.findAll('td')

            if header_printed is False:
                str = '%s, %s' % (city.attrs['label'], state.attrs['label'])
                print str
                print '-' * len(str)
                header_printed = True

            print ' '.join(['%s' % x.text.strip() for x in td])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

webcrawler

mechanize

Python 中动态表单的 Web Scraper 的相关文章

Python 中的字节数组

如何在 Python 中表示字节数组如 Java 中的 byte 我需要用 gevent 通过网络发送它 byte key 0x13 0x00 0x00 0x00 0x08 0x00 在Python 3中我们使用bytes对象也称为s
Flask+Nginx+uWSGI：导入错误：没有名为站点的模块

我安装为http www reinbach com uwsgi nginx flask virtualenv mac os x html http www reinbach com uwsgi nginx flask virtualenv
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

在 C# 中向 TabControl 选项卡添加按钮

我有一个 Windows 窗体中的 TabControl 我务实地添加了新选项卡如下所示 for int i 1 i lt numOfLanguages i add a tab for each language string tabTi
“剪切和粘贴” - 使用 Javascript 移动 DOM 中的节点

我的 html 代码大致如下 div div p some html p span maybe some more span div div p different text here p div div
Psycopg2 在类内自动重新连接

我有课程可以连接到我的数据库 import psycopg2 psycopg2 extensions from parseini import config import pandas as pd pandas io sql as sqli
包含其他字段作为外键的选择，Django

我有两个模型如下 class FlightSchedule models Model tail number models ForeignKey TailNumber null False blank False flight number
我使用 opencv python 形式将模拟时钟转换为数字数据的小时和分钟，但我也需要它显示秒数

我已经使用 opencv 来读取图像将其转换为灰度并使用 canny kernel thesh erode 等找到边缘并且我已经使用 HooughLineP 检测到图像中的所有线条并且我已经检测到时间和分针但我还需要找到秒针这是
imageButton1 类型的方法 setOnClickListener(new View.OnClickListener(){}) 未定义

我不断收到此错误消息但我不确定我应该做什么方法setOnClickListener new View OnClickListener 类型未定义imageButton1 public void onCreate Bundle saved
tomcat7 - jdbc 数据源 - 这很可能会造成内存泄漏

当 tomcat 关闭时我在 catalina out 日志文件中收到以下消息我正在使用 Tomcat 7 x 和 Tomcat JDBC 数据源 Mar 26 2013 1 17 52 PM org apache catalina l
Oracle：在文本字段中使用 IN 子句？ [复制]

这个问题在这里已经有答案了可能的重复如何在 oracle 9i 中最好地分割 csv 字符串我有一些遗留数据VARCHAR2 100 field SUBID具有逗号分隔的数据 empno subid 1 1 3 2 2 18 19 3
GUI 中的 Tkinter 函数打印

我做了一个带有 2 个 api 的程序显示用户选择的不同城市的天气预报和城市信息但现在我需要帮助因为我陷入了如何让我的 make request make requests 和 city data 在 GUI 中打印信息的困境我想我
将 fiddler 会话导出为 .jmx 以用于 JMeter 测试计划

是否有任何选项解决方法可以将 fiddler 跟踪文件导出为 jmx 文件以导入到 JMeter 中看看这个 http www perftesting co uk creating jmeter test plans with fidd
在 Xcode 上找不到框架 FirebaseInstanceID

我从 Xcode 收到以下错误尝试了互联网上的许多解决方案但没有用 ld framework not found FirebaseInstanceID 我尝试过的解决方案 https stackoverflow com a 312982
对 3D 箭袋函数进行颜色映射

我使用 Matplotlib 在 python 中创建了一个可爱的 3D 位移矢量场我对结果很满意然而从视觉上看仅从方向上看位移的大小并不是很容易 python中有没有一种方法可以使用箭头的色标以便位移的大小更清晰更明显这就是
WPF 线条、路径..等自定义绘图样式

在 WPF 中有一种方法可以修改任何路径的绘制方式Dash Dot序列假设我想为我正在绘制的任何路径或绘图路径本身上的小三角形波浪等绘制一条三重线我已经尝试过刷子但它不会遵循Path 请帮忙 thx WPF s Geometry类
ChunkedInput 在球衣中不起作用

任何人都可以帮助我为什么java代码有问题并一次性打印所有数据而不是将每个块打印为javascript代码 Java代码 import org glassfish jersey client ChunkedInput import java
chatDidReceiveMessage 方法未调用 QuickBlox

我在用QuickBlox iOS SDK用于聊天登录注册工作正常我也可以发送消息但委托方法 void chatDidReceiveMessage QBChatMessage message 没有接到电话这是我用来设置聊天的代码在
如何向 cmdlet 输出添加一列递增值？

假设我打电话Get Service并想要分配一个新列ID使用打印递增整数的 cmdlet 输出以便 ID Status Name DisplayName 0 Running AdobeARMservice Adobe Acrobat Up
MAMP PEAR 配置指向本地目录

我正在使用 MAMP 2 0 5 升级 PEAR 时遇到问题 MAMP 如何升级 PEAR 问题是 PEAR 始终安装在本地 PEAR 目录中而不是 MAMP PEAR 目录中我的 MAMP PEAR 配置如下 sudo Applic
WordPress MD5 密码

我需要通过 PHP 脚本或 MySQL 将用户插入到 Wordpress 博客中并且我有一个纯文本密码我想我可以做这样的事情 query INSERT INTO new db wp users user login user pass
将word文档解析为excel文件

我有一个 Word 文档其中包含我想要解析为 Excel 文件的数据源文件长达数百页我一直在使用 VBA 但我刚刚开始学习该语言并且在尝试输入 doc 文件时遇到了很多困难我已经能够使用Open和线路输入语句从 txt 文件中检索
Python 中动态表单的 Web Scraper

我正在尝试填写该网站的表格http www marutisuzuki com Maruti Price aspx 它由三个下拉列表组成一是汽车型号二是州三是城市前两个是静态的第三个城市是根据州的值动态生成的有一个 onclick

Python 中动态表单的 Web Scraper

Python 中动态表单的 Web Scraper 的相关文章

随机推荐

热门标签