如何在python中向.aspx页面提交查询

2024-04-26

我需要从 .aspx 网页中抓取查询结果。

http://legistar.council.nyc.gov/Legislation.aspx http://legistar.council.nyc.gov/Legislation.aspx

url 是静态的，那么如何向该页面提交查询并获取结果呢？假设我们需要从相应的下拉菜单中选择“所有年份”和“所有类型”。

那里一定有人知道如何做到这一点。

总而言之，您需要执行四项主要任务：

向网站提交请求，
从站点检索响应
解析这些响应
使用与导航关联的参数（到结果列表中的“下一页”）在上述任务中迭代一些逻辑

http 请求和响应处理是使用 Python 标准库中的方法和类完成的urllib http://docs.python.org/library/urllib.html and urllib2 http://docs.python.org/library/urllib2.html。 html页面的解析可以使用Python的标准库来完成HTML解析器 http://docs.python.org/library/htmlparser.html或与其他模块一起使用，例如美丽的汤 http://www.crummy.com/software/BeautifulSoup/

以下代码片段演示了在问题中指示的站点上请求和接收搜索的过程。该站点是 ASP 驱动的，因此我们需要确保发送多个表单字段，其中一些字段具有“可怕”的值，因为 ASP 逻辑使用这些字段来维护状态并在某种程度上验证请求。确实提交了。请求必须与http POST 方法因为这是该 ASP 应用程序所期望的。主要困难在于识别 ASP 期望的表单字段和关联值（使用 Python 获取页面是简单的部分）。

这段代码是函数式的，或者更准确地说，was功能，直到我删除了大部分 VSATE 值，并且可能通过添加注释引入了一两个拼写错误。

import urllib
import urllib2

uri = 'http://legistar.council.nyc.gov/Legislation.aspx'

#the http headers are useful to simulate a particular browser (some sites deny
#access to non-browsers (bots, etc.)
#also needed to pass the content type. 
headers = {
    'HTTP_USER_AGENT': 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.13) Gecko/2009073022 Firefox/3.0.13',
    'HTTP_ACCEPT': 'text/html,application/xhtml+xml,application/xml; q=0.9,*/*; q=0.8',
    'Content-Type': 'application/x-www-form-urlencoded'
}

# we group the form fields and their values in a list (any
# iterable, actually) of name-value tuples.  This helps
# with clarity and also makes it easy to later encoding of them.

formFields = (
   # the viewstate is actualy 800+ characters in length! I truncated it
   # for this sample code.  It can be lifted from the first page
   # obtained from the site.  It may be ok to hardcode this value, or
   # it may have to be refreshed each time / each day, by essentially
   # running an extra page request and parse, for this specific value.
   (r'__VSTATE', r'7TzretNIlrZiKb7EOB3AQE ... ...2qd6g5xD8CGXm5EftXtNPt+H8B'),

   # following are more of these ASP form fields
   (r'__VIEWSTATE', r''),
   (r'__EVENTVALIDATION', r'/wEWDwL+raDpAgKnpt8nAs3q+pQOAs3q/pQOAs3qgpUOAs3qhpUOAoPE36ANAve684YCAoOs79EIAoOs89EIAoOs99EIAoOs39EIAoOs49EIAoOs09EIAoSs99EI6IQ74SEV9n4XbtWm1rEbB6Ic3/M='),
   (r'ctl00_RadScriptManager1_HiddenField', ''), 
   (r'ctl00_tabTop_ClientState', ''), 
   (r'ctl00_ContentPlaceHolder1_menuMain_ClientState', ''),
   (r'ctl00_ContentPlaceHolder1_gridMain_ClientState', ''),

   #but then we come to fields of interest: the search
   #criteria the collections to search from etc.
                                                       # Check boxes  
   (r'ctl00$ContentPlaceHolder1$chkOptions$0', 'on'),  # file number
   (r'ctl00$ContentPlaceHolder1$chkOptions$1', 'on'),  # Legislative text
   (r'ctl00$ContentPlaceHolder1$chkOptions$2', 'on'),  # attachement
                                                       # etc. (not all listed)
   (r'ctl00$ContentPlaceHolder1$txtSearch', 'york'),   # Search text
   (r'ctl00$ContentPlaceHolder1$lstYears', 'All Years'),  # Years to include
   (r'ctl00$ContentPlaceHolder1$lstTypeBasic', 'All Types'),  #types to include
   (r'ctl00$ContentPlaceHolder1$btnSearch', 'Search Legislation')  # Search button itself
)

# these have to be encoded    
encodedFields = urllib.urlencode(formFields)

req = urllib2.Request(uri, encodedFields, headers)
f= urllib2.urlopen(req)     #that's the actual call to the http site.

# *** here would normally be the in-memory parsing of f 
#     contents, but instead I store this to file
#     this is useful during design, allowing to have a
#     sample of what is to be parsed in a text editor, for analysis.

try:
  fout = open('tmp.htm', 'w')
except:
  print('Could not open output file\n')

fout.writelines(f.readlines())
fout.close()

初始页面的获取就到此为止了。如上所述，然后需要解析页面，即找到感兴趣的部分并适当地收集它们，并将它们存储到文件/数据库/任何地方。这项工作可以通过多种方式完成：使用 html 解析器或 XSLT 类型的技术（实际上是在将 html 解析为 xml 之后），甚至对于粗略的工作，使用简单的正则表达式。此外，通常提取的项目之一是“下一个信息”，即某种链接，可以在对服务器的新请求中使用以获取后续页面。

这应该能让您大致了解“长手”html 抓取的含义。还有许多其他方法可以实现此目的，例如专用实用程序、Mozilla (FireFox) GreaseMonkey 插件中的脚本、XSLT...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在python中向.aspx页面提交查询的相关文章

使用信号时出现 django TransactionManagementError

我有一个与 django 的用户和 UserInfo 一对一的字段我想订阅用户模型上的 post save 回调函数以便我也可以保存 UserInfo receiver post save sender User def saveUse
如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行

由于我想删除 html 网站中重复的占位符因此我使用 BeautifulSoup 的 next sibling 运算符只要重复项位于同一行就可以正常工作参见数据但有时它们之间有一个空行所以我希望 next sibling 忽略它
通过鼻子测试检查某个函数是否发出警告

我正在使用编写单元测试nose http somethingaboutorange com mrl projects nose 0 11 2 我想检查函数是否引发警告该函数使用warnings warn 这是很容易就能做到的事情吗 def
使用opencv计算深度视差图

我无法使用 opencv 从视差图计算深度我知道两个立体图像中的距离是用以下公式计算的z baseline focal disparity p 但我不知道如何使用地图计算视差我使用的代码如下为我提供了两个图像的视差图 import n
Python 字典 - 在 2 个字符的字符串中查找第二个字符，该字符产生最小值

我想提交密钥的第一部分并返回该密钥的剩余部分以最小化值并从第一部分开始例如 d ab 100 ac 200 ad 500 如果我要进去 a I would like to return b min d s s for s in d i
Pyinstaller --onefile 警告文件已存在但不应存在

跑步时Pyinstaller onefile 并开始得到结果 exe 会出现多个弹出窗口并显示以下警告 WARNING file already exists but should not C Users myuser AppData L
Selenium：等到 WebElement 中的文本发生变化

我在用着selenium使用Python 2 7 从网页上的搜索框检索内容搜索框动态检索结果并在框本身中显示结果 from selenium import webdriver from selenium webdriver common
如何在 Asp.net Gridview 列中添加复选框单击事件

我在 asp 中有一个 gridview 其中我添加了第一列作为复选框列现在我想选择此列并获取该行的 id 值但我不知道该怎么做这是我的 Aspx 代码
向 Python 2.6 添加 SSL 支持

我尝试使用sslPython 2 6 中的模块但我被告知它不可用安装OpenSSL后我重新编译2 6 但问题仍然存在有什么建议么您安装了 OpenSSL 开发库吗我必须安装openssl devel例如在 CentOS 上在
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
如何从数据框的单元格中获取值？

我构建了一个条件从我的数据框中提取一行 d2 df df l ext l ext df item item df wn wn df wd 1 现在我想从特定列中获取一个值 val d2 col name 但结果我得到一个包含一行和一列
有没有任何方法可以使用 openpyxl 获取 .xlsx 工作表中存在的行数和列数？

有没有任何方法可以使用 openpyxl 获取 xlsx 工作表中存在的行数和列数在xlrd中 sheet ncols sheet nrows 将给出列数和行数 openpyxl中有这样的方法吗给定一个变量sheet 可以通过以下方式之
dropdownlist DataTextField 由属性组成？

有没有一种方法可以通过 C 使 asp net 中的下拉列表的 datatextfield 属性由对象的多个属性组成 public class MyObject public int Id get set public string Nam
向量化 numpy bincount

我有一个 2d numpy 数组 A我要申请np bincount 到矩阵的每一列A生成另一个二维数组B由原始矩阵每列的 bincounts 组成A 我的问题是 np bincount 是一个采用一维数组的函数它不是像这样的数组方法B A
如何将 pytest 装置与 django TestCase 一起使用

我如何在TestCase方法类似问题的几个答案似乎暗示我的例子应该有效 import pytest from django test import TestCase from myapp models import Category py
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego
为什么使用 HTTP 动词？

因为动词的目标是像 server domain getallrecords 或 server domain delete1record 或类似的 URL 而getallrecords delete1record都是专门为特定目的而设计的为
如何使用 Python 将我的 GoPro Hero 4 相机直播连接到 openCV？

我在尝试从我的新 GoPro Hero 4 相机捕获实时流并使用 openCV 对其进行一些图像处理时遇到麻烦这是我的试用创建的窗口上没有显示任何内容 import cv2 import argparse import time imp
Selenium Python 使用代理运行浏览器[重复]

这个问题在这里已经有答案了我正在尝试编写一个非常简单的脚本该脚本从 txt 文件获取代理不需要身份验证并用它打开浏览器然后沿着代理列表循环此操作一定次数我确实知道如何打开 txt 文件并使用它我的主要问题是让代理正常工作我见
python中匹配3个或更多相同的字符

我正在尝试使用正则表达式在字符串中查找三个或更多相同的字符例如你好不匹配噢会的我尝试过做类似的事情 re compile 1 3 a zA Z re compile w 1 5 但似乎都不起作用 w 1 2 是您正在寻找的正则表

随机推荐

mod_pagespeed 有什么作用？

这是参考 http googlecode blogspot com 2011 01 go daddy makes web faster by enabling html http googlecode blogspot com 2011 0
使用 DataStax Java 驱动程序 1.0.4 通过 CQL 连接到 Cassandra 时出现异常

我的笔记本电脑上运行的是 Cassandra 1 2 11 我可以使用连接到它nodetool and cqlsh但是当我尝试使用 DataStax 1 0 4 Java API 来使用 CQL 3 0 进行连接时出现以下错误 com d
使用 libjpeg 编写 jpeg（段错误）

尝试使用 libjpeg 从一些原始数据写入 jpeg 文件它会触发分段错误jpeg start compress 这是代码的相关部分 void write sub image char filename int start int en
Android 在屏幕上定位元素

我有一个列表视图当用户按下按钮时我想收集按钮的坐标并将编辑文本放置在屏幕上的按钮上方当用户单击屏幕上的任何其他位置时编辑文本将消失并且它将触发一个使用用户在框中输入的数据的方法我该如何去做这样的事情呢我想要类似于 Quick
将 MySQL 查询的输出转换为 utf8

我的数据库中有一个表我想运行如下查询 SELECT column1 column2 FROM my table WHERE my condition 但我希望 mysql 返回column2以utf8编码 mysql中有什么函数可以完成这
重命名目录，现在 SVN 不允许我提交

我有一个名为 old dir 的目录一个 Maven 项目我通过在 Tortoisesvn 中执行 svn 重命名将名称更改为新目录如果你执行 svn status 我会看到它在新目录上完成了 SVN add 并在旧目录上完成了 sv
C：静态结构[重复]

这个问题在这里已经有答案了我对 C 相当陌生正在查看一些代码来了解哈希我发现一个文件包含以下代码行 include
iPhone：通过互联网连接到数据库？

我一直在和某人谈论 iPhone 开发合同工作的可能性目前我真正知道的是有一家公司想要制作一款 iPhone 应用程序该应用程序将访问其内部数据库我不确定数据库类型是什么 Oracle MySQL 等我想知道数据库类型是 Orac
在 Android Studio 3.0.1 中使用不带背景色或 xml 的 Image Asset 创建启动器图标

您可能会认为这个问题是重复的this https stackoverflow com questions 37085753 android studio image asset launcher icon background color一
Item 不包含带有 0 个参数的构造函数

此代码的 new Form1 部分此代码位于我的 Main cs 中不断给出此错误 HomeInventory2 Form1 不包含采用 0 个参数的构造函数 private void cDsToolStripMenuItem Clic
Ruby 中判断变量是哈希还是数组的优雅方法是什么？

检查什么 some var是我正在做一个 if some var class to s Hash 我确信有一种更优雅的方法来检查是否 some var is a Hash or an Array 你可以这样做 some var class
PHP 与 Java 程序通信

我们在公司遇到了一个问题我正在努力寻找最佳解决方案最近购买的软件利用 Java 程序来获取特定货物的税费需要这个的网站是用 PHP4 编写的两者之间如何沟通有人建议使用文件来通信但速度非常慢因为每次都需要重新编译 Java 程
使用流式 JSON 输出构建简单的 Nodejs API

我正在尝试构建一个简单的基于 Node js 的流 API 我想做的就是当我点击服务器 URL 时输出应该流式传输一组测试数据 JSON 如 Twitter 流 API var app require express var server
无论事件添加的顺序如何，如何强制 Javascript 事件首先运行？

我有人们在他们的页面中包含的 Javascript 在我的 Javascript 中我有一个 jQuery 版本为了方便参考为 1 8 它被分成自己的命名空间并通过全局变量引用但不是或 jQuery 这两个默认变量之一这允许用
Android-Amplify：使用 Amplify 将文件上传到 AWS S3/从 AWS S3 下载文件

我想开发一个简单的 Android 应用程序来将图像文件上传到 AWS 中已创建的 S3 存储桶如果我用谷歌搜索所有最新的AWS文档都会将我重定向到使用Amplify https docs amplify aws lib restapi
构建“平面”而不是“树”LINQ 表达式

我正在使用一些代码可用here https web archive org web 20160221084142 http blogs msdn com 80 b alexj archive 2009 03 26 tip 8 writin
我可以使用 redux-saga 的 es6 生成器作为 websockets 或 eventsource 的 onmessage 监听器吗？

我正在尝试让 redux saga 与onmessage听众我不知道为什么我所拥有的不起作用我有以下设置 sagas js import take put from redux saga import transactions from
为什么在没有显式调用 repaint() 的情况下连续异步调用paintComponent()？

所以这个问题有两个部分我认为可能是相关的而且大多是抽象的简而言之这就是我正在做的事情我有一个JFrame with a JPanel还有一些child JPanels每个有 3 个JButtons在上面我还创建了一个JCompo
如何从伪元素 -internal-input-suggested 中删除样式？

从版本来看76 0 3809 100在 Google Chrome 中我有一个新的伪元素来自动完成输入我想要自动完成功能但我需要默认删除样式 div style display block important email protec
如何在python中向.aspx页面提交查询

我需要从 aspx 网页中抓取查询结果 http legistar council nyc gov Legislation aspx http legistar council nyc gov Legislation aspx url 是静

如何在python中向.aspx页面提交查询

如何在python中向.aspx页面提交查询 的相关文章

随机推荐

热门标签

如何在python中向.aspx页面提交查询的相关文章