从 BeautifulSoup 结果中获取表单“action”

2024-01-23

我正在为一个网站编写一个 Python 解析器来自动完成一些工作，但我不太喜欢 Py 的“re”模块（正则表达式），并且无法使其工作。

req = urllib2.Request(tl2)
req.add_unredirected_header('User-Agent', ua)
response = urllib2.urlopen(req)
try:
    html = response.read()
except urllib2.URLError, e:
    print "Error while reading data. Are you connected to the interwebz?!", e

soup = BeautifulSoup.BeautifulSoup(html)
form = soup.find('form', id='form_product_page')
pret = form.prettify()

print pret

Result:

<form id="form_product_page" name="form_1362737440" action="/download/791055/164084/" method="get">
<input id="nojssubmit" type="submit" value="Download" />
</form>

事实上，代码已经完成，正是我开始所需要的。现在，我想知道应该以哪种方式从“form”标签中提取“action”属性。这只是我需要从 BeautifulSoup 响应中得到的。

我尝试过使用form = soup.find('form', id='form_product_page').parent.get('action')但结果是“无”。我想要提取的是例如“/download/791055/164084/”。这在链接的每个 URL 上都是不同的。

Variables (example):
tl2 = http://example.com http://example.com
ua = Mozilla Firefox / 14.04

您可以一步完成：

action = soup.find('form', id='form_product_page').get('action')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

webscraping

beautifulsoup

从 BeautifulSoup 结果中获取表单“action” 的相关文章

执行不区分大小写的“in”检查并检索原始元素的最简单方法？

假设 a 有一个字符串列表和一个特定字符串 particular string latitude list Id PRICE LATitude longitude 我想要实现的是执行不区分大小写的检查特定字符串是否在列表中所以现在我可以这
如何在仍然使用 unique = True 的同时允许 ModelForm 中的空字段？

目前在models py I have class ModelName models Model rowname models CharField max length 100 blank True unique True 就确保相同的值不
如何在正则表达式中编写可选单词？

我想编写一个识别以下模式的 java 正则表达式 abc def the ghi and abc def ghi 我试过这个 abc def the ghi 但是它没有识别第二种模式我哪里出错了 abc def the ghi 删除多余
如何将多个 Excel 工作表转换为 csv python

我想转换所有的excel文档 xls 将工作表转换为 csv 如果 excel 文档只有一张工作表那么我将进行如下转换 wb open workbook path1 sh wb sheet by name Sheet1 csv file
如何将魔杖图像对象转换为 numpy 数组（不使用 OpenCV）？

我正在使用将 pdf 文件转换为图像Wand http docs wand py org en 0 4 4 然后我使用 ndimage 进行进一步的图像处理我想直接将 Wand 图像转换为 ndarray 我已经看到答案here htt
python解释器自动重启而不返回答案

调用递归函数时 python解释器会自动重新启动吗我正在编写一个快速排序算法并尝试对一个大的数字数组顺序 10 4 进行排序但是当我尝试对整个数组进行排序时 python 正在重新启动即给我重新启动并且存储在内存中的所有值函
IndexError：布尔索引与维度 0 上的索引数组不匹配

在我将 Numpy 更新到 1 13 1 之前我的代码工作正常现在我收到以下错误 IndexError boolean index did not match indexed array along dimension 0 dimens
组内条件计数

我想在之后进行条件计数groupby 例如按列的值分组A 然后计算每组中值出现的频率5出现在列中B 如果我整个过程都这样做DataFrame 只是len df df B 5 所以我希望我能做到df groupby A df B 5 siz
通过 beautiful soup python 找到所有字体大小大于最常见字体的跨度样式

我了解如何从特定的位置获取文本div or span这个问题的风格如何找到最常见的跨度样式 https stackoverflow com questions 40762692 is there a way to find the mos
[matplotlib]：理解“set_ydata”方法

我试图了解如何使用 set ydata 方法我在 matplotlib 网页上找到了很多示例但我只找到了 set ydata 被淹没在大型且难以理解的代码中的代码我想要一个简短且易于理解的代码来帮助我理解 set ydata 的工
Python 中 Matlab 'fscanf' 的等价物是什么？

Matlab函数fscanf 似乎很强大 python 或numpy 中是否有相同的等效项具体来说我想从文件中读取矩阵但我不想迭代每一行来读取矩阵类似的东西来自 matlab 用于读取 2D 1000x1000 矩阵 matrix
字段“id”期望一个数字，但得到“natsu”django

我想创建一个 user posts 视图其中包含与特定用户相关的所有帖子假设有用户 Natsu 撰写的博客帖子那么登录用户 Testuser 将能够查看所有帖子由该用户发布即用户 Natsu 的所有帖子 blog models py
使用 Django 添加额外 \\ 字符的 JSON 编码

我正在尝试创建一个函数将包含消息和 Django 模型实例的字典转换为 JSON 然后我可以将其传回客户端例如我在 models py 中定义了模型 Test from django db import models class Te
在 Django(Python) 中向用户提供 Excel(xlsx) 文件下载

我正在尝试使用 Django 创建和提供 Excel 文件我有一个 jar 文件它获取参数并根据参数生成 excel 文件并且它可以正常工作但是当我尝试获取生成的文件并将其提供给用户下载时文件损坏了它的大小为 0kb 这是我用
2D 矩阵上的 Numpy where()

我有一个像这样的矩阵 t np array 1 2 3 foo 2 3 4 bar 5 6 7 hello 8 9 1 bar 我想获取行包含字符串 bar 的索引在一维数组中 rows np where t bar 应该给我索引 0 3
将连续行与相同的列值合并

我有一个看起来像这样的东西我该如何处理 0 d 0 The DT 1 Skoll ORGANIZATION 2 Foundation ORGANIZATION 3 4 based VBN 5 in IN 6 Silicon LOCATIO
具有默认参数的Python类构造函数[重复]

这个问题在这里已经有答案了可能的重复 Python 中的最不令人惊讶可变默认参数 https stackoverflow com questions 1132941 least astonishment in python the m
在Python中设置Windows命令行终端标题

我在 Windows 计算机上运行某个 Python 脚本的多个实例每个实例都来自不同的目录并使用单独的 shell 窗口不幸的是 Windows 为每个 shell 窗口提供了相同的名称
子进程调用，它们是并行完成的吗？

我一直在谷歌搜索这个问题的答案但似乎没有一个答案谁能告诉我如果subprocess模块是否并行调用 Python 文档建议它可用于生成新进程但没有提及它们是否并行如果它们可以并行完成您能否给我举一个例子或将我链接到一个例子这取决
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY

随机推荐

如何从纬度和经度获取完整的地址？

我想从 android 中的纬度和经度获取以下值街道地址市州 Zip 完整地址如何实现这一目标 Geocoder geocoder List
在非角度页面上使用量角器测试登录

我正在尝试使用量角器进行 e2e 测试但首先我需要登录非角度页面我尝试按照指示直接使用 webDriverhere http ng learn org 2014 02 Protractor Testing With Angular An
Xamarin Forms 在模拟器和设备上项目空白谷歌地图

I have created a cross platform App using Xamarin forms On Mac Book Pro el Capitan I need to use maps in it thus using X
错误：“在清单中找不到版本代码。”

我正在尝试构建签名的应用程序包以便发布我所做的只是更新操作系统版本和一些图形该应用程序在 ADK 上运行得很好当构建签名的 apk 时我收到以下错误消息在清单中找不到版本代码这是错误日志由以下原因引起 com android
英特尔编译器值得吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案非常简单是英特尔编译器 http software intel com en us intel compilers 值得入手吗我主要从事系统
Ubuntu 中的 PostgreSQL pg_dump 语法错误

在 ubuntu 16 04 中当我想运行 pg dump 时它不起作用我收到此错误语法错误怎么了 postgres pg dump db name gt db name1 sql postgres postgres ERROR s
from __future__ import ... 能否保证 Python 2 和 3 的兼容性？

我对热身 Python 2 还是 Python 3 不感兴趣问题尽管最近的一个 https stackoverflow com q 5478518 321973我发现已经一岁多了但我偶然发现如果您的文件开始您可以在 Python
如何清除 Objective-C 中常驻的脏内存？

我观看了 Apple 的 WWDC 2010 视频 Advanced Memory Analysis with Instruments 从中我发现了大量常驻脏内存我意识到拥有如此多的常驻脏内存是一件坏事这可能是我的应用程序崩溃的原因但
我们可以在 Java 中将两种字体样式组合在一起吗？

我正在尝试更改 a 的字体JLabel所以两者都是BOLD and ITALIC 但似乎没有定义静态字段来执行此操作我们如何将两种样式结合起来以获得粗斜体字体此代码将通过使用静态字段以粗体形式完成此操作BOLD 但没有为粗体和斜体定义字
CKeditor 添加类到 img 标签

我正在尝试向 CKeditor 中任何插入的 img 标签添加一个类我尝试了各种方法但似乎无法弄清楚这个插件的设置是如何工作的虽然文档很多但只提到需要添加代码但没有提到应该添加到哪里文件很多我尝试将其添加到 config js
google.script.host.close 关闭对话框不起作用

我正在尝试关闭用以下命令打开的无模式对话框 var html HtmlService createHtmlOutputFromFile dialog setSandboxMode HtmlService SandboxMode IFRAME
Symfony 4 Doctrine 无法从控制台运行 [2002] 没有这样的文件或目录

我正在使用 symfony 4 运行学说控制台命令时会发生此错误 In AbstractMySQLDriver php line 108 An exception occurred in driver SQLSTATE HY000 2002
添加自定义目录（源和规范）以在 Rails 3 项目中进行自动测试

我有一个 Rails 3 应用程序它使用 RSpec2 作为我的测试框架并且我能够使用自动测试来观察我的模型和规范目录的更改并在文件更改时重新运行我的规范套件我想添加一个目录其中包含一些自定义类 RAILS ROOT lib so
For循环和if语句

我正在使用以下 for 循环 for int intPrjName 0 intPrjName lt arrPrjName count intPrjName 我在 for 循环下有一个 if else 语句其中else块显示警报消息假设数
onNavigationItemSelected 在 NavigationView 中不起作用

请有人帮助我处理导航抽屉中的片段由于某种原因我无法让它们工作并且所有代码看起来都是正确的 Here https github com Matt Hutchings The Midlands Meander是源代码的链接使用此代码 nav
使用 angularjs/ui-bootstrap 制作手风琴并使用 ng-model

我使用 angularJs 和 bootstrap 我制作了一个手风琴其中我放置了一个选择来选择过滤器的值和不起作用的 data ng model 如果他不在手风琴中则选择可以工作这是我的代码
在没有指针的函数中使用函数原型

我的导师提到在其他函数中使用函数作为参数我不是说使用指针这可能吗我在下面显示我不明白他做了什么谁能用例子解释一下吗谢谢大家的赞赏回答使用风格是 int test double abc double bla bla 函数是 do
C# 中的猴子修补

是否可以在运行时扩展或修改 C 类的代码我的问题具体围绕 Monkey Patching Duck Punching 或元对象编程 MOP 就像 Groovy Ruby 等脚本语言中发生的那样对于那些今天仍然在这个问题上绊倒的人来说确
SVN 显示日志不起作用

如何在不设置 r 向所有人所有内容读取的情况下使用显示日志功能我的 authz 文件中有几个组它看起来像这样 groups Profs dave bruno franck Team1 1036091 1036103 1036087
从 BeautifulSoup 结果中获取表单“action”

我正在为一个网站编写一个 Python 解析器来自动完成一些工作但我不太喜欢 Py 的 re 模块正则表达式并且无法使其工作 req urllib2 Request tl2 req add unredirected header Us

从 BeautifulSoup 结果中获取表单“action”

从 BeautifulSoup 结果中获取表单“action” 的相关文章

随机推荐

热门标签