Python获取onclick值

2024-01-20

我正在使用 Python 和 BeautifulSoup 为我的一个小项目抓取网页。该网页有多个条目，每个条目由 HTML 中的表格行分隔。我的代码部分有效，但是很多输出是空白的，它不会从网页获取所有结果，甚至不会将它们收集到同一行中。

<html>
<head>
<title>Sample Website</title>
</head>
<body>

<table>
<td class=channel>Artist</td><td class=channel>Title</td><td class=channel>Date</td><td class=channel>Time</td></tr>
<tr><td>35</td><td>Lorem Ipsum</td><td><a href="#" onClick="searchDB('LoremIpsum','FooWorld')">FooWorld</a></td><td>12/10/2014</td><td>2:53:17 PM</td></tr>
</table>
</body>
</html>

我只想从 onclick 操作“searchDB”中提取值，因此例如“LoremIpsum”和“FooWorld”是我想要的唯一两个结果。

这是我编写的代码。到目前为止，它正确地提取了一些写入值，但有时这些值是空的。

response = urllib2.urlopen(url)

html = response.read()

soup = bs4.BeautifulSoup(html)

properties = soup.findAll('a', onclick=True)

for eachproperty in properties:
    print re.findall("'([a-zA-Z0-9]*)'", eachproperty['onclick'])

我究竟做错了什么？

尝试这样：

>>> import re
>>> for x in soup.find_all('a'):    # will give you all a tag
...     try:
...         if re.match('searchDB',x['onclick']):    # if onclick attribute exist, it will match for searchDB, if success will print
...             print x['onclick']        # here you can do your stuff instead of print
...     except:pass
... 
searchDB('LoremIpsum','FooWorld')

除了打印之外，您可以将其保存到某个变量中，例如

>>> k = x['onclick']
>>> re.findall("'(\w+)'",k)
['LoremIpsum', 'FooWorld']

\w相当于 [a-zA-Z0-9]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

Python获取onclick值的相关文章

只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p

随机推荐

根据用户在 ASP.net 中的设置定期发送邮件？

在我的网络应用程序中我想根据用户自己预先选择的时间段为用户发送邮件例如每 3 天向用户 01 发送 1 封 HTML 邮件每 20 天向用户 02 发送 1 封 HTML 邮件我怎样才能做到这一点有资源吗我可以通过我的应用程序从
com.hazelcast.nio.serialization.HazelcastSerializationException

我正在运行一个 OSGI 插件项目没有捆绑包我在其中集成了 hazelcast 我当我尝试将数据添加为字符串和测试 bean 的映射时它被添加到淡褐色投射映射中但是二当我尝试获取地图时它显示错误如下 com hazelcas
Chrome扩展如何在扩展目录中写入文件

这只是一个关于 chrome 扩展文件写入的简单问题是否可以在chrome扩展目录中写入文件我的意思是在我拥有清单文件和其他脚本的同一文件夹中写入一个文件到目前为止我发现我可以通过 XMLHttpRequest 读取目录中的文件但
关键点描述符 OpenCV

我试图了解如何获取给定的描述符KeyPoint在 OpenCV 中到目前为止我的代码如下所示 include
Android Studio 和 Ryzen CPU？

我知道它可能会被标记为重复但没有一个线程对我有帮助所以我决定自己做一个 I m a Java后端开发人员我决定学习一些 Android 的东西几年前我在 Android Studio 工作过i5 4570处理器然后我放弃了现在我发
使用 Entity Framework 和 Linq 进行动态排序

我有另一个类似的问题在这里得到了回答关于 NULL 值是订单的最后一个在 Dynamic Linq Order By 上将 NULL 行保留在最后 https stackoverflow com questions 42277259 k
我们如何使用 C# 将二进制数转换为八进制数？

嘿我正在开发一个应用程序它将任何基数如 2 8 10 16等转换为用户所需的基数系统我在将二进制数转换为八进制数时遇到问题有人可以帮我吗我尝试了一切 i am taking a binary number in value a
在部署的应用程序上播放来自 s3 的文件时出现跨源资源策略问题

我在 Heroku 上部署了一个应用程序可以让我播放音频文件你可以在这里查看https telecurve herokuapp com manage https telecurve herokuapp com manage 在我在 He
使用 StoryBoards 时进行单元测试 cellForRowAtIndexPath

如果我要从故事板中的标识符中取出单元格如何以单元测试的方式调用 cellForRowAtIndexPath 并且不让单元格为零 UITableViewCell tableView UITableView tableView cellFor
OData WebApi V4 .net - 自定义序列化

我需要创建一个序列化器来支持以下所有任务删除空属性删除空列表我注意到的语法ODataMediaTypeFormatter已经变了我在将序列化提供程序添加到管道时遇到问题这是我尝试过的在 WebApiConfig cs 上 var
gaierror: [Errno -2] 名称或服务未知

def make req data url method POST params urllib urlencode data headers Content type application x www form urlencoded Ac
从环境中删除除与给定模式匹配的对象之外的所有对象

我正在尝试删除所有objects来自我的 RStudio环境其中对象名称不等于模式 rm list ls pattern may19 但这给了我一个错误 as environment pos 中的错误没有名为 pattern may19
如何处理 Spark SQL 上的 AnalysisException？

我正在尝试在 Spark 中执行查询列表但如果查询未正确运行 Spark 会抛出以下错误 AnalysisException 不支持更改表更改列这是我的代码的一部分我在 Databricks 上使用 python 和 Spark SQ
在android中为ksoap2设置编码utf-8

我对 ksoap2 有问题我想在 android 中为 ksoap2 设置编码 utf 8 或者在标头中设置内容类型为 text xml charset utf 8 我的代码设置编码 envelope encodingStyle utf
MS Edge - window.print() 与 MS Edge 中的框架上下文无关

与其他浏览器相比 Microsoft Edge 处理 window print 的方式不一致在大多数浏览器中从页面上的 iframe 内调用 window print 只会打印该 iframe 的内容然而在边缘它总是会打印整个文档
python - 递归删除字典键？

我正在使用 Python 2 7plistlib以嵌套字典数组形式导入 plist 然后查找特定键并在我看到它的任何地方将其删除当谈到我们在办公室处理的实际文件时我已经知道在哪里可以找到这些值但我编写脚本时的想法是我不知道希望我不
行动扩展和共享核心数据

我在我的应用程序中使用操作扩展我们的应用程序当前使用核心数据我正在应用程序和使用应用程序组的操作扩展并成功将核心数据从文档目录迁移到应用程序组当使用扩展程序将照片或笔记从照片笔记应用程序导入到我的应用程序时我遇到的问题会发生该
最佳实践 - 将事件声明为 Java 接口的一部分

我正在尝试使用接口和事件来解耦一些 UI 代码我想知道 Java 中是否有方法最佳实践来将事件声明为 Java 接口的一部分就像 C 提供的那样 C event declaration in interface public inte
使用 Amazon Connect 将语音消息保存在 aws s3 存储桶中

how to save voice message of customer number and store in an s3 bucket using aws connect I made a contact workflow but I
Python获取onclick值

我正在使用 Python 和 BeautifulSoup 为我的一个小项目抓取网页该网页有多个条目每个条目由 HTML 中的表格行分隔我的代码部分有效但是很多输出是空白的它不会从网页获取所有结果甚至不会将它们收集到同一行中 ta

Python获取onclick值

Python获取onclick值 的相关文章

随机推荐

热门标签

Python获取onclick值的相关文章