用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

2024-05-14

最近我一直在用 python 开发一个项目，其中涉及抓取一些网站的一些代理。我遇到的问题是，当我尝试抓取某个知名代理站点时，当我要求 Beautiful Soup 查找 IP 在代理表中的位置时，它并没有按照我的预期执行操作。我将尝试查找每个代理的 IP，当我使用 Beautiful Soup 时，我将得到这样的输出.get_text()适当元素上的方法。

...

.UbZT{display:none}
.f5fa{display:inline}
.Glj2{display:none}
.cUce{display:inline}
.zjUZ{display:none}
.GzLS{display:inline}
98120169.117.186373161218218.83839393101138154165203242 

...

这是我尝试解析的元素（包含 IP 的 td 标签）：

<td><span><style>
.lLXJ{display:none}
.qRCB{display:inline}
.qC69{display:none}
.V0zO{display:inline}
</style><span style="display: inline">190</span><span class="V0zO">.</span><span 
style="display:none">2</span><div style="display:none">20</div><span 
style="display:none">51</span><span style="display:none">56</span><div 
style="display:none">56</div><span style="display:none">61</span><span 
class="lLXJ">61</span><div style="display:none">61</div><span 
class="qC69">110</span><div 
style="display:none">110</div><span style="display:none">135</span><div 
style="display:none">135</div><span class="V0zO">221</span><span 
style="display:none">234</span><div style="display:none">234</div><span class="147">.
</span><span style="display: inline">29</span><div style="display:none">44</div><span 
style="display:none">228</span><span></span><span class="qC69">248</span>.<span 
style="display:none">7</span><span></span><span style="display:none">44</span><span 
class="qC69">44</span><span class="qC69">80</span><span></span><span 
style="display:none">85</span><span class="lLXJ">85</span><div 
style="display:none">85</div><span class="qC69">100</span><div 
style="display:none">100</div><span></span><span class="qC69">130</span><div 
style="display:none">130</div><div style="display:none">168</div>212<span 
style="display:none">230</span><span class="qC69">230</span><div 
style="display:none">230</div></span></td>

该元素的实际文本只是代理的 IP。

这是我的代码片段：

# Hide My Ass
pages = ['https://www.hidemyass.com/proxy-list']

for page in pages:
    hidemyass = Soup(requests.get(page).text)
    rows = hidemyass.find_all(lambda tag:tag.name=='tr' and tag.has_attr('class'))
    for row in rows:
        fields = row.find_all('td')
        # get ip, port, and protocol for proxy
        ip = fields[1].get_text()            # <-- Here's the above td element
        port = fields[2].get_text()
        protocol = fields[6].get_text().lower()
        # store proxy in database
        db.add_proxy({'ip':ip,'port':port,'protocol':protocol})
        num_found += 1

是否有正确的方法来解析此元素，以便输出不会像这样混乱？看起来很直观，美丽的汤.get_text()方法将准确返回网站上可见的文本，但我认为这不是真的。感谢您的任何帮助或建议。

BeautifulSoup无法区分 HTML 标记中的可见文本和其他文本。这个特定的网站在混淆标记方面做得非常好，并使页面的网络抓取变得更加复杂。您可以尝试了解哪些文本是可见的，但这并不容易，因为插入了很多不相关的元素，可以通过以下方式直接使其不可见style或通过class。一些IP零件在spans，其中一些不属于任何标签。

一种解决方法是使用Selenium http://selenium-python.readthedocs.org/只能抓取visible来自元素的文本。例如，此代码将打印所有IP特定表中的 s：

from selenium.webdriver.firefox import webdriver

browser = webdriver.WebDriver()
browser.get('https://www.hidemyass.com/proxy-list')

rows = browser.find_elements_by_xpath('//table[@id="listtable"]//tr')
for row in rows[1:]:
    cells = row.find_elements_by_tag_name('td')
    print cells[1].text

browser.close()

也可以看看：

BeautifulSoup 抓取可见网页文本 https://stackoverflow.com/questions/1936466/beautifulsoup-grab-visible-webpage-text

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？的相关文章

Python int和float在64位系统中的内存消耗

我正在 Python 3 4 的 64 位系统中尝试以下代码以了解不同原始数据类型的内存消耗 import sys print sys getsizeof 45 prints 28 print sys getsizeof 45 2 pri
argparse - 禁用相同参数的出现

我正在尝试使用 argparse 禁用一个命令行中出现相同的参数 python3 argument1 something argument2 argument1 something else 这意味着这应该会引发错误因为 argument
更改散景图中选项卡的样式

我想知道是否有办法更改散景图上生成的选项卡的属性诸如增加文本字体更改制表符宽度等更改以下是用于生成具有两个选项卡的绘图的简单代码 from bokeh models widgets import Panel Tabs from bok
将函数应用于 3D numpy 数组

我有一个来自 Image PIL Pillow 对象的 numpy 3D 数组 178 214 235 180 215 236 180 215 235 146 173 194 145 172 193 146 173 194 126 171
群组名称不能以数字开头？

看来我不能使用像这样的正则表达式 P lt 74xxx gt 0 9 重新打包会引发错误 sre constants error bad character in group name u 74xxx 我似乎无法使用以数字开头的组名称为什
在 pandas eval 中调用 round()、ceiling()、floor()、min()、max()

正如标题所说有没有办法在 pandas eval 中支持 round ceiling min max floor 函数数据框 import pandas as pd import numexpr as ne op d ID 1 2 3
使用 Pytest 捕获 SystemExit 消息

我正在使用 pytest 编写测试我遇到了一些函数抛出异常的情况SystemExit如果输入错误终端上会显示一些错误消息我想为以下情况编写测试SystemExit抛出并验证输出错误消息中是否有特定字符串这是代码 def test v
更改导航栏悬停时 div 的背景图像

我正在开发一个项目我对 Javascript 很陌生所以我想知道是否有 Jquery 代码或只是一个关于如何使背景图像在导航菜单悬停时更改的过程例如将鼠标悬停在链接一上会将 div 的背景图像更改为图像 1 将鼠标悬停在链接二上会将
Pandas 使用 NaN 进行数据透视或重塑数据框

我有这个数据框我需要根据以下数据进行旋转或重塑frame col df frame 0 0 1 1 2 2 3 0 4 1 5 2 pvol 0 nan 1 nan 2 nan 3 23 1 4 24 3 5 25 6 vvol 0 10
使用存储的密钥作为环境变量

我有一个秘密密钥存储在 GCP 的秘密管理器中我们的想法是使用该密钥通过云功能获取预算列表现在我可以从代码中访问该密钥但我面临的问题是我需要使用该密钥设置一个环境变量这是我添加密钥的方式如果您的本地目录中有该文件但是还有其他方
Python 特征向量：numpy.linalg、scipy.linalg 和 scipy.sparse.linalg 之间的差异

Scipy 和 Numpy 具有三个不同的函数来查找给定方阵的特征向量它们是 numpy linalg eig a http docs scipy org doc numpy reference generated numpy linal
PyGTK TreeView 中的自动换行

如何在 PyGTK TreeView 中自动换行文本 gtk TreeView 中的文本是使用 gtk CellRendererText 渲染的文本换行归结为在单元格渲染器上设置正确的属性为了让文本换行您需要设置wrap width单
Pygame 旋转射击

我和几个朋友一直在编写一种有趣的新射击机制为了让它发挥作用我们需要朝玩家面对的方向射击 Sprite 正在使用 Pygame Transform Rotate 进行旋转我们怎样才能找到一个角度然后朝那个方向发射子弹呢这是我们的精灵
使用 Angular 2 Forms 根据需要动态标记字段的正确方法是什么？

使用 Angular 2 2 0 0 推荐的方法是什么动态地根据需要标记字段使用角形式 https angular io docs ts latest guide forms html 在他们的所有示例中只需添加必需的属性如下所示
深度学习——一些关于caffe的幼稚问题

我试图了解 caffe 的基础知识特别是与 python 一起使用我的理解是模型定义比如给定的神经网络架构必须包含在 prototxt file 当您使用数据训练模型时 prototxt 您将权重模型参数保存到 caffemode
打印html时在页面上打印页码

我读过很多关于打印页码的网站但当我尝试打印它时我仍然无法让它显示在我的 html 页面上所以 CSS 代码如下 page margin 10 top center font family sans serif font weight
在IPython笔记本中自动播放声音

我经常在 IPython 笔记本中运行长时间运行的单元我希望笔记本在单元完成执行时自动发出蜂鸣声或播放声音有没有办法在 iPython 笔记本中执行此操作或者我可以在单元格末尾放置一些命令来自动播放声音我正在使用 Chrome 如果
计算列表中的子列表

L 2 4 5 6 2 1 6 6 3 2 4 5 3 4 5 我想知道任意子序列出现了多少次 s 2 4 5 例如会返回2次 I tried L count s 但它不起作用因为我认为它期望寻找类似的东西 random numbers
Python tkinter：在组合框中使用“文本变量”似乎没用

使用textvariable在 tkinter 中创建组合框时的属性似乎完全没用有人可以解释一下目的是什么吗我查看了 Tcl 文档它说textvariable用于设置默认值但看起来在 tkinter 中您只需使用 set方法来做到这
关闭 IPython Notebook 中的自动保存

我正在寻找一种方法来关闭 iPython 笔记本中的自动保存我已经通过 Google Stack Overflow 搜索看到了有关如何打开自动保存的参考资料但我想要相反的内容关闭自动保存如果这是可以永久设置的东西而不是在每个笔记本的

随机推荐

如何在Jenkins上更改工作空间并建立记录根目录？

我希望将 Jenkins 的数据写入驱动器 E 因为这是服务器上的大型驱动器 Jenkins 本身安装在 C 上我怎么做我看到的默认配置是工作区根目录 ITEM ROOTDIR 工作区构建记录根目录 ITEM ROOTDIR 构建
在 selenium webdriver 中打开一个新窗口而不是新选项卡

当在我的应用程序中手动单击链接时它会在 Chrome 和 IE 中的新选项卡中打开但是当我的脚本运行时该链接会在 IE 中的新窗口而不是新选项卡中打开相同的脚本在 Chrome 中按预期运行知道如何摆脱这个吗更改 IE 的默认
以 UTF8 而不是 UTF16 输出 DataTable XML

我有一个 DataTable 我正在使用 WriteXML 创建一个 XML 文件尽管我在以 UTF 16 编码导出它时遇到问题并且似乎没有明显的方法来更改它我了解 NET 在字符串内部使用 UTF 16 这是正确的吗然后我通过
正则表达式 - 匹配不包含字符串的模式

我对正则表达式很陌生并且一直在寻找方法来做到这一点但没有成功给定一个字符串我想删除以 abc 开头以 abc 结尾且中间不包含 abc 的任何模式如果我做 abc abc abc 它将匹配以 b 开头以 abc 结尾并且中间包
错误：模块“html”不提供视图引擎（Express）

我正在尝试设置一个简单的路由应用程序但在渲染页面时不断遇到错误 Error Module html does not provide a view engine 奇怪的是我已经在 app js 文件中指定了视图引擎但仍然收到错误 app
Javascript/jQuery 外部高度()

Does idOfLememt outerHeight 对所有浏览器产生相同的结果 IE7 有什么不同吗只要去http api jquery com outerHeight http api jquery com outerHeight
我如何用 javascript/jquery 进行两指拖动？

我正在尝试创建当有两个手指放在 div 上时拖动 div 的功能我已将 div 绑定到 touchstart 和 touchmove 事件我只是不确定如何编写这些函数就像是if event originalEvent targetTo
服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同

System Net WebException 服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同在 System Net FtpWebRequest CheckError 在 System Net FtpWebReque
Maven 构建错误 TOOLS.JAR NOT FOUND IN JRE

我在构建 Maven 项目时遇到这个问题请帮我解决 ERROR Failed to execute goal org apache maven plugins maven compiler plugin 2 5 1 compile def
Android 的代码覆盖率[重复]

这个问题在这里已经有答案了可能的重复 Android测试代码覆盖率 Eclipse https stackoverflow com questions 3282702 android test code coverage eclipse
关闭扫描仪是否会影响性能

我正在解决一个竞争问题在问题中我正在使用扫描仪获取用户输入这是 2 个代码段一个关闭扫描器一个不关闭扫描器关闭扫描仪 import java util Scanner public class JImSelection publ
Angular 2：使用正则表达式进行数字验证

我正在尝试验证 IE 11 中的数字字段
UWP 应用程序在与商店关联后崩溃

我正在为 Windows 创建一个 cordova 应用程序将应用程序与商店关联后应用程序起始页变为白色空白如果应用程序使用包标识名称 com something moretext 则该应用程序可以正常工作但我的商店包身份名称是 5
防止 Ada DLL 中的名称损坏

有没有一种简单的方法可以防止在创建 Ada DLL 时 Ada 名称被破坏这是我的 adb 代码 with Ada Text IO package body testDLL is procedure Print Call is begin
Swift 中的 quitFirstResponder

我怎样才能用Apple的新语言实现它 Objective C 代码 void touchesBegan NSSet touches withEvent UIEvent event for UIView view in self view s
Maven2继承

如果我有一个父 pom 并且想将其继承到多个项目我通常通过添加到项目顶部来做到这一点
纯旧 PHP 对象 (POPO) 一词的确切含义是什么？

我想了解一下波波我搜索了 popo 发现它代表 Plain Old Php Object 但我不确定 Plain Old Php Object 的确切含义我想知道什么是 popo 以及在哪里使用它谢谢普通旧在此处插入语言对象是一
文本处理问题：删除其中一列不包含特定值的行

我有一个制表符分隔的文件如下所示 input sequence match sequence score receptor group epitope antigen organism ASRPPGGVNEQF ASRPPGGVNEQF
如何用LoaderManager自动重新查询

我有一个应用程序显示来自 SQLite DB 的数据并且数据不断变化所以显然我认为我应该使用 LoaderManager 来显示数据我读过一些关于将 LoaderManager 与 SQLite 结合使用的内容然后看到了亚历克斯
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每

用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？ 的相关文章

随机推荐

热门标签

用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？的相关文章