在理解 BeautifulSoup 过滤时遇到问题

2024-02-28

有人可以解释一下美丽汤的过滤是如何工作的吗？我得到了下面的 HTML，我正在尝试从中过滤特定数据，但我似乎无法访问它。我尝试过各种方法，从收集所有class=g是为了只抓取该特定 div 中感兴趣的项目，但我只是没有返回或没有打印。

每个页面都有一个<div class="srg">div 有多个<div class="g">divs，我要使用的数据是其中的数据<div class="g">。其中每一个都有多个 div，但我只对<cite> and <span class="st">数据。我正在努力了解过滤的工作原理，任何帮助将不胜感激。

我尝试单步遍历 div 并获取相关字段：

 soup = BeautifulSoup(response.text)   

 main = soup.find('div', {'class': 'srg'})
 result = main.find('div', {'class': 'g'})
 data = result.find('div', {'class': 's'})
 data2 = data.find('div')
 for item in data2:
     site = item.find('cite')
     comment = item.find('span', {'class': 'st'})

 print site
 print comment

我还尝试进入最初的 div 并找到所有内容；

 soup = BeautifulSoup(response.text) 

 s = soup.findAll('div', {'class': 's'})

 for result in s:
     site = result.find('cite')
     comment = result.find('span', {'class': 'st'})

 print site
 print comment

测试数据

<div class="srg">
    <div class="g">
    <div class="g">
    <div class="g">
    <div class="g">
        <!--m-->
        <div class="rc" data="30">
            <div class="s">
                <div>
                    <div class="f kv _SWb" style="white-space:nowrap">
                        <cite class="_Rm">http://www.url.com.stuff/here</cite>
                    <span class="st">http://www.url.com. Some info on url etc etc
                    </span>
                </div>
            </div>
        </div>
        <!--n-->
    </div>
    <div class="g">
    <div class="g">
    <div class="g">
</div>

UPDATE

在 Alecxe 的解决方案之后，我再次尝试使其正确，但仍然没有打印任何内容。所以我决定再看一下soup它看起来不一样。我之前在看response.text from requests。我只能认为BeautifulSoup修改response.text或者我第一次得到的样本完全错误（不知道如何）。然而，下面是基于我从一个例子中看到的新样本soup打印。下面是我尝试获取我想要的元素数据。

<li class="g">
<h3 class="r">
    <a href="/url?q=url">context</a>
</h3>
<div class="s">
    <div class="kv" style="margin-bottom:2px">
        <cite>www.url.com/index.html</cite> #Data I am looking to grab
        <div class="_nBb">‎
            <div style="display:inline"snipped">
                <span class="_O0"></span>
            </div>
            <div style="display:none" class="am-dropdown-menu" role="menu" tabindex="-1">
                <ul>
                    <li class="_Ykb">
                        <a class="_Zkb" href="/url?/search">Cached</a>
                    </li>
                </ul>
            </div>
        </div>
    </div>
    <span class="st">Details about URI </span> #Data I am looking to grab

更新尝试

到目前为止，我已经尝试采用 Alecxe 的方法，但没有成功，我走的路正确吗？

soup = BeautifulSoup(response.text)

for cite in soup.select("li.g div.s div.kv cite"):
    span = cite.find_next_sibling("span", class_="st")

    print(cite.get_text(strip=True))
    print(span.get_text(strip=True))

首先得到div带有类名srg然后找到所有具有类名的divs里面srg并获取该文本site and comment。以下是我的工作代码-

from bs4 import BeautifulSoup

html = """<div class="srg">
    <div class="g">
    <div class="g">
    <div class="g">
    <div class="g">
        <!--m-->
        <div class="rc" data="30">
            <div class="s">
                <div>
                    <div class="f kv _SWb" style="white-space:nowrap">
                        <cite class="_Rm">http://www.url.com.stuff/here</cite>
                    <span class="st">http://www.url.com. Some info on url etc etc
                    </span>
                </div>
            </div>
        </div>
        <!--n-->
    </div>
    <div class="g">
    <div class="g">
    <div class="g">
</div>"""

soup = BeautifulSoup(html , 'html.parser')
labels = soup.find('div',{"class":"srg"})

spans = labels.findAll('div', {"class": 'g'})

sites = []
comments = []

for data in spans:
    site = data.find('cite',{'class':'_Rm'})
    comment = data.find('span',{'class':'st'})
    if site:#Check if site in not None
        if site.text.strip() not in sites:
            sites.append(site.text.strip())
        else:
            pass
    if comment:#Check if comment in not None
        if comment.text.strip() not in comments:
            comments.append(comment.text.strip())
        else: pass

print sites
print comments

Output-

[u'http://www.url.com.stuff/here']
[u'http://www.url.com. Some info on url etc etc']

EDIT--

为什么你的代码不起作用

尝试一-

您正在使用result = main.find('div', {'class': 'g'})它将抓取单个且第一个遇到的元素，但第一个元素还没有div带有类名s。所以这段代码的下一部分将不起作用。

尝试二-

您正在打印site and comment这不在打印范围内。所以尝试在 for 循环内打印。

soup = BeautifulSoup(html,'html.parser') 

s = soup.findAll('div', {'class': 's'})

for result in s:
    site = result.find('cite')
    comment = result.find('span', {'class': 'st'})
    print site.text#Grab text
    print comment.text

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在理解 BeautifulSoup 过滤时遇到问题的相关文章

Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
数据表“footerCallback”函数未在页脚中显示结果

我尝试获取每列的总和并将结果显示在页脚中我在用着页脚回调 https datatables net reference option footerCallbackDatatables提供的功能但是它在页脚中没有显示任何内容数据表解释
新BFC“清”浮箱

如示例所示应用display inline block 到包含块似乎清除了其中的浮动框 wrapper inline block display inline block left column background color te
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
Tensorflow 不分配完整的 GPU 内存

Tensorflow 默认分配所有 GPU 内存但我的新设置实际上只有 9588 MiB 11264 MiB 我预计大约 11 000MiB 就像我的旧设置一样张量流信息在这里 from tensorflow python client
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
当表格在 IE 中获得焦点时，表格滚动条会向上跳跃

问题我有一个table有包装的div with overflow y auto 一旦table获得焦点滚动条向上跳我怎样才能防止这种情况发生我经历过这种行为IE9 不在 Chrome 中请注意我已添加tabindex到桌子上以
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
有多少像素？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案一个有多少像素 br 标签添加我知道 br 高度可以通过CSS控制line height财产不同浏览器的值是否相同它会添加与浏览
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
window.open 使用 css 样式

我想设计我的 window open 目前我的网页上有一些项目由于解析了某个类而打开然后在新窗口中打开指定的文本我想更改字体大小字体和填充等这是我的 JavaScript 代码

随机推荐

如何获取 Woocommerce 产品中的变体 ID

我正在尝试进入一个插件我正在编写产品的变体 ID 这是我写的 class mass public function construct add action woocommerce product after variable attri
Android minLines 和 maxLines 不能在同一个 TextView 中一起工作

这里我只有 1 件商品ListView我展示了两个不同的TextViews末尾有不同颜色的ListView item 但问题是我想显示每个最多 3 行TextView但如果长度为TextView是小但如果文本很大它效果很好当我添加an
如何确保我的 django 项目正在使用我为其创建的虚拟环境？

我知道已经有一个与此类似的问题但我认为我想要的答案不存在我是 django 的新手我已经使用 virtualenv 和 django 项目创建了一个虚拟环境但是我们如何知道我的项目正在使用虚拟环境的包而不是使用全局包请给我一些详细
在 Episerver 中截断 Xhtmlstring

我需要获得截断的 Xhtmlstring 的 html 友好版本因为截断时标签结尾可能会被截断关于如何实现这一目标有什么想法吗我想过先删除所有标签然后进行剪切但是 Episerver 内部是否有解决方案或者这只是使用正则表达式进
Matplotlib 中的像素化动画

我一直在使用 Matplotlib 的动画工具来制作动画人物我注意到一个问题对于具有大量帧的动画来说尤其明显即图形的质量很快就会恶化导致输出看起来像素化模糊例子 Messy grid lines pixelated output
将 HTMLDocument 转换为可打印字符串

我想将 Javascript DOM HTMLDcument 转换为可以写入文件的字符串但是如何将 HTMLDocument 的字符串转换为 xml Update如果可能的话我希望看到应用任何动态 JavaScript 渲染后生成的 h
Python从文件中删除一行或多行而不修改现有内容

我必须根据文件中的用户输入删除字符串或字符串列表我参考了下面的链接一切正常删除文件中的特定行 python https stackoverflow com questions 4710067 deleting a specific l
Jenkinsfile 中的 Jenkins 全局环境变量

如何在 Jenkinsfile 中调用全局环境变量例如如果我有一个变量 name credentialsId value xxxx xxxx xxxxx xxxxxxxxx 如何在 groovy 脚本中使用它 I tried crede
视差效果使元素延迟滚动

我正在尝试复制此网站 www adidas co uk climazone 这些元素似乎只在用户滚动后轻微移动我怎样才能实现这个目标谢谢你 Here s DEMO http s codepen io CY5 debug vKkELx它实
正则表达式匹配任何单词 - 没有非贪婪运算符

我想将任何内容匹配到特定单词例如 C 中的结束评论但是由于性能原因我不想使用非贪婪运算符例如要匹配 C 注释对于我的文件来说太慢了有没有可能提高性能当然可以使用展开循环技术 http www softec lu site
通过 Vagrant 在 Docker 中共享卷

我有一个 Vagrant virtualbox 它托管一个 Docker 容器主机有一个需要在虚拟机和容器中访问的文件夹 Host host path gt VM vagrant path gt Container docker path
名称和尺寸来自 NSFont

我试图在互联网上找到一些东西但现在我没有答案所以如果你能帮助我那就太好了到目前为止我有一个 NSFont 对象但我想要字体的名称如 NSString 和大小这样我就可以输出它就像是 NSFont fontWithName M
在 NLTK 中使用斯坦福 NER Tagger 提取人员和组织列表

我正在尝试使用 Python NLTK 中的斯坦福命名实体识别器 NER 提取人员和组织的列表当我跑步时 from nltk tag stanford import NERTagger st NERTagger usr share sta
Susy：为给定的屏幕宽度（断点 px 值）创建网格，并且不知道单列的宽度（非内容优先方法）

我在用着Susy http susy oddbird net 我未能利用内容优先的方法并决定采用 window px widths first 起初我尝试了内容优先的方法 http adactio com journal 4523 到网格
scanf() 格式字符串中尾随空格有何影响？

有什么区别scanf d and scanf d 在此代码中区别在于格式字符串中的尾随空白 include
Python：忽略 xml.etree.ElementTree 中的名称空间？

如何告诉 ElementTree 忽略 XML 文件中的命名空间例如我更愿意查询modelVersion 如声明1 而不是 http maven apache org POM 4 0 0 modelVersion 如声明2 pom
matplotlib：如何在图形上选择shift点击？

我有一个 matplotlib 并且创建了一个button press event像这样 self fig canvas mpl connect button press event self onClick def onClick sel
PhpSpreadsheet 正在损坏文件

我正在使用 PhpSpreadsheet 修改现有文件并将其发送到浏览器但是每次下载文件 excel 都会出现以下错误我们发现 filename xlsx 中的某些内容存在问题您希望我们尽力恢复吗如果您信任此工作簿的来源请单击是
对（双精度）实数向量进行排序并获得它们

在 C 中想要对很长的 2 20 实数向量显然sort 就可以了在我习惯了 R 的优点之前就已经使用过 Rorder 函数产生导致排序向量的排列 Example x 24 55 22 1 然后是排列 perm 3 2 0 1 贴出原图x
在理解 BeautifulSoup 过滤时遇到问题

有人可以解释一下美丽汤的过滤是如何工作的吗我得到了下面的 HTML 我正在尝试从中过滤特定数据但我似乎无法访问它我尝试过各种方法从收集所有class g是为了只抓取该特定 div 中感兴趣的项目但我只是没有返回或没有打印每个页面

在理解 BeautifulSoup 过滤时遇到问题

在理解 BeautifulSoup 过滤时遇到问题 的相关文章

随机推荐

热门标签

在理解 BeautifulSoup 过滤时遇到问题的相关文章