BeautifulSoup 返回与查看源代码不同的 html

2023-12-03

我是使用 BeautifulSoup 的新手,所以如果我的问题很愚蠢,请原谅我。然而,自早上 6 点以来,我一直在谷歌上搜索并尝试在每个 stackoverflow 线程中尝试建议,但无济于事。

我的问题是我有一个带有基因名称的 .csv 文件,其中一些是 ensEMBL 格式,这意味着我必须使用 ensembl 数据库来查找我需要的信息。其余的我可以使用 ncbi 数据库。

现在,我的代码就很好了。我知道这一点是因为发送到 ncbi 的每个查询都会返回我需要的信息,并且我可以使用 BeautifulSoup 提取所有信息并将其输出到 csv。然而,urlopen 或 BeautifulSoup 都没有按照我被引导理解的方式工作。

当我将以下 URL 放入地址栏中时,会加载正确的网页:http://uswest.ensembl.org/Gallus_gallus/Gene/Summary?db=core;g=ENSGALG00000016955;r=1:165302186-165480795;t=ENSGALT00000027404.

然后我可以查看源代码并查看 HTML。然而当我有:

html = urlopen(http://uswest.ensembl.org/Gallus_gallus/Gene/Summary?db=core;g=ENSGALG00000016955;r=1:165302186-165480795;t=ENSGALT00000027404, 'lxml')

它输出的 HTML 根本不是我在浏览器中加载相同 URL 并查看源代码时得到的结果。我知道对于使用 javascript 的页面,检查元素和查看源代码会有所不同,但 urlopen 应该始终返回与查看源代码相同的 HTML。

我需要提取“Description”之后的字符串。访问浏览器中的链接,我可以检查源代码并查看需要使用 BeautifulSoup 查找的标签;但是,除非 urlopen 正常工作并返回正确的 HTML,否则我无能为力。我的 RA 工作取决于今晚之前完成这件事。

有什么建议么?


页面的某些部分由脚本标记中引用的 Javascript 加载,例如“Summary”。然而,您要查找的文本已嵌入 HTML 中。使用以下代码找到“描述”标记后面的文本:

import requests
from bs4 import BeautifulSoup

url = "http://uswest.ensembl.org/Gallus_gallus/Gene/Summary?db=core;g=ENSGALG00000016955;r=1:165302186-165480795;t=ENSGALT00000027404"
r = requests.get(url, timeout=5)
html = BeautifulSoup(r.text)
description = html.find("div", {'class': "rhs"})
print description.text
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

BeautifulSoup 返回与查看源代码不同的 html 的相关文章

随机推荐

  • 容器固定宽度。中心 div 动态宽度。想要左右 div 均匀地填充剩余宽度

    有三列 所有三列的组合宽度是固定的 第二列 中心 将具有动态内容 我需要左右列来相等地填充剩余空间 容器宽度 中心列动态宽度 例子 http jsfiddle net htKje div class container div class
  • “unsigned int”打印为负数?

    我取一个整数 在本例中为 192 并将其左移 24 个空格 看起来 前导 1 导致它变成负数 unsigned int i 192 unsigned int newnumber i lt lt 24 NSLog newnumber is d
  • SIMD和动态内存分配[重复]

    这个问题在这里已经有答案了 可能的重复 SSE 内在函数和对齐 我是 SIMD 编程新手 所以如果我问一个明显的问题 请原谅 我进行了一些尝试 最后发现我想在动态分配的结构中存储 SIMD 值 这是代码 struct SimdTest m1
  • 此 SqlParameterCollection 不包含 ParameterName 为“@UserId”的 SqlParameter

    我有一个登录页面 用户成功登录后 他们可以查看和管理他们的个人资料 信息 这可以通过从数据库检索数据并显示在表单视图上来完成 但是 我的 userprofile aspx cs 文件中出现以下错误 Exception Details Sys
  • 如何使用 PHP 获取服务器上运行的 PHP 进程列表

    我有一个运行 PHP 文件的 cronjob 该文件运行用 PHP 编写的 DAEMON 但我只想在没有其他实例正在运行的情况下运行 DAEMON 如何获取正在运行的 PHP 进程列表 以便查找我的守护进程正在运行 我想到了某种 exec
  • 没有 Spring Cloud 配置服务器的 RefreshScope 运行时配置

    是否可以使用 RefreshScope 通过 POST Rest api refresh 调用来刷新属性 api url 而无需设置 Spring Cloud 配置服务器和 Spring Cloud 配置客户端设置 例如 Consumer
  • Ruby 方法拦截

    我想拦截 ruby 类上的方法调用 并能够在方法实际执行之前和之后执行某些操作 我尝试了以下代码 但出现错误 MethodInterception rb 16 inbefore filter eval 2 inalias method 未定
  • dbml 文件 - 创建数据库

    我正在尝试使用创建数据库BA dbml文件 Linq 到 Sql 我知道我必须创造DataContext并创建数据库 但我不知道该怎么做 我必须创建吗DataContext in the BA cs file 这可能是多余的帖子 对此我深表
  • 如何更改 iphone sdk xcode 中的 uiimage 颜色

    我正在使用不同的图像 我想包括更改颜色选项 但我不能 有身体帮助我吗 如果你想做图像着色 请参见 UIImage Tint m 中kballard MGImageUtilities 如果您想要批量颜色替换 例如 将图像视为剪影并将整个颜色更
  • 如何比较从 url 到 NSutf8stringencoding 的字符串返回 1 或 0 与普通字符串 @"1"

    我需要使用比较 url 中的字符串NSutf8stringencoding以便返回 1 或 0 但即使字符串值为 1 它也始终返回 0 NSString strURL NSString stringWithFormat http local
  • 使用自定义表情符号创建软键盘

    我的任务是创建一个新的 android3rd party keyboard支持来自资产的自定义表情符号 我自己的图标 我想用我自己的表情符号图标实现一个软键盘不使用 Unicode 或我的自定义 Unicode 问题 如果我创建一个自定义表
  • PHPUnit + Selenium:如何设置 Firefox about:config 选项?

    使用 PHPUnit 和 Firefox 远程运行 Selenium 测试时 onChange 事件不会像用户操作浏览器时那样被触发 解决这个问题的方法似乎是设置focusmanager testmode选项true在 Firefox 的偏
  • 回发期间 GridView.DataSource 为空

    我想从我的应用程序中的每个 Gridview 实现打印 下载 csv 那些通过数据源或直接通过 gvSample DataSource Data gvSample DataBind 现在我的第一个方法是在页脚模板中设置一个下载按钮并在那里处
  • 从 .m matlab 文件中声明的矩阵创建 numpy 数组

    一位同事留下了一些我想用 Numpy 分析的数据文件 每个文件都是一个 matlab 文件 例如data m 并具有以下格式 但有更多的列和行 values 24 92 23 66 22 55 24 77 23 56 22 45 24 54
  • 查找并替换数组中的特定哈希及其值

    在数组中查找特定哈希并就地替换其值的最有效方法是什么 以便数组也发生更改 到目前为止 我已经得到了这段代码 但在具有大量数据的实际应用程序中 这成为应用程序中最慢的部分 这可能会泄漏内存 因为当我对每个 websocket 消息执行此操作时
  • 实体框架对同一个表的多次引用

    我在使用 EF 代码优先创建数据库时遇到问题 我有一个实体播放器和一个实体炸船 每个友谊都涉及两个玩家 其中一名玩家是友谊的发送者 另一位是友谊的接收者 这是我的实体 播放器 cs public class Player public in
  • 如何避免 STRING_AGG 函数中的重复

    我的查询如下 select u Id STRING AGG sf Naziv as Ustrojstvena jedinica ISNULL CONVERT varchar 200 STRING AGG TRIM p Naziv 121 a
  • 如何从 groovy/grails 查询 mongodb?

    我是否必须有一个域对象才能查询mongodb 如果我只想显示一些原始数据怎么办 查询的语法是什么mongodb从我的控制器 I tried def var db nameOfMyCollection find 但它说我的控制器类中没有 db
  • 优化 .NET 中 System.Drawing 的 PNG 输出 [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心以获得指导 我有一个例程 它读取图像
  • BeautifulSoup 返回与查看源代码不同的 html

    我是使用 BeautifulSoup 的新手 所以如果我的问题很愚蠢 请原谅我 然而 自早上 6 点以来 我一直在谷歌上搜索并尝试在每个 stackoverflow 线程中尝试建议 但无济于事 我的问题是我有一个带有基因名称的 csv 文件