BeautifulSoup 返回与查看源代码不同的 html

2023-12-03

我是使用 BeautifulSoup 的新手，所以如果我的问题很愚蠢，请原谅我。然而，自早上 6 点以来，我一直在谷歌上搜索并尝试在每个 stackoverflow 线程中尝试建议，但无济于事。

我的问题是我有一个带有基因名称的 .csv 文件，其中一些是 ensEMBL 格式，这意味着我必须使用 ensembl 数据库来查找我需要的信息。其余的我可以使用 ncbi 数据库。

现在，我的代码就很好了。我知道这一点是因为发送到 ncbi 的每个查询都会返回我需要的信息，并且我可以使用 BeautifulSoup 提取所有信息并将其输出到 csv。然而，urlopen 或 BeautifulSoup 都没有按照我被引导理解的方式工作。

当我将以下 URL 放入地址栏中时，会加载正确的网页：http://uswest.ensembl.org/Gallus_gallus/Gene/Summary?db=core;g=ENSGALG00000016955;r=1:165302186-165480795;t=ENSGALT00000027404.

然后我可以查看源代码并查看 HTML。然而当我有：

html = urlopen(http://uswest.ensembl.org/Gallus_gallus/Gene/Summary?db=core;g=ENSGALG00000016955;r=1:165302186-165480795;t=ENSGALT00000027404, 'lxml')

它输出的 HTML 根本不是我在浏览器中加载相同 URL 并查看源代码时得到的结果。我知道对于使用 javascript 的页面，检查元素和查看源代码会有所不同，但 urlopen 应该始终返回与查看源代码相同的 HTML。

我需要提取“Description”之后的字符串。访问浏览器中的链接，我可以检查源代码并查看需要使用 BeautifulSoup 查找的标签；但是，除非 urlopen 正常工作并返回正确的 HTML，否则我无能为力。我的 RA 工作取决于今晚之前完成这件事。

有什么建议么？

页面的某些部分由脚本标记中引用的 Javascript 加载，例如“Summary”。然而，您要查找的文本已嵌入 HTML 中。使用以下代码找到“描述”标记后面的文本：

import requests
from bs4 import BeautifulSoup

url = "http://uswest.ensembl.org/Gallus_gallus/Gene/Summary?db=core;g=ENSGALG00000016955;r=1:165302186-165480795;t=ENSGALT00000027404"
r = requests.get(url, timeout=5)
html = BeautifulSoup(r.text)
description = html.find("div", {'class': "rhs"})
print description.text

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

BeautifulSoup 返回与查看源代码不同的 html 的相关文章

rvest 函数 html_nodes 返回 {xml_nodeset (0)}

我正在尝试抓取以下网站的数据框 http stats nba com game 0041700404 playbyplay http stats nba com game 0041700404 playbyplay 我想创建一个表格其中包
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
Django 中所有应用程序的基本模板

我有一个包含 2 个应用程序的项目 project blog templates index html polls templates index html project templates base html index html 现在
如何从 ISI Web of Knowledge 检索有关期刊的信息？

我正在从事一些预测文章引用计数的工作我遇到的问题是我需要 ISI Web of Knowledge 中有关期刊的信息他们逐年收集这些信息期刊影响因子特征因子但无法一次下载所有一年期期刊信息只有标记全部选项该选项始终标记列表
Pycharm 中的 Traitlets.traitlets.TraitError

我是Python的初学者我面临以下问题每当我启动 pycharm 社区版版本 5 0 3 时 Python 控制台无法启动并显示以下错误 usr bin python2 7 usr lib pycharm community help
Selenium driver.page_source() 仅提取部分 HTML DOM

我有一个网页当我右键单击它然后查看页面源时我得到 SECTION A 但是当我点击它然后检查时我得到了更长的输出我尝试使用 JS 获取页面源但同样的问题我得到了输出SECTION A 我怎样才能解决这个问题注意我正在寻找通用
Windows 7 64位 libsvm 和 python 错误：找不到函数“svm_get_sv_indices”

我正在使用 Windows 7 64 位我已经安装了 Python 2 7 3 32 位版本和 libsvm 3 13 当我尝试启动导入 svmutil 的简单 py 文件时出现错误 C libsvm 3 13 python gt p
使用 rvest 进行抓取 - 当标签不存在时，使用 NA 完成抓取

我想解析这个 HTML 并从中获取这个元素 a p标签与class normal encontrado b div with class price 有时 p某些产品中不存在标签如果是这种情况 NA应添加到从该节点收集文本的向量中这个
IndexError：索引 10 超出尺寸为 10 的轴 0 的范围

我正在以数字方式为 x 网格和 x 向量以及时间网格设置网格但我再次设置了一个数组x 位置只能在 0 到 20 之间并且t 时间将从 0 到 1000 以便求解热方程但每次我想要例如我将步数设置为 10 时都会收到错误 Tra
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
使用 Pyinstaller 打包：PyQt4.QtGui.setStyle 被忽略？

问题如何在 Ubuntu 14 04 上使用 Pyinstaller 为我的应用程序设置 PyQt 样式 Details 我在 Windows 上使用 pyinstaller 打包了一个 PyQt4 Python 应用程序它似乎工作正常
使用 OpenCV 进行相机校准 - 如何调整棋盘方块大小？

我正在使用 OpenCV Python 示例开发相机校准程序来自 OpenCV 教程 http opencv python tutroals readthedocs io en latest py tutorials py calib3d
当我打印“查询”时获取 PY_VAR1

我正在制作一个简单的网络抓取代码当我尝试打印一个值时它给了我其他东西 def PeopleSearch query SearchTerm query what is query print str query SearchTerm St
Puppeteer 错误错误：等待选择器超时

目前我有一个网站其 HTML 中有此内容我通过检查chrome开发者工具中的元素确认了这一点 div class hdp photo carousel div class photo tile photo tile large 我直观地
在 CSV 文件的最上面一行写入

我有这个sample csv 文件 a 1 apple b 2 banana c 3 cranberry d 4 durian e 5 eggplant 并有以下代码 samplefile open sample csv rb rows s
Python 柯里化任意数量的变量

我正在尝试使用柯里化在 Python 中进行简单的函数添加我找到了这个咖喱装饰器here https gist github com JulienPalard 021f1c7332507d6a494b def curry func def
Python 2.7 中四舍五入到小数点后两位？

使用Python 2 7如何将我的数字四舍五入到小数点后两位而不是它给出的10位左右 print financial return of outcome 1 str out1 使用内置函数round https docs python or
如何在 pygame 中水平翻转图像？

这是在 pygame 如何翻转图像假设一个图像猪向右看时向左看我按向左箭头键然后保持这样即使我不按任何键或者按向上和向下箭头键那么当我按向右箭头键时如何再次将其切换回向右看并使其保持这种状态即使我不按任何键或按向上和向
rpy2 在从 R 到 Python 的数据帧中处理 NA/缺失值时出现问题

我在使用rpy2包进行转换时遇到问题dataframe将 R 中的内容保存到 Python 中 import os os environ R HOME Library Frameworks R framework Resources imp
找出段落中出现的单词

sentence Alice was not a bit hurt and she jumped up on to her feet in a moment words Alice jumped played 我可以使用filterpyth

随机推荐

容器固定宽度。中心 div 动态宽度。想要左右 div 均匀地填充剩余宽度

有三列所有三列的组合宽度是固定的第二列中心将具有动态内容我需要左右列来相等地填充剩余空间容器宽度中心列动态宽度例子 http jsfiddle net htKje div class container div class
“unsigned int”打印为负数？

我取一个整数在本例中为 192 并将其左移 24 个空格看起来前导 1 导致它变成负数 unsigned int i 192 unsigned int newnumber i lt lt 24 NSLog newnumber is d
SIMD和动态内存分配[重复]

这个问题在这里已经有答案了可能的重复 SSE 内在函数和对齐我是 SIMD 编程新手所以如果我问一个明显的问题请原谅我进行了一些尝试最后发现我想在动态分配的结构中存储 SIMD 值这是代码 struct SimdTest m1
此 SqlParameterCollection 不包含 ParameterName 为“@UserId”的 SqlParameter

我有一个登录页面用户成功登录后他们可以查看和管理他们的个人资料信息这可以通过从数据库检索数据并显示在表单视图上来完成但是我的 userprofile aspx cs 文件中出现以下错误 Exception Details Sys
如何使用 PHP 获取服务器上运行的 PHP 进程列表

我有一个运行 PHP 文件的 cronjob 该文件运行用 PHP 编写的 DAEMON 但我只想在没有其他实例正在运行的情况下运行 DAEMON 如何获取正在运行的 PHP 进程列表以便查找我的守护进程正在运行我想到了某种 exec
没有 Spring Cloud 配置服务器的 RefreshScope 运行时配置

是否可以使用 RefreshScope 通过 POST Rest api refresh 调用来刷新属性 api url 而无需设置 Spring Cloud 配置服务器和 Spring Cloud 配置客户端设置例如 Consumer
Ruby 方法拦截

我想拦截 ruby 类上的方法调用并能够在方法实际执行之前和之后执行某些操作我尝试了以下代码但出现错误 MethodInterception rb 16 inbefore filter eval 2 inalias method 未定
dbml 文件 - 创建数据库

我正在尝试使用创建数据库BA dbml文件 Linq 到 Sql 我知道我必须创造DataContext并创建数据库但我不知道该怎么做我必须创建吗DataContext in the BA cs file 这可能是多余的帖子对此我深表
如何更改 iphone sdk xcode 中的 uiimage 颜色

我正在使用不同的图像我想包括更改颜色选项但我不能有身体帮助我吗如果你想做图像着色请参见 UIImage Tint m 中kballard MGImageUtilities 如果您想要批量颜色替换例如将图像视为剪影并将整个颜色更
如何比较从 url 到 NSutf8stringencoding 的字符串返回 1 或 0 与普通字符串 @"1"

我需要使用比较 url 中的字符串NSutf8stringencoding以便返回 1 或 0 但即使字符串值为 1 它也始终返回 0 NSString strURL NSString stringWithFormat http local
使用自定义表情符号创建软键盘

我的任务是创建一个新的 android3rd party keyboard支持来自资产的自定义表情符号我自己的图标我想用我自己的表情符号图标实现一个软键盘不使用 Unicode 或我的自定义 Unicode 问题如果我创建一个自定义表
PHPUnit + Selenium：如何设置 Firefox about:config 选项？

使用 PHPUnit 和 Firefox 远程运行 Selenium 测试时 onChange 事件不会像用户操作浏览器时那样被触发解决这个问题的方法似乎是设置focusmanager testmode选项true在 Firefox 的偏
回发期间 GridView.DataSource 为空

我想从我的应用程序中的每个 Gridview 实现打印下载 csv 那些通过数据源或直接通过 gvSample DataSource Data gvSample DataBind 现在我的第一个方法是在页脚模板中设置一个下载按钮并在那里处
从 .m matlab 文件中声明的矩阵创建 numpy 数组

一位同事留下了一些我想用 Numpy 分析的数据文件每个文件都是一个 matlab 文件例如data m 并具有以下格式但有更多的列和行 values 24 92 23 66 22 55 24 77 23 56 22 45 24 54
查找并替换数组中的特定哈希及其值

在数组中查找特定哈希并就地替换其值的最有效方法是什么以便数组也发生更改到目前为止我已经得到了这段代码但在具有大量数据的实际应用程序中这成为应用程序中最慢的部分这可能会泄漏内存因为当我对每个 websocket 消息执行此操作时
实体框架对同一个表的多次引用

我在使用 EF 代码优先创建数据库时遇到问题我有一个实体播放器和一个实体炸船每个友谊都涉及两个玩家其中一名玩家是友谊的发送者另一位是友谊的接收者这是我的实体播放器 cs public class Player public in
如何避免 STRING_AGG 函数中的重复

我的查询如下 select u Id STRING AGG sf Naziv as Ustrojstvena jedinica ISNULL CONVERT varchar 200 STRING AGG TRIM p Naziv 121 a
如何从 groovy/grails 查询 mongodb？

我是否必须有一个域对象才能查询mongodb 如果我只想显示一些原始数据怎么办查询的语法是什么mongodb从我的控制器 I tried def var db nameOfMyCollection find 但它说我的控制器类中没有 db
优化 .NET 中 System.Drawing 的 PNG 输出 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我有一个例程它读取图像
BeautifulSoup 返回与查看源代码不同的 html

我是使用 BeautifulSoup 的新手所以如果我的问题很愚蠢请原谅我然而自早上 6 点以来我一直在谷歌上搜索并尝试在每个 stackoverflow 线程中尝试建议但无济于事我的问题是我有一个带有基因名称的 csv 文件

BeautifulSoup 返回与查看源代码不同的 html

BeautifulSoup 返回与查看源代码不同的 html 的相关文章

随机推荐

热门标签