美丽汤无法“获取”完整网页

2024-04-21

我正在使用 BeautifulSoup 来解析来自的一堆链接但它并没有提取我想要的所有链接。为了尝试找出原因，我将 html 下载到“web_page.html”并运行

soup = BeautifulSoup(open("web_page.html"))
print soup.get_text()

我注意到它不会打印整个网页。故事在布莱克利结束。我查看了 html 代码，看看“Brackley”是否发生了奇怪的事情，但我找不到任何东西。另外，如果我将另一个链接移至布莱克利的位置，它将打印该链接，而不是布莱克利。好像只能读取一定大小的html文件？

不知道你是如何获得页面和链接的，这是我所做的，并获得了从“加拿大”开始到“Taloyoak，HAM”结束的所有链接：

from bs4 import BeautifulSoup
import requests

url = 'http://www12.statcan.gc.ca/census-recensement/2006/dp-pd/tbt/Geo-index-eng.cfm?TABID=5&LANG=E&APATH=3&DETAIL=0&DIM=0&FL=A&FREE=0&GC=0&GID=0&GK=0&GRP=1&PID=99015&PRID=0&PTYPE=88971,97154&S=0&SHOWALL=0&SUB=0&Temporal=2006&THEME=70&VID=0&VNAMEE=&VNAMEF=&D1=0&D2=0&D3=0&D4=0&D5=0&D6=0'
response = requests.get(url)

soup = BeautifulSoup(response.content)
print [a.text for a in soup.select('div.span-8 ol li a')]

Prints:

[
    u'Canada', 
    u'Newfoundland and Labrador / Terre-Neuve-et-Labrador',
    ...
    u'Gjoa Haven, HAM', 
    u'Taloyoak, HAM'
]

FYI, div.span-8 ol li a is a CSS Selector http://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

webscraping

beautifulsoup

美丽汤无法“获取”完整网页的相关文章

如何创建毫秒粒度的 Python 时间戳？

我需要一个自纪元以来的毫秒 ms 时间戳这应该不难我确信我只是缺少一些方法datetime或类似的东西实际上微秒 s 粒度也很好我只需要亚 1 10 秒的计时例子我有一个每 750 毫秒发生一次的事件假设它检查灯是否打开或关闭
如果使用 unicode 字符，则从数据库中进行 SELECT 会出现问题

我在用着latest带DatabaseLibrary的python和机器人框架版本 https franz see github io Robotframework Database Library api 1 0 1 DatabaseLi
可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
在 python 中查找价格动量的有效方法：对列的最后 n 个条目求平均值

我正在定义价格动量是给定股票过去动量的平均值n days 反过来动量是一种分类如果当天的收盘价高于前一天则每天标记为 1 如果当天的收盘价低于前一天则标记为 1 我的库存变化百分比如下 df close in percent np
使用正则表达式检查整个字符串

我正在尝试检查字符串是否是数字因此正则表达式 d 似乎不错然而由于某种原因该正则表达式也适合 78 46 92 168 8000 这是我不想要的一些代码 class Foo rex re compile d def bar sel
导入 scipy.stats 时，出现“ImportError: DLL load failed: 找不到指定的过程”

我无法导入 scipy stats 并收到以下错误但不知何故 import scipy as sp 仍然可以正常工作其他库如numpy pandas都可以毫无问题地导入我尝试在 Anaconda 中重新安装 scipy 1 2 1 降
参数太少错误，同时未使用参数占位符

我尝试使用 PYODBC 在 Access 数据库中执行 SQL 查询但出现以下错误 pyodbc Error 07002 07002 Microsoft ODBC Microsoft Access 驱动程序参数太少预期为 1 301
使用“SVG 多边形”悬停状态在“SVG”之后淡入 div

有没有一个只用CSS来解决这个问题的方法我希望能够在 SVG 之后淡入 div 但前提是用户将鼠标悬停在 SVG 多边形上代码看起来像这样
在我的 Mac 上以 root 身份运行 pip 时出现“权限被拒绝”

我开始使用我的 Mac 来安装 Python 包就像我在工作中使用 Windows PC 一样然而在我的 Mac 上我经常遇到没有权限写入日志文件或站点包时出错于是我想到了跑步pip install
链接到当前页面，无需查询字符串

我知道做链接有很多技巧例如 a href query string 附加查询字符串后将链接到当前页面有没有办法在删除查询字符串后链接回当前页面而无需仅输入文件名例如在页面foo php q 3 我想链接到foo php 有没有快捷
配置 Flask 以正确加载 Bootstrap js 和 css 文件

如何使用 Flask 中的 url for 指令来正确设置以便使用 Bootstrap 和 RGraph 的 html 页面可以正常工作假设我的 html 页面看起来像这样部分片段
如何在 Python for 循环中获取 GAE ndb 中当前记录的密钥？

我目前有一个网页其中显示数据存储中的记录列表以及编辑链接我想从数据库转换它至新开发银行我是 Python 和 GAE 新手当前代码 tbody for listtype in listtypes tr td listtype Li
在Python中将用户昵称转换为正式名字

我正在尝试根据 Python 中的用户名字和姓氏映射来自不同系统的用户一个问题是名字在很多情况下都是昵称例如对于用户来说他的名字在一个系统中是 Dave 而在另一个系统中是 David python 中有没有简单的方法可以将这些
Pandas如何将多个函数应用于数据框

有没有办法像 DataFrameGroupBy agg 函数那样将函数列表应用于 DataFrame 中的每一列我发现了一个丑陋的方法来做到这一点 df pd DataFrame dict one np random uniform 0
如何在Python中获取套接字的外部IP？

当我打电话时socket getsockname 在套接字对象上它返回我的机器的内部 IP 和端口的元组但是我想找回我的外部IP 最便宜最有效的方式是什么如果没有外部服务器的配合这是不可能的因为您和另一台计算机之间可能存在任意
如何更改Python使用的SQLite版本？

我在 Debian 9 12 上安装了 Python 3 8 和 SQLite 3 16 2 并且需要升级到较新版本的 SQLite 我已经下载并编译了 SQLite 网站上提供的合并并将其放入 usr bin 所以当我这样做时 sqli
有没有办法将样式强制应用到已经具有 style="" 属性的 div 元素

我正在尝试对我无法控制的 HTML 输出进行皮肤处理其中一个元素是div with a style overflow auto 属性 CSS 有没有办法强制这样做div to use overflow hidden 你可以加 import
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
matplotlib imshow() 和像素强度

我试图了解矩阵的值是如何输入到 matplotlib 的imshow 函数确定灰度模式下像素的强度考虑示例代码 import random import matplotlib pyplot as plt import matplotlib

随机推荐

github API - 使用curl PUT 将存储库添加到团队

我正在尝试向 github 上的团队添加一个存储库因此 curl i u username password X PUT d https api github com teams team repos user repo 具体内容省略几
如何使用 linq 对数据表中的多列进行分组？ [复制]

这个问题在这里已经有答案了我正在使用 Linq 按数据表中的某些列进行分组 List
比较两个未排序的文件

我有两个制表符分隔的文件请参阅下面的示例 File 1 Java RAJ PERL ALEX PYTHON MAurice 等等 File 2 ALEX 3 4 SAM 8 9 PEPPER 9 0 现在如果说 ALEX 也在文件 2
如何使用 Excel VBA 打开在特定时间范围内发送到特定 Outlook 文件夹的 Outlook Excel 附件？

这是我的第一个问题我想主修计算机科学但与此同时我恳请您在使用 VBA Excel 方面提供一些帮助我每天工作日都会收到具有相同文件名的 Outlook 电子邮件我想对 VBA Excel 进行编程以打开前一天晚上收到的 Ou
netty 4.x.x 中的 UDP 广播

我们需要使用 Netty 4 0 0 二进制文件通过 UDP 通道广播对象 Pojo 在 Netty 4 0 0 中它允许我们仅使用 DatagramPacket 类来发送 UDP 数据包此类仅接受 ByteBuf 作为参数还有其他方
获取元组元素类型的索引？

如果我有一个具有不同元素类型的元组例如 std tuple
Python错误：FileNotFoundError：[Errno 2]没有这样的文件或目录[重复]

这个问题在这里已经有答案了我试图从文件夹中打开文件并读取它但它没有找到它我正在使用Python3 这是我的代码 import os import glob prefix path C Users mpotd Documents Git
WPF BindingListCollectionView 到 ListCollectionView（数据表作为 ItemsSource）

我想在具有 DataTable 作为 ItemsSource 的 ListView 上进行自定义排序 myListView ItemsSource data as DataTable 这是我的排序函数的第一行 DataView view m
如何从statsmodels.api中提取回归系数？

result sm OLS gold lookback silver lookback fit 得到结果后如何得到系数和常数呢换句话说如果y ax c如何获取值a and c 您可以使用params拟合模型的属性以获得系数例如以下
用于以块形式解码 zip 文件的库

嗨各位溢出者我需要在 iPad 上解码一个大的 zip 文件大约 20mb 有没有办法分块解析 zip 文件理想情况下我想一次传递解码器比方说 512k 数据并返回一大块解码数据因为我有一种感觉将所有文件加载到内存中然后解压
Apache Camel 根据请求使用文件内容丰富消息

我正在实现 RESTful 服务使用 CXFRS 组件它应该返回某些请求的文件每个文件都通过其 id 和扩展名来获取即restfulservice com path file 1 pdf 每个文件一旦添加就不会改变文件在获取后不应
如何为 2 个不同的视图重用一个控制器？

我定义了一个控制器并将其应用于两个有细微差别的视图角度代码 app controller MyCtrl function scope scope canSave false scope demo files filename aaa h
无法在 Istio 代理后面的 k8s 中建立与 VerneMQ 集群的 mqtt 连接

我正在设置 k8s 本地 k8s 集群对于测试我在使用 kubeadm 设置的虚拟机上使用单节点集群我的要求包括在 k8s 中运行 MQTT 集群 vernemq 并通过 Ingress istio 进行外部访问无需部署 ingre
@GenerateValue with Strategy=GenerationType.AUTO 重启后生成重复值

我有一个 ID 配置为的休眠实体 Id GeneratedValue strategy GenerationType AUTO private Long id 新元素的创建在第一次运行时工作正常但是如果我重新启动应用程序并检索记录下次
如何配置 prometheus-operator 从 Kubernetes 上的 cAdvisor 收集？

我在用普罗米修斯操作员 https github com coreos prometheus operator管理一个普罗米修斯 https prometheus io 部署在我的库伯内斯 https kubernetes io 簇该设置
VSTO - 存储 Excel 工作簿设置的最佳位置

我有一个用 VBA 实现的旧版 Excel AddIn 我正在使用 VSTO 慢慢将其移植到 net 使用此插件我将每个工作簿的设置存储在隐藏工作表中我想知道是否有更好的方法使用 VSTO 来做到这一点您可以使用自定义文档属性 htt
解析器中的运算符优先级和结合性 (Haskell)

我正在尝试扩展递归下降解析器来处理新运算符并使它们正确关联最初只有四个运算符并且它们都具有相同的优先级我正在查看的函数是 parseExpRec 函数 parseExpRec Exp gt Token gt Exp Token par
MySQL - 选择最近 10 位作者的最新帖子

我有一个包含许多不同作者的博客文章的表我想做的是显示 10 位最新作者各自的最新帖子每个作者的帖子只是按顺序添加到表中这意味着单个作者可能会发布多篇帖子我花了很多时间想出一个查询来做到这一点这给了我最后 10 个唯一的作者 ID
使用 Gradle，如何打印每个任务执行所需的时间？

现在对于频繁运行的 gradle 目标之一输出如下所示 DataPlanner clean common clean server clean simulator clean util clean util compileJava ut
美丽汤无法“获取”完整网页

我正在使用 BeautifulSoup 来解析来自的一堆链接但它并没有提取我想要的所有链接为了尝试找出原因我将 html 下载到 web page html 并运行 soup BeautifulSoup open web page ht

美丽汤无法“获取”完整网页

美丽汤无法“获取”完整网页 的相关文章

随机推荐

热门标签

美丽汤无法“获取”完整网页的相关文章