如何阅读网站内容？

2024-06-19

我是使用 python 2.7 的网络爬虫的新手。

一、背景

现在，我想收集有用的数据AQICN.org http://aqicn.org/city/shenyang/usconsulate/这是一个很棒的网站，提供世界各地的空气质量数据。

我想用python获取中国所有网站每小时的数据。但我现在被困住了。

2.我的烦恼

拿这个网站（http://aqicn.org/city/shenyang/usconsulate/ http://aqicn.org/city/shenyang/usconsulate/）例如。

本页提供美国驻华领事馆的空气污染和气象参数。使用这样的代码，我无法获得有用的信息。

import urllib
from bs4 import BeautifulSoup
import re
import json

html_aqi =    
urllib.urlopen("http://aqicn.org/city/shenyang/usconsulate/json").read().decode('utf-8')
soup= BeautifulSoup(html_aqi)
l = soup.p.get_text() 
aqi= json.loads(l)

结果显示如下：

> ValueError: No JSON object could be decoded

所以，我将 html_aqi 更改为这种格式（参考某人的工作）：

http://aqicn.org/aqicn/json/android/shenyang/usconsulate/json http://aqicn.org/aqicn/json/android/shenyang/usconsulate/json

该代码运行良好。

3.我的目标。

格式1：（http://aqicn.org/city/shenyang/usconsulate/json) http://aqicn.org/city/shenyang/usconsulate/json)_

如果您对空气质量指数感兴趣，请查找div with aqivalue class:

>>> import urllib
>>> from bs4 import BeautifulSoup
>>> 
>>> url = "http://aqicn.org/city/shenyang/usconsulate/json"
>>> soup = BeautifulSoup(urllib.urlopen(url), "html.parser")
>>> soup.find("div", class_="aqivalue").get_text()
u'171'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

beautifulsoup

webcrawler

urllib

如何阅读网站内容？的相关文章

scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
Google Calendar JSON API：全天活动总是多一天

Since recently the JSON API always seems to add a day when returning the timespan for full day events Display in Google
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
JSON.NET 使用 JObject、JToken 和 JArray 进行解析

我有一个 json 字符串我试图用 JSON net 解析它我想循环并使用komponent大批这是我的 json 字符串 Name Service jsonTEMPLATE komponent name aa name bb 这是我

随机推荐

Struts2 中有多种结果类型？

我有一个使用 Tiles 的 Struts2 应用程序如何在操作映射中获取多种结果类型因为我需要将de输出设置为JSON数据并且同时Tiles 我努力了
网站可以检测您何时将 Selenium 与 chromedriver 结合使用吗？

我一直在使用 Chromedriver 测试 Selenium 我注意到有些页面可以检测到您正在使用 Selenium 即使根本没有自动化即使我只是通过 Selenium 使用 Chrome 手动浏览 Xephyr https en wi
如何使用 Spring Security 手动注销用户？

也许答案很简单如何在 Spring Security 中手动注销当前登录的用户拨打电话是否足够 SecurityContextHolder getContext getAuthentication setAuthenticated fa
VSTS部署IIS应用程序winrm并更改appsettings.json

我正在使用部署 IIS 应用程序 winrm 任务在另一台计算机上部署 IIS 应用程序此任务部署 zip 文件在此 zip 中有一个 appsettings json 其变量以下划线开头和结尾我需要替换每个环境的 appsetti
删除 IF ELSE 语句中的临时表

我在这里面临僵局问题是我必须更改使用 3 个不同临时表的过程为了便于对话让我们将它们命名为 temptable1 temptable2 temptable3 我无法在这里复制粘贴整个过程但总体思路是这样的原始过程 procedu
为什么 JDOM 的 getChild() 方法返回 null？

我正在做一个关于 html 文档操作的项目我想要现有 html 文档中的正文内容将其修改为新的 html 现在我正在使用 JDOM 我想在我的编码中使用 body 元素为此我在编码中使用了 getChild body 但它向我的程序返
TListView 中的中心子项目图像

Is it possible to fix the drawing of subitem images in a TListView so that they are not cut off on the left hand side as
读取完 JSON 内容和意外标记后遇到的其他文本（在我的 json 中）

我使用 JSON Net 创建的 json feed 遇到一些问题当我尝试解析它时它给了我读取完 JSON 内容后遇到的附加文本路径第 17 行位置 4 我尝试用以下方法验证它http json parser online fr
用于清除工作空间和转储存储的 R 全局函数

我希望创建一个全局函数来清除我的工作区并转储我的内存我将我的函数称为 cleaner 并希望它执行以下代码 remove list ls gc 我尝试在全局环境中创建该函数但是当我运行它时控制台仅打印该函数的文本在我要获取的函数文件
有没有办法阻止 SQL Express 2008 空闲？

我使用 SQL Express 2008 作为 Web 应用程序的后端问题是 Web 应用程序是在工作时间使用的因此有时在午餐或休息时间如果 20 分钟内没有用户登录 SQL Express 将进入空闲状态模式并释放其缓存我知道这一
使用 TABLE_DATE_RANGE 时如何获取表名称

我想使用 TABLE DATE RANGE 获取每日统计信息如下所示 Select count tableName FROM TABLE DATE RANGE appengine logs appengine googleapis com
C++ 中带逗号的表达式的执行顺序 [重复]

这个问题在这里已经有答案了我的理解是这个词j i将在之前执行 i在声明中 j i i C 标准是否保证j i将在之前执行 i在循环 for auto i std next begin j begin i end j i i 逗号运算符引入
如何将 pygame Surface 转换为 PIL 图像？

我正在使用 PIL 来透视地变换屏幕的一部分原始图像数据是一个 pygame Surface 需要转换为 PIL 图像因此我发现了 pygame 的 tostring 函数就是为了这个目的而存在的然而结果看起来很奇怪见附图这段代码
Razor 视图类型不继承自“System.Web.WebPages.WebPage”

我在配置 ASP NET MVC 应用程序时遇到问题 HttpException 0x80004005 Type ASP Page Currency Index cshtml does not inherit from System Web
Ansible - 任务系列 1 逆序

我想创建两本剧本一本用于停止环境另一本用于启动它环境的一部分是 RabbitMQ 集群对于其停止启动顺序非常重要特别是最后一个停止的节点需要是第一个启动的节点我想知道是否有一种方法可以指定针对组运行任务的相反顺序这样我就可以
变量前面的@是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复参考这个符号在 PHP 中意味着什么 https stackoverflow com questions 3737139 reference what does this symbol mean i
localStorage 获取 NULL？

我不知道为什么因为我之前已经这样做过并且工作正常我认为这可能是因为浏览器问题错误 localStorage setItem foo bar alert localStorage getItem foo 我使用的是 Firefox 3
API 级别 11+ 之后，进度对话框未在 ActionBarSherlock 中对齐

在我的项目中我添加了 Library ActionBar Sherlock 并为我的项目创建自定义主题我已经创建了自定义主题here http jgilfelt github io android actionbarstylegener
Node.js 在 Google Cloud Platform 上运行 Hello World 错误部署错误

我在 Mac OSX Yosemite 上当我执行以下步骤运行 Hello World 时出现错误适用于 Google Cloud Platform 的 Node JS Hello World 教程 https cloud google
如何阅读网站内容？

我是使用 python 2 7 的网络爬虫的新手一背景现在我想收集有用的数据AQICN org http aqicn org city shenyang usconsulate 这是一个很棒的网站提供世界各地的空气质量数据我想用

热门标签