不断完善

2023-11-17

2019独角兽企业重金招聘Python工程师标准>>>

1. 最简单的网页下载代码
	import urllib2                 #使用urllib2模块
	from sys import argv
	script,urlo = argv
	
	def download(url):
		html = urllib2.urlopen(url).read()   #将打开的url传给html变量
		print html 
		
	if __name__ =='__main__':
		 download(urlo)
>>> python    文件名     网址(http：//……)
2. 当下载网页出现错误或异常时，代码应该可以处理异常情况
	import urllib2
	from sys import argv
	script,urlo = argv
	
	def download(url):
		print 'Downloading:',url 
		try:                                           #使用try … expect … 捕获异常
			html = urllib2.urlopen(url).read()
		except urllib2.URLError as e:
			print 'Downloading Error:',e.reason
			html = None                    # 如果出现异常，那就什么都不返回就行了
		print html 
		
	if __name__ =='__main__':
		 download(urlo)
3. 当下载出现错误时，html = None，无法下载打印网页，或许是服务器端发生错误而请求不存在问题，所以可以尝试重试下载。在download（）函数中添加一个重试次数参数，以设置重试下载的次数，防止服务器错误可能暂时没有解决。
import urllib2
from sys import argv
script,urlo = argv

def download(url,num_retries=2):
	print 'Downloading:',url 
	try:
		html = urllib2.urlopen(url).read()
	except urllib2.URLError as e:
		print 'Downloading Error:',e.reason
		html = None 
		if num_retries>0:
			if hasattr(e,'code') and 500<=e.code<600:	#判断 e 中是否存在 code属性或code方法，若存在返回True,否则返回False			
				return download(url,num_retries-1)	   #递归调用函数以重试下载				
	print html 
	
if __name__ =='__main__':
	 download(urlo)
4. 为代码增加设置代理的功能以防止爬取时使用默认代理而被封禁导致访问拒绝
	import urllib2
	from sys import argv
	script,urlo = argv
	
	def download(url,user_agent = 'wswp',num_retries=2):
		print 'Downloading:',url 
		headers = {'User-agent':user_agent}
		request = urllib2.Request(url,headers=headers)      #使用urllib2.request创建一个request对象，该对象在HTTP请求时，允许你做额外的两件事。首先是你能够发送data表单数据，其次你能够传送额外的关于数据或发送本身的信息("metadata")到服务器，此数据作为HTTP的"headers"来发送。
		try:
			html = urllib2.urlopen(request).read()
		except urllib2.URLError as e:
			print 'Downloading Error:',e.reason
			html = None 
			if num_retries>0:
				if hasattr(e,'code') and 500<=e.code<600:				
					return download(url,user_agent,num_retries-1)					
		print html 
		
	if __name__ =='__main__':
		 download(urlo)
5. 以上代码是下载一个链接下的网页，但是要下载指定类型链接或下载大量网页，则要有一个爬取网站链接的函数
	import urlparse
	def link_crawler(seed_url, link_regex):
		crawl_queue = [seed_url]
		while crawl_queue:
			url = crawl_queue.pop()    
			html = download(url)
			for link in get_links(html):
				if re.match(link_regex, link):             #使用正则表达式确定含有指定字符的链接
					link = urlparse.urljoin(seed_url, link)            #将网页中的相对链接转换成绝对链接
					crawl_queue.append(link)                   #将符合条件的链接加入要爬取的链接列表中
	def get_links(html):
		webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']', re.IGNORECASE)
		return webpage_regex.findall(html)
6. 当下载链接时，新下载的页面中可能包含已经下载过的网页链接，会重复下载。要避免重复下载，要记录已经下载过的链接，以防止重复下载。
	import urlparse
	def link_crawler(seed_url, link_regex):
		crawl_queue = [seed_url]
		seen = set(crawl_queue)                 #创建一个链接集合
		while crawl_queue:
			url = crawl_queue.pop()    
			html = download(url)
			for link in get_links(html):
				if re.match(link_regex, link):             #使用正则表达式确定含有指定字符的链接
					link = urlparse.urljoin(seed_url, link)            #将网页中的相对链接转换成绝对链接
					if link not in seen:                           #判断链接是否已经下载过
						seen.add(link)
						crawl_queue.append(link)                   #将符合条件的链接加入要爬取的链接列表中
	def get_links(html):
		webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']', re.IGNORECASE)
		return webpage_regex.findall(html)
7. 为代码增加解析robots.txt文件的能力，以防止下载到禁止爬取得URL
	import urlparse
	import robotparser
	def link_crawler(seed_url, link_regex):
		crawl_queue = [seed_url]
		seen = set(crawl_queue)                 #创建一个链接集合
		rp = get_robots(seed_url)
		while crawl_queue:
			url = crawl_queue.pop()  
			if rp.can_fetch(user_agent, url):         #判断设置的代理是否被允许访问网页
				html = download(url)
				for link in get_links(html):
					if re.match(link_regex, link):             #使用正则表达式确定含有指定字符的链接
						link = urlparse.urljoin(seed_url, link)            #将网页中的相对链接转换成绝对链接
						if link not in seen:
							seen.add(link)
							crawl_queue.append(link)                   #将符合条件的链接加入要爬取的链接列表中
			else:
				print 'Blocked by robots.txt:', url
	def get_links(html):
		webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']', re.IGNORECASE)
		return webpage_regex.findall(html)
		
	def get_robots(url):               #使用robotparser模块解析robots.txt文件，以避免下载到禁止爬取的URL
		rp = robotparser.RobotFileParser()
		rp.set_url(urlparse.urljoin(url, '/robots.txt'))      #
		rp.read()
		return rp
8. 综合爬取链接和下载网页的代码
import re 
import urllib2
import urlparse
import robotparser
#from sys import argv
 
#script,urlo = argv
def link_crawler(seed_url, link_regex,user_agent='wswp',proxy=None):
	crawl_queue = [seed_url]
	seen = set(crawl_queue)
	rp = get_robots(seed_url)
	while crawl_queue:
		url = crawl_queue.pop()
		if rp.can_fetch(user_agent, url):
			html = download(url,proxy=proxy)
			for link in get_links(html):
				if re.match(link_regex,link):
					link = urlparse.urljoin(seed_url,link)
					if link not in seen:
						seen.add(link)
						crawl_queue.append(link)
		else:
			print 'Blocked by robots.txt:', url
				
def get_links(html):
	webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']', re.IGNORECASE)
	return webpage_regex.findall(html)
	
def get_robots(url):
	"""Initialize robots parser for this domain
	"""
	rp = robotparser.RobotFileParser()
	rp.set_url(urlparse.urljoin(url, '/robots.txt'))
	rp.read()
	return rp
	

def download(url, proxy,user_agent = 'wswp',num_retries = 2):
	print 'Downloading:',url 
	headers = {'User-agent':user_agent}
	request = urllib2.Request(url,headers=headers)
	opener = urllib2.build_opener()
	if proxy:
		proxy_params = {urlparse.urlparse(url).scheme: proxy}
		opener.add_handler(urllib2.ProxyHandler(proxy_params))
	try:
		response = opener.open(request)
		html = response.read()
	except urllib2.URLError as e:
		print 'Downloading error:',e.reason
		html = None 
		if num_retries>0:
			if hasattr(e,'code') and 500<=e.code<600:
				return download(url,proxy,user_agent,num_retries-1)
	return html 

if __name__=='__main__':
	link_crawler('http://example.webscraping.com', '/(index|view)',user_agent='GoodCrawler')
	link_crawler('http://example.webscraping.com', '/(index|view)',user_agent='BadCrawler')

转载于:https://my.oschina.net/spacewe/blog/834543

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

不断完善的相关文章

如何在GPU支持下运行python代码

我创建了一个 Flask 服务用于接受以相机 URL 作为参数的请求用于在相机框架中查找对象桌子椅子等我已经在 Flask 中编写了用于接受 POST 请求的代码 app route rest detectObjects meth
如何计算 numpy 数组中元素的特定范围

我有一个像这样的数组 import numpy as np data np array 0 0 0 1 1 1 0 0 0 0 1 1 1 1 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0
xlsxwriter 错误：AttributeError：“工作簿”对象没有属性“add_format”

我正在使用 xlsxwriter 进行一些简单的条件格式化但是当我运行下面的代码时出现此错误 AttributeError Workbook object has no attribute add format 我已经更新了 xlsxwr
反转 Python 整数的位

给定一个十进制整数例如 65 如何反转 Python 中的底层位即以下操作 65 01000001 10000010 130 看来这个任务可以分为三步将十进制整数转换为二进制表示形式反转位转换回十进制第 2 步和第 3 步看起来
Daphne Django 文件上传大小限制

我使用 Daphne 进行套接字和 http 连接我正在运行 4 个工作容器并且现在在 docker 容器中本地运行所有内容如果我尝试上传 400MB 的文件我的 daphne 服务器会失败它适用于最大 15MB 的小文件我的
对 numpy 数组的每 n 个元素求平均值

我有一个 numpy 数组我想创建一个新数组它是每个连续三元组元素的平均值因此新数组的大小将是原始数组的三分之一举个例子 np array 1 2 3 1 2 3 1 2 3 应该返回数组 np array 2 2 2 谁能建议一
字符串中数字的连续相加

我是一名正在学习 python 的新程序员并且在如何完成此任务方面遇到了困难所以本质上我有一个从文件导入的数字字符串需要读取并且需要将第一个数字的总和添加到第二个数字并将其转换为正确的 ascii 字符因此例如如果我正在读取字符
将 Python 字典中的键替换为唯一值

a 0 PtpMotion 1 PtpMotion 2 LinMotion 3 LinMotion 4 LinMotion 5 LinMotion 6 LinMotion 7 LinMotion 8 LinMotion 9 PtpMotio
通过 beautiful soup python 找到所有字体大小大于最常见字体的跨度样式

我了解如何从特定的位置获取文本div or span这个问题的风格如何找到最常见的跨度样式 https stackoverflow com questions 40762692 is there a way to find the mos
使用 python3 查找表情符号的宽度

我尝试使用 python 中的模式打印字母 A def printA length height symbol a for i in range length for i in range height for i in range hei
如何通过不规则索引获取子张量？

我想通过不规则索引获得子张量这是我的问题 Input tensor 2x8x10x1 Batch x Height x Width x Channel index Height 0 1 4 5 index Width 0 1 4 5 8
numpy 相关系数错误 - RuntimeWarning：true_divide 中遇到无效值

当我尝试查找数据系列之间的相关性时出现以下错误 gt gt gt i 1 1 1 gt gt gt j 2 2 2 gt gt gt import numpy as np gt gt gt np corrcoef i j usr loca
Spyder 内联绘图

设置 Anaconda 2 0 0 Win 64 Spyder Anaconda 附带的 2 3 0rc 我配置图形工具 gt 首选项 gt iPython 控制台 gt 图形 gt 图形后端 gt 内联但无论我做什么图形总是在单独的
df.style.apply 在显示中居中显示多索引值

当我跑步时 import pandas as pd from IPython display import display df pd DataFrame a index pd MultiIndex from product 0 1 3 c
如何使用 python 在 XML 声明后添加注释

import xml etree ElementTree as ET def addCommentInXml fileXml C Users Documents config xml tree ET parse fileXml root t
Django Admin Media 前缀 URL 问题

我有以下文件夹结构 src BAT templates admin base html src BAT media base css src BAT media admin media base css 设置 py MEDIA ROOT o
DataFrame 对象没有属性“sort_values”

dataset pd read csv dataset csv fillna 100 dataset Id 0 dataset i 0 dataset j 0 entries dataset dataset Id 0 print type
如何在我的 heroku 应用程序上安装软件包？

我有一个使用 Shortuuid 的应用程序 https pypi python org pypi shortuuid 0 1 https pypi python org pypi shortuuid 0 1 当我使用 runapp py
对象对于所需数组来说太深 - scipy.integrate.odeint

我昨天刚开始使用Python 使用时遇到错误scipy integrate odeint 我定义了一个函数 def SIR x t beta gamma mu M 这需要numpy array物体x t and M 标量浮动beta gam
pyodbc 无法正确处理 unicode 数据

我确实使用 pyodbc 成功连接了 MySQL 数据库并且它可以很好地处理 ascii 编码的数据但是当我打印使用 unicode utf8 编码的数据时它引发了错误 UnicodeEncodeError ascii codec c

随机推荐

华为OD机试真题-字符串比较-2023年OD统一考试（B卷）

题目描述给定字符串A B和正整数V A的长度与B的长度相等请计算A中满足如下条件的最大连续子串的长度 1 该连续子串在A和B中的位置和长度均相同 2 该连续子串 A i B i 之和小于等于V 其中 A i B i 表示两个字母ASCI
【转】密封类

10 3 1 密封类概述及声明 10 3 密封类与密封方法如果所有的类都可以被继承那么很容易导致继承的滥用进而使类的层次结构体系变得十分复杂这样使得开发人员对类的理解和使用变得十分困难为了避免滥用继承 C 中提出了密封类的概念本
XStream 实现 javabean 与 xml 互转

XStream 是什么 XStream 是一个 java类库实际上是一个转换器 XStream 作用实现 java bean 与 xml 互转 XStream 如何使用主要通过 xStream 实现转换具体测试示例代码如下源码
运维工具

环境部署部署软件如Apache Nginx tomcat JDK PHP MySQL等等还需要测试吧那就还需要部署一套测试环境有些时候开发环境也是需要运维来部署的排错和调优运维的事尽快定位问题解决问题才是王道定位问题
谁说毕业即失业？爬虫就业月入13000+第一个不服！

不知道是Python太火爆还是年轻人太卷最近一段时间老有刚毕业的年轻人向我请教Python问题问题还相对比较专业其中不乏有财务小年轻请教Python数据统计新媒体的朋友问Python爬虫当然更多的还是来咨询Python爬虫就
Java监听器(重点)

监听器 Listener 是一个实现特定接口的 Java 程序这个程序专门用于监听另一个 Java 对象的方法调用或属性改变当被监听对象发生上述事件后监听器某个方法将立即自动执行监听器的相关概念事件方法调用属性改变状态改变等
windows 安装linux子系统详细步骤

1 dism exe online enable feature featurename Microsoft Windows Subsystem Linux all norestart 2 dism exe online enable fe
对课程学习的期待

我希望通过学习这门课程之后自己可以设计出一些简单的程序有利于之后的学习例如网络爬虫和一些有关于数据图像处理的程序我希望在理论课上老师可以通过一些有趣的示例来讲解课程内容我认为这样可以更好的抓住学生的注意力而且可以使我们更容易理
【无需显卡】AI绘画入门教程

前言 Hello 各位端午节快乐呀不好意思拖更两个月最近实在是太忙了也想不到有什么好玩的之前介绍过了几个好玩的ai网站非常适合新手尝鲜但很多都有额度限制而且还开始收费了所以有了这期教程还没看过上期可以看一下除了ChatG
socks协议详解

0x01 socks协议简介 Socks Socket Secure 协议是一种网络协议处于会话层用于管理网络连接并提供安全性和隐私保护通过使用Socks代理服务器客户端可以隐藏其真实IP地址和其他身份信息从而匿名地访问互联网上的
php命令行传递参数,PHP命令行传递参数

在以非命令行模式运行PHP的时候我们可以通过 GET POST REQUEST来接受get或是post参数但是以命令行方式运行的话怎么传递参数以接受参数呢关于命令行的特点可以直接看官方文档 http php net manual
【华为OD统一考试B卷

华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷和OD统一考试 B卷你收到的链接上面会标注A卷还是B卷请注意根据反馈目前大部分收到的都是
python 读写pcd

1 读点云的3种方式第一种 pip3 install python pcl import pcl pcd ndarray pcl load args pcd path to array 3 不要intensity pcd ndarray
浏览器打开就是360导航（浏览器被360劫持）

浏览器打开就是360导航这个问题之前只是看别人帖子见到过不知道出了什么问题我的edge和Chrome浏览器突然打开也成了360的导航页面这才感觉出这个问题的恶心之处而且顺道说一下我电脑中也没有装任何360系的应用但突然就被改了
黑客基础知识——SYN泛洪攻击原理及防御

拒绝服务攻击时攻击者想非法占用被攻击者的一些资源比如如带宽 CPU 内存等等使得被攻击者无法响应正常用户的请求讲泛洪攻击之前我们先了解一下DoS攻击和DDoS攻击这两个攻击大体相同前者的意思是拒绝服务攻击后者的意思是分
docker下mysql镜像初始化

目录 1 介绍 2 部署及验证 2 1 场景复现 2 2 创建dockerfile 2 3 初始化脚本 2 4 构建镜像并查看 2 5 创建容器并验证 2 6 完成 1 介绍原理当Mysql容器首次启动时会在 docker entry
QT 多线程中使用QCanBusDevice进行PCAN通讯时，无法正常发出数据

QT 多线程中使用QCanBusDevice进行PCAN通讯时无法正常发出数据前言我一开始的代码逻辑是 PCAN开启关闭发送接收这些功能整合在一个工具类中这个工具类的对象是在主线程创建的然后我有一个要循环定时发送的功能是独立
ASP.NET Core错误：Unable to cast object of type ‘System.Data.ProviderBase.DbConnectionClosedConnecting‘

项目场景在使用 net core开发时经常使用数据库出现的问题问题描述开发ASP NET Core时遇到在经常使用数据库连接时报错误提示 Unable to cast object of type System Data Provi
QCefView源码优化

QCefView项目源码的构建部分这里就不赘述了有问题的朋友可以回到 QCefView 1 CMAKE项目库文件生成和项目测试查看相关介绍本次优化主要包括以下几个部分 1 设置部分关闭代理服务器关闭同源策略使用系统flash等
不断完善

2019独角兽企业重金招聘Python工程师标准 gt gt gt 1 最简单的网页下载代码 import urllib2 使用urllib2模块 from sys import argv script urlo argv def down

不断完善

不断完善 的相关文章

随机推荐

热门标签

不断完善的相关文章