python爬虫实训心得_python 爬虫抓取心得

2023-05-16

urllib.quote('要编码的字符串')

如果你要在url请求里面放入中文，对相应的中文进行编码的话，可以用:

urllib.quote('要编码的字符串')

query =urllib.quote(singername)

url= 'http://music.baidu.com/search?key='+query

response=urllib.urlopen(url)

text= response.read()

get or post urlencode

如果在GET需要一些参数的话，那我们需要对传入的参数进行编码。

importurllibdefurl_get():importurllib

params= urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})

f= urllib.urlopen("http://www.musi-cal.com/cgi-bin/query?%s" %params)printf.read()defurl_post():importurllib

params= urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})

f= urllib.urlopen("http://www.musi-cal.com/cgi-bin/query", params)print f.read()

urllib urllib2 proxy 代理

如果你请求对方的网页，确不想被封IP的话，这个时候就要用到代理了，其实用 urllib 代理还是比较简单的：

importurllibdefurl_proxy():

proxies= {'http':'http://211.167.112.14:80'}#或者proxies = {'':'211.167.112.14:80'}

opener =urllib.FancyURLopener(proxies)

f= opener.open("http://www.dianping.com/shanghai")print f.read()

只用一个代理IP的话有时候弄巧成拙了恰好被大众点评给检测出来了

401

211.167.112.14

python-urllib/1.17

那么就试试多个IP代理

importurllibdefurl_proxies():

proxylist=('211.167.112.14:80','210.32.34.115:8080','115.47.8.39:80','211.151.181.41:80','219.239.26.23:80',

)for proxy inproxylist:

proxies= {'': proxy}

opener=urllib.FancyURLopener(proxies)

f= opener.open("http://www.dianping.com/shanghai")print f.read()

这回没问题了。

有的时候要模拟浏览器，不然做过反爬虫的网站会知道你是robot

例如针对浏览器的限制我们可以设置User-Agent头部，针对防盗链限制，我们可以设置Referer头部

有的网站用了Cookie来限制，主要是涉及到登录和限流，这时候没有什么通用的方法，只能看能否做自动登录或者分析Cookie的问题了。

仅仅是模拟浏览器访问依然是不行的，如果爬取频率过高依然会令人怀疑，那么就需要用到上面的代理设置了

importurllib2defurl_user_agent(url):'''proxy = 'http://211.167.112.14:80'

opener = urllib2.build_opener(urllib2.ProxyHandler({'http':proxy}), urllib2.HTTPHandler(debuglevel=1))

urllib2.install_opener(opener)'''i_headers= {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5",\"Referer": 'http://www.dianping.com/'}

req= urllib2.Request(url, headers=i_headers)returnurllib2.urlopen(req).read()#print url_user_agent('http://www.dianping.com/shanghai')

就算设置了代理，代理的ip也有可能被封，还有另外一种终极的办法来防止被封，那便是使用time库的sleep()函数。

importtimefor i in range(1,10):

....#抓取逻辑

time.sleep(5)

抓的地址是http://www.dianping.com/shanghai

直接抓http://www.dianping.com的话会location到城市列表去反而达不到效果

header: Location: /citylist

供一段代理IP

proxylist=('211.167.112.14:80','210.32.34.115:8080','115.47.8.39:80','211.151.181.41:80','219.239.26.23:80','219.157.200.18:3128','219.159.105.180:8080','1.63.18.22:8080','221.179.173.170:8080','125.39.66.153:80','125.39.66.151:80','61.152.108.187:80','222.217.99.153:9000','125.39.66.146:80','120.132.132.119:8080','119.7.221.137:82','117.41.182.188:8080','202.116.160.89:80','221.7.145.42:8080','211.142.236.131:80','119.7.221.136:80','211.151.181.41:80','125.39.66.131:80','120.132.132.119:8080','112.5.254.30:80','106.3.98.82:80','119.4.250.105:80','123.235.12.118:8080','124.240.187.79:80','182.48.107.219:9000','122.72.2.180:8080','119.254.90.18:8080','124.240.187.80:83','110.153.9.250:80','202.202.1.189:80','58.67.147.205:8080','111.161.30.228:80','122.72.76.130:80','122.72.2.180:80','202.112.113.7:80','218.108.85.59:81','211.144.72.154:80','119.254.88.53:8080','121.14.145.132:82','114.80.149.183:80','111.161.30.239:80','182.48.107.219:9000','122.72.0.28:80','125.39.68.131:80','118.244.190.6:80','120.132.132.119:88','211.167.112.15:82','221.2.80.126:8888','219.137.229.214:3128','125.39.66.131:80','61.181.22.157:80','115.25.216.6:80','119.7.221.137:82','221.195.42.195:8080','119.254.88.53:8080','219.150.254.158:8080','113.9.163.101:8080','222.89.154.14:9000','114.141.162.53:8080','218.5.74.199:3128','61.152.108.187:80','218.76.159.133:80','59.34.57.88:8080','118.244.190.34:80','59.172.208.189:8080','116.236.216.116:8080','111.161.30.233:80','220.248.237.234:8080','121.14.145.132:82','202.114.205.125:8080')

View Code

Proxy的使用相当广泛，对于单个应用来说，爬虫是很容易被封禁，如果使用Proxy模式，就能降低被封的风险，所以有需求的同学需要仔细看下Python urllib2对于Proxy的使用：

抓取下拉加载或者点击加载的页面方法：

加载中的内容应该是ajax请求的，对付ajax请求没有什么好的办法，只有抓取页面的JS，分析JS进行抓取

解决方案：

1.傻傻的全部下拉完全部点击加载完（对少量数据还行，大量数据的站去死吧）在Firefox里面copy出源码信息进

行正则匹配

2.HttpFox抓包直接抓ajax地址的数据分析ajax链接变换参数取得json后再正则

0x5.正则处理

python对正则表达式的支持模块。如果http库有选择的余地外，re几乎是没有选择余地的工具。因为有正则表达式的存在，所以让我们可以很灵活的去抠取抓取过来的完整html中所需要的部分。

当然，这篇文章不会详细解释正则表达式，因为如果要系统的介绍正则表达式，或许可以写一本书了。这里只简单提一下我们后面会用到的python正则表达式的用法。

re.compile()。如果正则表达式比较多，请一

定要先用这个方法先行编译正则表达式，之后再正则表达式的使用就会很非常快，因为大家都知道，python文件在第一次运行会分别创建一个字节码文件，如

果正则表达式作为字符串的时候，在运行时才会被编译，是会影响到python的执行速度的。

compile()返回的是一个re对象，该对象拥有re库的search(), match(), findall()等方法，这三个方法，在后面会被频繁的用到，生成被编译的re对象还有一个好处是调用方法不用再传入字符串的正则表达式。

search()主要用来校验正则表达式能否匹配字符串中的一段，通常用来判断该页面是否有我需要的内容。

match()用来判断字符串是否完全被一个正则表达式匹配，后面用的比较少。

findall()用来搜索正则表达式在字符串中的所有匹配，并返回一个列表，如果没有任何匹配，则返回一个空列表。

带有子组的正则表达式，findall()返回的列表中的每个元素为一个元组，正则表达式中有几个子组，元组中就会有几个元素，第一个元素为第一个括号中的子组匹配到的元素，以此类推。

findall()和search()是有类似之处的，都是搜索正则表达式在字符串中的匹配，但是findall()返回一个列表，search()返回一个匹配对象，而且findall()返回的列表中有所有匹配，而search()只返回第一个匹配的匹配对象。

0x6.Reference：

python urllib下载网页

http://www.cnpythoner.com/post/pythonurllib.html

关于不得不在python中使用代理访问网络的方法

http://blogread.cn/it/wap/article/1967python使用urllib2抓取防爬取链接

http://www.the5fire.net/python-urllib2-crawler.html

Python实战中阶（一）——爬取网页的一点分享

http://blog.goodje.com/2012-08/python-middle-action-web-crawler.html

Python Urllib2使用：代理及其它

http://isilic.iteye.com/blog/1806403Python urllib2递归抓取某个网站下图片

http://blog.csdn.net/wklken/article/details/7364899用Python抓网页的注意事项

http://blog.raphaelzhang.com/2012/03/issues-in-python-crawler/urllib.urlretrieve下载图片速度很慢+ 【已解决】给urllib.urlretrieve添加user-agent

http://www.crifan.com/use_python_urllib-urlretrieve_download_picture_speed_too_slow_add_user_agent_for_urlretrieve/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫实训心得_python 爬虫抓取心得的相关文章

大麦无线虚拟服务器,解答大麦盒子无线设置的问题

大麦盒子无法连接上WIFI怎么办 A xff1a 针对WIFI连接的问题 xff0c 下面总结出几点解决办法 xff1a 1 路由器正常工作的 xff0c 但是搜索不到无线信号 xff1a 如不能搜索到WIFI信号 xff0c 确认是否超过
Qt信号和槽函数之间的参数传递

Qt信号和槽函数之间的参数传递信号和槽内部的参数是如何传递的 Qt的信号槽机制中 xff0c 信号是只声明不实现 xff0c 同时可以发生重载通常我们使用函数指针来指向具体重载版本 xff0c 那么信号的这些参数去哪里了呢 xff1f
winform窗体项目大全_winform项目——仿QQ即时通讯程序08：聊天窗体和验证消息窗体...

上一篇文章我们完成了查找好友添加好友窗体 xff0c 本篇文章将完成最后两个窗体 xff1a 聊天窗体验证消息窗体首先看看聊天窗体 xff0c 界面非常简单 xff0c 如下图 xff1a 首先左上角有一个label用于显示聊天好友的
python模拟光照环境_树莓派通过C语言和python读取光照传感器

本实验是树莓派通过C语言和python读取光照传感器BH1750 xff0c 获取当前环境光照的系数 xff0c 环境越亮系数越高 xff0c 并转换成百分比 BH1750FVI是一种用于两线式串行总线接口的数字型光强度传感器集成电路 xf
pwm 正弦波_谈谈逆变器输出的方波与正弦波

逆变器逆变器是一种能把直流电电池蓄电池变成交流电市电的一种设备 xff0c 广泛应用于空调电脑照明等等电器的使用 xff0c 通常是在外出旅游或者工作时 xff0c 用逆变器连接蓄电池产生交流电 xff0c 从而供给需要交流
二层交换机不在同一子网_IP地址和子网掩码的关系

一个 I P地址可用于识别网络上的设备 I P地址按类别进行分类这些类别中包含有不同的地址组每个 I P网络都有一个网络号每个子网都应有它的父网络号以及子网号子网号是由子网掩码中的子网域来确定的如果有一个 I P地址为 1 5 3
ubuntu系统安装socket服务器,Ubuntu上进行socket编程，并且实现通信功能

include include include include include include include include include include include include include include define P
高考录取查询一直显示服务器错误什么情况,网上填报志愿，查询录取结果的5种状态，你都知道是什么意思吗？...

这段时间各位考生和家长 xff0c 一定都在为填报高考志愿忙得不可开交高考志愿的填报不仅关乎着考生未来四年学习和生活 xff0c 甚至关乎着考生未来的职业发展 xff0c 所以当然必须格外谨慎小心而我们都知道 xff0c 高考志愿的填报
python的django框架http请求_Django框架HttpResponse对象用法实例分析

本文实例讲述了Django框架HttpResponse对象用法分享给大家供大家参考 xff0c 具体如下 xff1a 1 HttpResponse 可通过HttpResponse构造响应对象 xff1a HttpResponse cont
ECharts设置x轴刻度间隔的两种方法

ECharts设置x轴刻度文字间隔的两种方法背景最近在写一个echarts数据看板 xff0c 要在一个页面中展示多张图表 xff0c 所以留给每张图表的尺寸就很小这也就使得图表x轴的刻度文字全部挤到一起了 xff0c 废话不多说 x
tightvnc由于目标计算机积极拒绝,TightVNC的连接可以作出，因为目标机器积极地拒绝它...

下载并从Python安装python 2 7 5 exe下载网站打开PowerShell中 xff0c 并粘贴以下 xff1a 重新启动Windows机器重新启动时 xff0c 去扭下载并获得并安装32位的扭曲 xff0c 扭曲 xff
python2中的print语句可以不用小括号。_Python学习教程（Python学习路线）：Python2和Python3该如何选择...

Python学习教程 Python学习路线 xff1a Python2和Python3该如何选择相信大家在初学 Python 编程的时候都会有这样一个疑虑 xff0c 到底是选择 Python 2 还是选择 Python 3 呢 xff1
idea 添加servlet依赖_使用 Intellij IDEA 新建一个 Servlet 项目

写在前面上一篇文章在 Tomcat 上部署你的第一个 Servlet 应用使用最原始的命令行方式编译 Servlet 类 xff0c 并且部署到 tomcat 安装目录下的 webapps 文件夹下但是实际情况下 xff0c 我们现
麦克纳姆轮运动原理_高空作业平台使用麦克纳姆轮

欢迎关注AWP资讯高空作业平台的底盘是整车稳定的一个重要保证 xff0c 行走机构也位于底盘上 xff0c 行走靠的是轮子 xff0c 但不限于普通的轮子 xff0c 今天我们来谈一下关于行走的事情 xff0c 在之前一直考虑关于高空作业
pid控制从入门到精通pdf_控制算法手记-自抗扰控制的几点思考

写在前面在谈自己的一些思考之前 xff0c 放上一本简明的教材 xff08 只有133页 xff09 xff0c 对自抗扰控制ADRC Active disturbance rejection control 的起源基本思路结构发展
电气simulink常用模块_鼎信消防：电气火灾监控设备操作教程

转发分享消防产品接线大全 xff01 精彩内容推荐海湾GST 海湾 xff1a 设备定义模板填写说明海湾 xff1a GST XG9000S消防应急广播系统的技术调试海湾 xff1a GST TS9000消防电话系统的技术调试海湾
vnc用户名查看linux_Linux下VNC配置多个桌面和修改密码

1 安装VNC服务第一步 xff1a 在linux系统盘的Packages文件夹中找到以 tigervnc 开头的两个安装文件拷贝到 data目录下 xff1b 如下两个文件 xff1a tigervnc server 1 1 0 24
ubuntu 20 安装vnc_记一次ubuntu通过vnc远程连接

前言最近在上网课的时候突然记起上学期老师通过教师的windows连接到自己的ubutnu上 xff0c 虽然无法考证老师是公网ip还是局域网固定ip 对于服务器的远程连接我都是用的mstsc或者ssh xff0c 但是对于ubuntu可视
layui移动端适配_web前端-移动端适配方案

三微授渔 xff0c 授你以渔一般情况下吗 xff0c 设计稿的设计师按照 375 的尺寸设计 xff0c 在手机 xff08 移动端 xff09 快速更新迭代的今天 xff0c 每个品牌的手机都有着不同的物理分辨率和逻辑分辨率 xff0
群联固态硬盘修复工具_固态硬盘掉速修复小教程，SATA和NVMe协议通用

不做云评测 xff0c 只聊真体验 xff0c 大家好 xff0c 我是肉包爸爸近日 xff0c 被我拿来做高速移动硬盘的一块海力士PC401 1T固态硬盘出现严重掉速 xff0c 格式化后故障依旧由于硬盘盒接口为USB3 1 Gen2

随机推荐

Django内置admin管理页中自定义数据表格列

django 内置admin管理页自定义数据表格列 amdin管理页中的数据表格修改方式我这里想到了两种 xff0c 在这里分享给大家通常我们在注册模型的时候 xff0c 会创建一个模型管理类 xff0c 通过这个类的属性list dis
两个vlan如何互通_网络交换机VLAN的常识与划分方法，你知道吗？

今天我们继续介绍监控系列网络知识 xff0c 这个系列是对弱电与监控领域用到的网络知识进行基础学习 xff0c 内容都是比较简单易懂和网络监控密切相关的知识 VLAN是什么 xff1f VLAN xff1a 也叫虚拟局域网通过前面文章介绍
Java中textarea用法,textarea赋值取值与应用详解介绍汇总

一 textarea标签介绍 textarea是超文本标记语言html页面中定义的多行文本输入控件标签 xff0c 也被称作多行文本编辑控件 xff0c 常作为表单中的元素使用 xff0c 用户可在其文本区域中写入文本提交到后台程序 tex
华为研制鸿蒙小米呢,直追华为鸿蒙！小米自研发操作系统发布

原标题 xff1a 直追华为鸿蒙 xff01 小米自研发操作系统发布在全球智能手机领域 xff0c 美国的安卓和IOS系统占据着99 的市场份额 xff0c 双方已经形成了绝对垄断的地位更何况苹果IOS系统不外用 xff0c 这就导致想
计算机中常用的三种码制,码制

码制 1 数字系统用数字信号完成对数字量进行算术运算和逻辑运算的电路称为数字电路 xff0c 或数字系统由于它具有逻辑运算和逻辑处理功能 xff0c 所以又称数字逻辑电路人类已经进入到了数字时代 xff0c 数字系统在我们日常生活中愈
云服务器一直显示启动中,云服务器一直启动代码

云服务器一直启动代码内容精选换一换获取登录密码使用公共镜像创建的云服务器 xff0c 默认已经安装一键式重置密码插件如果您忘记密码或密码过期 xff0c 可以通过重置密码功能重新设置云服务器登录密码重置密码使用公共镜像创建的云服务
win10文件同步到服务器失败,win10系统同步时间同步失败的解决方法

电脑对日常生活的重要性小编就不多说了 xff0c 可是一旦遇到win10系统同步时间同步失败的情况 xff0c 想必大家都遇到过win10系统同步时间同步失败的情况吧 xff0c 那么应该怎么处理win10系统同步时间同步失败呢 xff1f
我的世界服务器中文修复,[安全|修正]ExploitFixer ——修复一些服务器漏洞[1.7-1.16]...

BUG 23 35 18 Server thread INFO ExploitFixer Enabling ExploitFixer v1 4 6 23 35 18 Server thread ERROR Error occurred wh
滑模控制原理_串讲：控制理论：滑模 SMC理论

SMC理论可以理解为滑模的控制器理论 xff0c 即它的输出量是间接或者直接作用于被控对象上的对于被控对象来讲 xff0c 假设有n个状态变量 xff0c 系统状态和输出方程如下所示 xff1a xff08 1 xff09 如果精确控制
用python实现的kpi异常检测_基于机器学习的KPI自动化异常检测系统

原标题 xff1a 基于机器学习的KPI自动化异常检测系统作者 xff1a 刘平转自 xff1a 智能运维前沿订阅号导读今天给大家介绍Netman实验室在异常检测领域的研究成果 xff1a 基于机器学习的KPI自动化异常检测系统
有一些软件包无法被安装。如果您用的是 unstable 发行版，这也许是因为系统无法达到您要求的状态造成的。该版本中可能会有一些您需要的软件包尚未被创建或是它们已被从新到(Incoming)目录移

参考连接 xff1a https blog csdn net chenjiehua123456789 article details 77870235
Django模型方面报错

Django模型方面报错 AttributeError Manager isn t accessible via air compressor station 模型名 instances 原因 xff1a 不能用实例直接访问关联的数据集错
Window10下让自己开发的自启动程序支持拉起一个图形化软件

背景 xff1a 自己开发的监控程序需要在开机时自启动 xff0c 并且启动后会监听host主机的报文当收到需要启动本地的某个图形化软件命令后 xff0c 会执行此图形化软件 xff0c 从而在桌面显示图形软件问题点 xff1a 通过w
请概述可视化卷积神经网络的中间输出的基本思想。_万字长文：特征可视化技术(CAM)...

前言众所周知 xff0c 深度学习是一个 34 黑盒 34 系统它通过 end to end 的方式来工作 xff0c 输入数据例如RGB图像 xff0c 输出目标例如类别标签回归值等 xff0c 中间过程不可得知如何才能打开黑盒
linux如何使用vnc远程登录,如何使用Xmanager及VNC登录远程桌面

如何调用远程桌面 xff0c 比较常见的有两种方式 xff1a Xmanager及VNC 正好今天鼓捣了一下 xff0c 特整理如下 xff1a Xmanager Xmanager的调用也有两种方式 xff1a 一直接在Xshell中调用
c语言中写cord_l的作用,计算机等级二级c语言程序设计100例六_软件水平考试

程序61 题目 xff1a 打印出杨辉三角形要求打印出10行如下图 1 程序分析 xff1a 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 2 程序源代码 xff1a 以下是引用片段 xff1a
python 写入文件时换行_Python学习第63课-shell删除文件和用nano写入文件

每天几分钟 xff0c 从零入门python编程的世界 xff01 我们知道 xff0c 在图形界面的操作系统中 xff0c 我们删除的文件都进了回收站 xff0c 如果不清空回收站 xff0c 是可以恢复的 xff0c 但是在shell中
matlab求解lqr法的Q和R矩阵,基于MATLAB的LQR控制器设计方法研究

邮局订阅号 xff1a 82 946 360 元年技术创新控制系统 PLC 技术应用 200 例您的论文得到两院院士关注基于 MATLAB 的 LQR 控制器设计方法研究 Research of LQR Controller De
linux vnc的小黑点和鼠标不同步_vnc使用教程，vnc在centos中的使用教程

VNC Virtual Network Console xff0c 即虚拟网络控制台它是一款优秀的远程控制工具软件 xff0c 而且是基于 UNIX 和 Linux 操作系统的免费开源的博主在使用vnc的时候 xff0c 是使用一款I
python爬虫实训心得_python 爬虫抓取心得

urllib quote 39 要编码的字符串 39 如果你要在url请求里面放入中文 xff0c 对相应的中文进行编码的话 xff0c 可以用 urllib quote 39 要编码的字符串 39 query 61 urllib quot

python爬虫实训心得_python 爬虫抓取心得

python爬虫实训心得_python 爬虫抓取心得 的相关文章

随机推荐

热门标签

python爬虫实训心得_python 爬虫抓取心得的相关文章