python的爬虫代码_python爬虫代码

2023-11-20

#encoding=utf-8

importreimportrequestsimporturllib2importdatetimeimportMySQLdbfrom bs4 importBeautifulSoupimportsys

reload(sys)

sys.setdefaultencoding("utf-8")classSplider(object):def __init__(self):print u‘开始爬取内容...‘

##用来获取网页源代码

defgetsource(self,url):

headers= {‘User-Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2652.0 Safari/537.36‘}

req= urllib2.Request(url=url,headers=headers)

socket=urllib2.urlopen(req)

content=socket.read()

socket.close()returncontent##changepage用来生产不同页数的链接

defchangepage(self,url,total_page):

now_page= int(re.search(‘page/(\d+)‘,url,re.S).group(1))

page_group=[]for i in range(now_page,total_page+1):

link= re.sub(‘page/(\d+)‘,‘page/%d‘ %i,url,re.S)

page_group.append(link)returnpage_group#获取字内容

defgetchildrencon(self,child_url):

conobj={}

content=self.getsource(child_url)

soup= BeautifulSoup(content, ‘html.parser‘, from_encoding=‘utf-8‘)

content= soup.find(‘div‘,{‘class‘:‘c-article_content‘})

img= re.findall(‘src="(.*?)"‘,str(content),re.S)

conobj[‘con‘] =content.get_text()

conobj[‘img‘] = (‘;‘).join(img)returnconobj##获取内容

defgetcontent(self,html_doc):

soup= BeautifulSoup(html_doc, ‘html.parser‘, from_encoding=‘utf-8‘)

tag= soup.find_all(‘div‘,{‘class‘:‘promo-feed-headline‘})

info={}

i=0for link intag:

info[i]={}

title_desc= link.find(‘h3‘)

info[i][‘title‘] =title_desc.get_text()

post_date= link.find(‘div‘,{‘class‘:‘post-date‘})

pos_d= post_date[‘data-date‘][0:10]

info[i][‘content_time‘] =pos_d

info[i][‘source‘] = ‘whowhatwear‘source_link= link.find(‘a‘,href=re.compile(r"section=fashion-trends"))

source_url= ‘http://www.whowhatwear.com‘+source_link[‘href‘]

info[i][‘source_url‘] =source_url

in_content=self.getsource(source_url)

in_soup= BeautifulSoup(in_content, ‘html.parser‘, from_encoding=‘utf-8‘)

soup_content= in_soup.find(‘section‘,{‘class‘:‘widgets-list-content‘})

info[i][‘content‘] = soup_content.get_text().strip(‘\n‘)

text_con= in_soup.find(‘section‘,{‘class‘:‘text‘})

summary= text_con.get_text().strip(‘\n‘) if text_con.text != None elseNULL

info[i][‘summary‘] = summary[0:200]+‘...‘;

img_list= re.findall(‘src="(.*?)"‘,str(soup_content),re.S)

info[i][‘imgs‘] = (‘;‘).join(img_list)

info[i][‘create_time‘] = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

i+=1

#print info

#exit()

returninfodefsaveinfo(self,content_info):

conn= MySQLdb.Connect(host=‘127.0.0.1‘,user=‘root‘,passwd=‘123456‘,port=3306,db=‘test‘,charset=‘utf8‘)

cursor=conn.cursor()for each incontent_info:for k,v ineach.items():

sql= "insert into t_fashion_spider2(`title`,`summary`,`content`,`content_time`,`imgs`,`source`,`source_url`,`create_time`) values (‘%s‘,‘%s‘,‘%s‘,‘%s‘,‘%s‘,‘%s‘,‘%s‘,‘%s‘)" % (MySQLdb.escape_string(v[‘title‘]),MySQLdb.escape_string(v[‘summary‘]),MySQLdb.escape_string(v[‘content‘]),v[‘content_time‘],v[‘imgs‘],v[‘source‘],v[‘source_url‘],v[‘create_time‘])

cursor.execute(sql)

conn.commit()

cursor.close()

conn.close()if __name__ == ‘__main__‘:

classinfo=[]

p_num= 5url= ‘http://www.whowhatwear.com/section/fashion-trends/page/1‘jikesplider=Splider()

all_links=jikesplider.changepage(url,p_num)for link inall_links:print u‘正在处理页面：‘ +link

html=jikesplider.getsource(link)

info =jikesplider.getcontent(html)

classinfo.append(info)

jikesplider.saveinfo(classinfo)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python的爬虫代码

python的爬虫代码_python爬虫代码的相关文章

Echarts配置系列-图文并茂教你配置渐变色面积图，折柱双图，环形图，仪表盘图等

文章目录说明渐变色面积图如何修改图标legend样式如何去掉折线图小圆点如何设置粗细折线图线条设置更细或者更粗如何修改X轴Y轴字体大小横向渐变色柱状图自动转动炫酷百分比环形图渐变色仪表盘简约风格圆环百分比仪表盘图双柱
模板类成员函数特化写法

昨天有对模板类的函数成员特化需求目的是为了对不同模板参数实现不同的操作结果在写过程中碰到already defined的问题貌似是模板新手最容易碰到的问题了类外的成员函数和同在类外的特化版本成员函数冲突了因为对模板用法不是很熟悉
java poi 将公文套红并电子签章

套红的方法签章 import com deepoove poi XWPFTemplate import com deepoove poi xwpf NiceXWPFDocument import lombok extern slf4j S
RSA公钥每次签名得到的结果都一样？

这里记录下 RSA对于同一数据块签名一致的原因是使用的填充算法涉及PKCS 1 5 PSS 为什么RSA公钥每次加密得到的结果都不一样 RSA PSS数字签名算法
nginx的sticky模块

Sticky工作原理 Sticky是nginx的一个模块它是基于cookie的一种nginx的负载均衡解决方案通过分发和识别cookie 来使同一个客户端的请求落在同一台服务器上默认标识名为route 1 客户端首次发起访问请求 ng
neo4j windows图像界面如何查询最短路径

MATCH p1 concept name factor p2 concept name cf4 p allshortestpaths p1 10 p2 RETURN p 注意上述p1是变量这个是通用的只需要更改concept这个即可你
使用Notepad++工具查看文件的十六进制

最近在用notepad 打开 dat文件想看看里面的一些数据但是打开之后发现是乱码下面给出解决方法 1 首先打开 dat文件发现是一些乱码 2 点击插件 gt 搜索hex gt 找到HEX Editor勾选 gt 安装 3 重新打开
stm32对flash的读写保护与解除

一 STM32对内部Flash的保护措施所有STM32的芯片都提供对Flash的保护防止对Flash的非法访问写保护和读保护 1 读保护即大家通常说的加密是作用于整个Flash存储区域一旦设置了Flash的读保护内置的Flas
Nginx跨域配置

一跨域概述 1 1 同源策略同源策略是一个安全策略同源指的是协议域名端口相同浏览器处于安全方面的考虑只允许本域名下的接口交互不同源的客户端脚本在没有明确授权的情况下不能读写对方的资源同源策略主要是基于如下可能的安全隐
解决labelImg闪退问题

问题打开labelImg按下键盘任意键闪退解决办法降低python版本博主将python版本从3 10降低至3 8 并且重新安装了pyqt5 sip和lxml两个包即可正常使用labelImg
03LinuxC线程学习之线程共享和非共享

1 线程共享和非共享 1 1 线程共享资源 1 文件描述符表由于线程间共享进程间的内容而文件描述符表在主线程的PCB当中各个线程可以直接去请求访问所以线程间通信就不需要像进程那样通过管道这些方式通信 2 每种信号的处理方式即当某个
js解决浏览器,SpeechSynthesis不能正常合成中文语音

工作中遇到浏览器不能合成语音解决思路合成失败时循环合成列表找到能正常合成的为止对于一直不能合成的浏览器设置开关关闭循环功能
服务器系统安装蓝牙驱动,安装蓝牙设备 - Windows drivers

安装蓝牙设备 05 29 2020 本文内容重要本主题面向程序员如果你是遇到蓝牙设备安装问题的客户请参阅在 Windows 中配对蓝牙设备蓝牙配置文件驱动程序有两种安装类型远程设备的客户端安装远程设备在该远程设备上公布其服
vc6.0 c语言加油站,第2章 C语言初探：4、在VC6.0下运行C语言程序

不管你是否决定使用C Free 都建议阅读在C Free下运行C语言程序文中讲到了几个重要概念对初学者大有裨益 Visual C 6 0简称VC或者 VC6 0 确实有点老了在XP Win7下都可能会存在兼容性问题在Win8下根本
图解GitHub和SourceTree入门教程

http blog csdn net collonn article details 39259227
想去游戏公司做游戏，最重要的是什么素养？

首先要学会沟通话说动过去游戏公司的念头做游戏感觉很酷但是想想自己一不会编程二不会画画做策划那好像是两边受气里外不是人出事第一个背锅的角色想想也就想想不过正好前些天我们发过一篇讲去日本学游戏的文章说不定能派上用场前
华为OD机试真题- 学校的位置【2023Q1】【JAVA、Python、C++】

题目描述为了解决新学期学生暴涨的问题小乐村要建所新学校考虑到学生上学安全问题需要所有学生家到学校距离最短假设学校和所有的学生家走在一条直线上请问学校要建在什么位置能使得学校到各个学生家的距离之和最短输入描述输入的第一行
sql语句中的空值（null）

含null值的表达式都为null null null 在判断某个数是否为null的时候不是用等号来表示而是用 is null 在过滤的时候可以使用in null 但是使用not in null的时候会报错因为in函数是指满足里面的情
java入门的第一个程序代码 hello world

很多人说学Java真的很难其实这是真的但是高薪之所以为高薪就是因为它比普通的活难的多今天是我第一篇的博客我还是想鼓励想学java技术的小伙伴一起来学很多事只有去做了你才能知道自己能不能成功好了接下来看Java入门的第一

随机推荐

网易云音乐财报解读：收入大增亏损收窄，“云村”草长莺飞

独家版权时代结束后在线音乐产业进入了新的发展阶段各家音乐平台经营状况备受关注 2月23日网易云音乐公布了2022年全年财务业绩财报显示网易云音乐2022年全年收入为90亿元较2021年同比增长28 5 值得一提的是得益于盈利能
数组的一些简单操作，列表改数组，数组合并，数组存取

数组的简单操作总用的一些操作记录一下要不总忘 1列表改数组 import numpy as np a 1 2 3 4 a np array a 输出a array 1 2 3 4 2数组合并延竖轴拼接数组 aa np vstack
hive中取最大值最小值的函数

max 和min 函数 select a max b from t group by a select a min b from t group by a max和min函数是取某一列中的最大或者最小值 greatest 和least 函数
R数据科学-第九章使用lubridate处理日期和时间

本章将会使用以下三个包 gt library tidyverse gt library lubridate gt library nycflights13 一创建日期或时间表示日期或时间的数据有三种日期在tibble中显示为date
C#学习笔记事件

事件为委托提供了一种发布订阅机制声明事件的类被称为发行者类其他类可以订阅发行者类中的事件当发行者类触发其中的事件时所有订阅该事件的类都会收到这个变化在图形界面框架中这种情况非常常见事件发布者首先需要创建一个事件发布者类该
python自动化笔记（十一）——openpyxl之封装

封装一个可以读取任意excel文件的方法可以指定读取的表单当我们多次从excel中读取数据时就不用重复地写代码只需调用封装的类即可一封装的excel类实现的需求是什么 1 读取表头数据 2 读取表头以外的所有数据返回值列表
DHCP的配置（以华为eNSP为例）

如有错误敬请谅解此文章仅为本人学习笔记仅供参考如有冒犯请联系作者删除基础知识介绍络组建步骤 1 拓扑设计 2 IP地址规划按照拓扑中划分的络范围规划络位不同的IP地址 3 配置 1 配置各个节点的IP地址 2 路由全
qbytearray的append是浅拷贝还是深拷贝_前端深拷贝和浅拷贝

在前端攻城狮的工作实际应用中有很多情况下在处理数据的时候会用到数据的深拷贝和浅拷贝例如 vue中数据是双向绑定的页面显示依赖于从后台获取到的数据但要将这个数据当做参数发送给另外一个接口的时候其中有几个字段是多余的此时如果将原
时间序列 R 07 时间序列分解 Time series decomposition

一个时间序列可以分解为多个模型的组合 1 1 时间序列的组成 1 1 1 时间序列组成模式三种时间序列模式不计剩余残差部分 1 趋势Tend 比如线性趋势先增加后降低的整体趋势 2 季节性Seasonal 以时间为固定周期呈现循环的
IT项目管理个人作业8

质量标准量度学历博士以上教学经验 5年以上论文发布 10篇以上逻辑表达能力思路清晰讲话清楚性格耐心热情同行评价良好及以上画出QQ图因为数据量太少可以推测它是符合正态分布的
我的图床解决方案，超详细！

图床就是将你的本地图片上传到相关服务商或者个人服务器然后获取图片对应的网络访问地址使用者可以方便快速的将图片插入到文章中后续图片二次使用迁移分享都会非常简单我之前常用的图床方案是使用Gitee的仓库来实现我的博客 1 周刊 2
yaml学习

1 yaml是专门用来写配置文件的语言非常强大和简洁远比json格式方便可用之作为自动化测试框架的配置文件或者用例文件 2 使用场景做配置文件做测试用例 3 语法基本规则大小写敏感使用缩进表示层级关系缩进的空格数目不重要只
MySql笔记

全部案例sql语句 https blog csdn net weixin 46002478 article details 109158249 视频学习地址 https www bilibili com video BV1KW411u7vy
大端模式和小端模式转化

在工作中遇到一个问题数据是以大端模式存储的而机器是小端模式必须进行转换否则使用时会出问题一定义大端模式 Big Endian 数据的高字节保存在内存的低地址中数据的低字节保存在内存的高地址中小端模式 Little En
cube例子自带的说明文档

Qt 5 6 Qt OpenGL Cube OpenGL ES 2 0 example Qt 5 6 0 Reference Documentation Contents Initializing OpenGL ES 2 0 Loading
Hibernate 知识点总结

HIbernate最佳实践 1 使用Configuration装载映射文件时不要使用绝对路径装载最好的方式是通过getResourceAsStream 装载映射文件这样Hibernate会从classpath中寻找已配置的映射文件 2
IDEA 消除项目结构 0%classes,0% lines covered

1 起因启动的时候误点了下面的图标 2 作用经查这个图标的作用用于检测代码覆盖率在单元测试中经常被用到以后有时间可以详细了解一下 3 解决方法一点击 Coverage 会出现一个 Coverage 控制台点击红叉 No
基于MATLAB BP神经网络的水果识别

基于MATLAB BP神经网络的水果识别一课题实现的功能 1 原理分析由于数字图像是唯一的特征标识符号在经营管理中具有不可替代的作用因此数字图像识别系统应具有很高的识别正确率对环境光照条件拍摄位置等因素的影响应有较大的容阈并
【平差软件学习---科傻】四、科傻二等水准平差（参数设置和in1文件讲解）

平差软件学习科傻四科傻二等水准平差参数设置和in1文件讲解这个算是最后一集了也可能不是如果我想到不足的地方我会在补上一集视频或者是文章页总感觉自己操作的很熟练到自己真正讲的时候就没有头绪了不知道看到的我讲的同事会不会笑话
python的爬虫代码_python爬虫代码

encoding utf 8 importreimportrequestsimporturllib2importdatetimeimportMySQLdbfrom bs4 importBeautifulSoupimportsys reloa

python的爬虫代码_python爬虫代码

python的爬虫代码_python爬虫代码 的相关文章

随机推荐

热门标签

python的爬虫代码_python爬虫代码的相关文章