如有错误,请疯狂打脸没关系,希望能够指出来。
0. 开始的开始
一直想做一个图书漂流软件,最近入手(入坑)了微信小程序,添加图书时需要用到isbn查询书籍信息的API(不用也可以,但用户会非常麻烦,强迫症晚期的我又跳入了isbn查询API的坑),但发现别人的API都很贵,豆瓣也收回了API的使用权,估计是要收费了。
所以,与其在坑里苦苦挣扎,不如。。。。再挖一个更大的坑,自己做一个。。。
1. 开始
首先打算用python写个爬虫(能力与知识有限,现在只能想到这个办法,如前辈们有更好的办法,请砸过来)。
搜索了几个可以用isbn查书籍信息的网站,最后还是选择了豆瓣。
豆瓣isbn查书籍信息的流程为:
- 打开豆瓣读书的首页
- 在搜索框输入isbn码
- 回车或点击小放大镜,书籍的信息出来了
本来想的很好,就这样一路闪电带火花把核心代码写了,然而,总有不尽人意的地方。就在第3步,本来打算在这里把信息给爬了,却发现爬回来是空的,也不知道什么原因(查html代码,发现有一级标签id为root,可能豆瓣设置了权限,猜的,具体原因不知道)。
2. 爬取内容
虽然人生不尽人意,但还是要走下去。在第3步的页面,点击书名或图片会出来更详细的信息。
果然,这里的信息可以爬取,要什么有什么。
2.1 获取书籍信息页面的链接地址
思路:
打开豆瓣读书首页,模拟浏览器填写isbn码,进行搜索,跳转到搜索结果页面,读取a标签href链接,即书籍信息页面的链接地址。
代码如下:
def isbn_search(isbn):
"""
输入:isbn
输出:豆瓣搜索结果的书籍链接
"""
browser = webdriver.PhantomJS()
browser.get("https://book.douban.com/subject_search?search_text=" + isbn + "&cat=1001")
soup = BeautifulSoup(browser.page_source, "lxml")
tags = soup.select("#root > div > div > div > div > div > div > a")
link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", str(tags[0]))
browser.close()
return link_list[0]
2.2 爬取书籍详细信息
思路:
打开2.1获取的页面,找到书籍信息块代码,爬回并清洗,得到需要的信息。
代码如下:
def book_info(douban_link):
"""
输入:豆瓣书籍链接
输出:书籍信息
"""
g=requests.get(douban_link)
soup=BeautifulSoup(g.content,"lxml")
title = "书名: 《" + re.sub('[\f\n\r\t\v]','',re.sub('<([^>]+?)>','',str((soup.select("#wrapper > h1 > span"))[0]))) + "》"
infos = [title]
span_list = soup.findChild('div',{'id':'info'})
for item in str(span_list).split('<br/>'):
info_item = re.sub('[\f\n\r\t\v]','',re.sub('<([^>]+?)>','',item)).split(":")
info_temp = []
for info_item_item in info_item:
sprit = info_item_item.partition("/")
for sprit_item in sprit:
info_temp += sprit_item.partition("]")
temp_list = []
for temp in info_temp:
ddd=temp.strip()
if ddd != '':
temp_list.append(ddd)
else:
continue
info = temp_list[0] + ': '
for i in range(1, len(temp_list)):
info += temp_list[i]
if temp_list:
pass
else:
continue
infos.append(info)
return infos
3. 效果
这里使用PhantomJS浏览器,但会报UserWarning,Selenium最新版不支持PhantomJS了,我用的Selenium 3.141.0,UserWarning建议使用谷歌或火狐浏览器的无头模式,但我没成功,如有大佬成功了希望交流一下。
4. 完整代码下载
isbn查询书籍详细信息 (2019/10/13)上一个版本由于某种原因,已不能使用,请下载 v2.0 版本。
isbn查询书籍详细信息2.0(2020/3/30)- 时隔3年又更新了:
isbn查询书籍详细信息2.5(2023/5/3)
-
- 解决了因浏览器驱动路径不对无法运行的问题
-
- 添加了豆瓣评分及评价人数,如下图:
由于csdn下载积分随下载次数不断增加,如积分不够,可私聊我,如果有积分还是希望赞助一下。
仅供学习,勿作商用,如有违反,我也不管 >-<
不知道豆瓣有一天会不会把这个方法给ban掉。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)