[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

2023-11-17

前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒，同样可以通过Spider获取网站内容，最近学习了Selenium+Phantomjs后，准备利用它们获取百度百科的旅游景点消息盒（InfoBox），这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~

源代码

# coding=utf-8  
""" 
Created on 2015-09-04 @author: Eastmount  
"""  
  
import time          
import re          
import os  
import sys
import codecs
from selenium import webdriver      
from selenium.webdriver.common.keys import Keys      
import selenium.webdriver.support.ui as ui      
from selenium.webdriver.common.action_chains import ActionChains  
  
#Open PhantomJS  
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
#driver = webdriver.Firefox()  
wait = ui.WebDriverWait(driver,10)
global info #全局变量

#Get the infobox of 5A tourist spots  
def getInfobox(name):  
    try:  
        #create paths and txt files
        global info
        basePathDirectory = "Tourist_spots_5A"  
        if not os.path.exists(basePathDirectory):  
            os.makedirs(basePathDirectory)  
        baiduFile = os.path.join(basePathDirectory,"BaiduSpider.txt")  
        if not os.path.exists(baiduFile):  
            info = codecs.open(baiduFile,'w','utf-8')  
        else:  
            info = codecs.open(baiduFile,'a','utf-8')  
      
        #locate input  notice: 1.visit url by unicode 2.write files  
        print name.rstrip('\n') #delete char '\n'  
        driver.get("http://baike.baidu.com/")  
        elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")  
        elem_inp.send_keys(name)  
        elem_inp.send_keys(Keys.RETURN)  
        info.write(name.rstrip('\n')+'\r\n')  #codecs不支持'\n'换行
        time.sleep(2)
        print driver.current_url
        print driver.title
  
        #load infobox basic-info cmn-clearfix
        elem_name = driver.find_elements_by_xpath("//div[@class='basic-info cmn-clearfix']/dl/dt")  
        elem_value = driver.find_elements_by_xpath("//div[@class='basic-info cmn-clearfix']/dl/dd")
        for e in elem_name:
            print e.text
        for e in elem_value:
            print e.text

  
        #create dictionary key-value
        #字典是一种散列表结构,数据输入后按特征被散列,不记录原来的数据,顺序建议元组
        elem_dic = dict(zip(elem_name,elem_value)) 
        for key in elem_dic:  
            print key.text,elem_dic[key].text  
            info.writelines(key.text+" "+elem_dic[key].text+'\r\n')  
        time.sleep(5)  
          
    except Exception,e: #'utf8' codec can't decode byte  
        print "Error: ",e  
    finally:  
        print '\n'  
        info.write('\r\n')  
  
#Main function  
def main():
    global info
    #By function get information   
    source = open("Tourist_spots_5A_BD.txt",'r')  
    for name in source:  
        name = unicode(name,"utf-8")  
        if u'故宫' in name: #else add a '?'  
            name = u'北京故宫'  
        getInfobox(name)  
    print 'End Read Files!'  
    source.close()  
    info.close()  
    driver.close()  
  
main()

运行结果
主要通过从F盘中txt文件中读取国家5A级景区的名字，再调用Phantomjs.exe浏览器依次访问获取InfoBox值。同时如果存在编码问题“'ascii' codec can't encode characters”则可通过下面代码设置编译器utf-8编码，代码如下：

#设置编码utf-8
import sys 
reload(sys)  
sys.setdefaultencoding('utf-8')
#显示当前默认编码方式
print sys.getdefaultencoding()

对应源码
其中对应的百度百科InfoBox源代码如下图，代码中基础知识可以参考我前面的博文或我的Python爬虫专利，Selenium不仅仅擅长做自动测试，同样适合做简单的爬虫。

编码问题
此时你仍然可能遇到“'ascii' codec can't encode characters”编码问题。
它是因为你创建txt文件时默认是ascii格式，此时你的文字确实'utf-8'格式，所以需要转换通过如下方法。

import codecs

#用codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode
if not os.path.exists(baiduFile):  
    info = codecs.open(baiduFile,'w','utf-8')  
else:  
    info = codecs.open(baiduFile,'a','utf-8')
    
#该方法不是io故换行是'\r\n'
info.writelines(key.text+":"+elem_dic[key].text+'\r\n')

总结
你可以代码中学习基本的自动化爬虫方法、同时可以学会如何通过for循环显示key-value键值对，对应的就是显示的属性和属性值，通过如下代码实现：
elem_dic = dict(zip(elem_name,elem_value))
但最后的输出结果不是infobox中的顺序，why?
最后希望文章对你有所帮助，还有一篇基础介绍文章，但是发表时总会引发CSDN敏感系统自动锁定，而且不知道哪里引起的触发。推荐你可以阅读~
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
（By:Eastmount 2015-9-6 深夜2点半 http://blog.csdn.net/eastmount/ ）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒的相关文章

使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
在Python中连接反斜杠

我是 python 新手所以如果这听起来很简单请原谅我我想加入一些变量来生成一条路径像这样 AAAABBBBCCCC 2 2014 04 2014 04 01 csv Id TypeOfMachine year month year
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
仅第一个加载的 Django 站点有效

我最近向 stackoverflow 提交了一个问题标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

C语言写网络爬虫总体思路

使用C语言编写爬虫可以实现网络数据的快速获取和处理适用于需要高效处理海量数据的场景与其他编程语言相比 C语言具有较高的性能和灵活性可以进行底层操作和内存管理适合处理较复杂的网络请求和数据处理任务但是使用C语言编写爬虫也存在一些挑
2个不错的通配符比较函数

近日在和朋友讨论 MaskMatch 时偶得2个不错的算法函数1 只支持模糊匹配速度比采用递归算法的快近2倍比TMask方法快很多函数2 完全支持正规表达式速度于之前的相同不会正规表达式的朋友慎用 Funtion 1 Chec
mysql error1215

You have a foreign key constraint operating in both directions When you re creating the tables the first to be created w
基于STM32单片机的智能鱼缸的设计

一任务简介本次以STM32F103单片机为核心设计了一款智能鱼缸能够实现智能温控智能换水智能供氧智能喂食等功能利用单片机作为主控制器使用Keil软件进行程序开发除STM32F103C8T6最小系统外系统还包含温度传感
【满分】【华为OD机试真题2023 JS】货币单位换算

华为OD机试真题 2023年度机试题库全覆盖刷题指南点这里货币单位换算时间限制 1s 空间限制 256MB 限定语言不限题目描述记账本上记录了若干条多国货币金额需要转换成人民币分 fen 汇总后输出每行记录一条金额金额带有
数仓虚拟化技术：PieCloudDB Database 通过中国信通院 2023 「可信数据库」性能评测的强力支撑...

可信数据库是国内首个数据库的评测体系被业界广泛认可为产品能力重要的衡量标准之一 PieCloudDB Database在该评测中展现出卓越的数据处理速度稳定性和可扩展性为用户提供了强大的数据分析和查询能力 6 月 15 16 日中
EF Core Migration 报错：An error occurred using the connection to database ‘‘ on server ‘10.28.253.2‘

EF Core Migration update database的时候 An error occurred using the connection to database on server 10 28 253 2 问题在做EF Co
嵌入式Linux构建yaffs根文件系统

嵌入式Linux构建yaffs根文件系统开发环境说明 ubuntu1404 i686 天嵌光盘里的交叉编译链版本4 4 3 busybox 1 13 0 下载地址 https busybox net downloads 一编译busy
TQ2440移植u-boot2016.11全过程记录-【1】单板建立并启动

TQ2440移植u boot2016 11 单板建立并启动移植说明 u boot2016 11是S3C2440最后一版的uboot支持所以选择了此版本进行移植交叉编译器使用的是天嵌官方的交叉编译器版本为4 4 3 使用的ubuntu
rsync随机启动脚本

服务端 1 bin sh 2 chkconfig 2345 21 60 3 description Saves and restores system entropy pool for 4 create by xiaohu 5 2014 0
Dev-c++怎么设置背景色

我们在使用Dev c 这个软件的时候遇到夜晚等的条件下希望使用一种暗一点的颜色而默认的是白色的背景十分亮眼如何进行设置呢在教程的开始先附上设置后的效果图显然这种背景更加适合晚上开发话不多说直接开始设置步骤设置步骤 1 菜单
opencv-图片矫正

转载 https www jianshu com p a1838972d1da 对于倾斜的图片通过矫正可以得到水平的图片一般有如下几种基于opencv的组合方式进行图片矫正 1 傅里叶变换霍夫变换直线角度旋转 2 边缘检测霍夫变
英国程序员的工资

我在英国做程序员工作将近2年了接触到他们当地的一些的程序员他们的大概工资如下一个刚刚从学校毕业的计算机系大学生月工资水平大概是2000到3000英镑左右约合人民币3万至4 5万元这是税前收入英国是一个高税收高福利的国家如果你
Windows上如何使用SWIG （c++ android 示例）

SWIG介绍 SWIG Simplified Wrapper and Interface Generator 即简化包以及接口生成器为脚本语言 tcl perl python等提供了C和C 的接口 SWIG在1995年在Los Alam
获取nan只能用numpy,不能用pandas

a pd Series a b pd nan d AttributeError module pandas has no attribute nan a pd Series a b np nan d print a 0 a 1 b 2 Na
c语言输入并判断成绩等级

输入并判断成绩等级 include
华为OD机试 - 总最快检测效率（Java）

题目描述在系统网络均正常的情况下组织核酸采样员和志愿者对人群进行核酸检测筛查每名采样员的效率不同采样效率为N人小时由于外界变化采样员的效率会以M人小时为粒度发生变化 M为采样效率浮动粒度 M N 10 输入保证N 10 的结
数据结构与算法各类数图概念集合

拓扑排序有向无环图才能进行拓扑排序理解就是在大学期间所有的课程你只有先学完计算机基础才能学更加高深的课程从一个入度为0的点出发找下一个一直到最后就是拓扑排序前中后序排序前根左右中左中右后左右中要确定一颗二叉
＜毕业设计＞最适合大学生的12个Java系统项目（附源码）

就业毕业设计 Java项目合集小编给大家整理了12个Java系统项目附源码白嫖到底最合适大学生学习的Java毕业设计教程合集合集视频教程链接 https www bilibili com video BV1pB4y1h7Pr s
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒同样可以通过Spider获取网站内容最近学习了Selenium Phantomjs后准备利用它们获取百度百科的旅游景点消息盒 InfoBox 这也是毕业设计实体对齐和属

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒 的相关文章

随机推荐

热门标签

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒的相关文章