文盲的Python入门日记：第三十天，使用 xml 进行采集定义，进行定向采集，以 ccgp 为例

2023-05-16

本次采集实战，以 http://www.ccgp.gov.cn 为例，定向采集该站的政府采购信息。本文中，用到的采集类，请参考老顾的python入门23天和28天两篇文章。本文中所有出现的相关知识，在老顾的python入门系列文章中都有介绍，请缺课的同学自行补习。如果有其它语言采集池的同学想转到python做采集，可以私信老顾，一起讨论下哦。

---------------------------------------

之前，我们已经对 scrapy 做了否定，为什么呢，他不好用么？怎么说呢，他不能说不好用，但是不太符合老顾的习惯了，毕竟，老顾在没有使用 python 之前，就已经搞了7、8年的采集了，有很多采集，都已经形成自己的习惯了，比如，对ccgp这个网站的政采信息采集，老顾只定义了一个xml，然后放到老顾自己的采集工具里，他就可以正确的运行了，并不比scrapy什么的要差啊。老顾总不能为了转 python，就把以前所有定义好的信息全部放弃，就为了适应scrapy吧？多的不说，老顾手上的采集目标站点好几百个。。。难道你要我从新写好几百个蜘蛛？开玩笑吧。所以，老顾的目标是，将原有的站点信息导入到 python 中，一样可以使用~~~~加油！老顾！

说了那么多，先放一个站点的示例：以ccgp为例

<Sites>
    <Site type="2" filter="1" name="中国政府采购" url="http://www.ccgp.gov.cn/">
        <settings>
            <charset>utf-8</charset>
            <hasfilename>false</hasfilename>
        </settings>
        <regex>
            <reg>
                <![CDATA[http://[^"]+/cggg/(?![^"]+?\.html?)\w+/[^"]+(?<![/\\])(?=[/\\]?")]]>
            </reg>
            <settings>
                <charset>utf-8</charset>
                <hasfilename>false</hasfilename>
            </settings>
            <regex id="ccgplist">
                <match>
                    <reg><![CDATA[<li(?!\w)(?=([\s\S](?!<li(?!\w)))*?title=)(?=([\s\S](?!<li(?!\w)))*?\d+\.htm)([\s\S](?!<li(?!\w)))*</li(?!\w)[^<>]*?>]]></reg>
                    <url><![CDATA[http://[^"]+]]></url>
                    <item name="time"><![CDATA[(?<=发布时间：<span>)[^<>]*(?=</span>)]]></item>
                    <item name="area"><![CDATA[(?<=地域：<span>)[^<>]*(?=</span>)]]></item>
                    <settings>
                        <charset>utf-8</charset>
                        <hasfilename>true</hasfilename>
                    </settings>
                    <regex>
                        <item name="title"><![CDATA[(?<=<(h\d+)(?!\w)[^<>]*?>)([\s\S](?!<\1(?!\w)))*?(?=</\1(?!\w)[^<>]*?>)]]></item>
                        <item name="content"><![CDATA[(?<=(?:<(div) class="(vT_detail_content w760c|vF_detail_content)">|<div id="sign_content">))(([^<]|<(?!/?\1(?!\w))[^<>]*>)*|<\1(?!\w)[^<>]*>(?<DEPTH>)|</\1(?!\w)[^<>]*>(?<-DEPTH>))*(?(DEPTH)(?!))(?=</div>)]]></item>
                    </regex>
                </match>
            </regex>
            <regex>
                <page next="ccgplist">
                    <reg><![CDATA[(?<=<script language="javascript">Pager\(\{size:)\d+(?=, current:0, prefix:'index',suffix:'htm'\}\);</script>)]]></reg>
                    <loop>[url]index_[i].htm</loop>
                </page>
            </regex>
        </regex>
    </Site>
</Sites>

这是 ccgp 站点采集的定义了，其中，入口只有一个，根据入口，获得政采列表的链接，每个节点的大概意义参考下图

也就是我们的第一个 reg 节点中的信息，他用正则描述了这些公告的链接

http://[^"]+/cggg/(?![^"]+?\.html?)\w+/[^"]+(?<![/\\])(?=[/\\]?")

其中，每一个采集时，都有一个编码设置，一个包含文件名设置，用来方便计算我们的路径，前文也已经提到过了，他无法自动识别，所以我们在规则中给出他是不是需要在链接后追加/。

取得了列表页后，就可以得到列表中的每一项内容了，这就是第二个 reg 节点给出的信息了

<li(?!\w)(?=([\s\S](?!<li(?!\w)))*?title=)(?=([\s\S](?!<li(?!\w)))*?\d+\.htm)([\s\S](?!<li(?!\w)))*</li(?!\w)[^<>]*?>

同样是正则来提取页面中的内容

在 reg 节点后，跟随了一个 url 节点，这个节点是提取终端页链接的，用来采集终端页，获取更多信息，比如正文、采购方什么的

然后，最下边，我们有一个page节点，这个是用来定义翻页的，包括翻页链接的格式，是否有前缀、后缀什么的，毕竟每个站的翻页都有自己的规律，通过前缀后缀就可以把这些规律描述出来了。

嗯。。。通过这么一个站点的定义，大概就了解了，为什么老顾不愿意去转 scrapy 了，毕竟站点那么多，一个一个用 scrapy实现麻烦不说，还有很多更细致的需求也不能重用，代码重复率太高太高了，不符合开发人员的习惯。

好了，现在已经给出了这个原有的定义，现在老顾的工作就是写一个类，用来解析这个xml并开始采集，嗯，暂时先不多线程运行，先实现了采集再说，更多需求咱们边做边说

老顾先获取原来的配置信息中，ccgp 的节点

from lxml import etree as ET
x = ET.parse(r'D:\\**********\\config.xml')
root = x.getroot()
sites = root.findall('.//Sites/Site')
print(ET.tostring(sites[0]).decode('utf8'))

第一个问题来了，汉字都变成 unicode 格式的了

print(ET.tostring(sites[0],encoding='utf8').decode('utf8'))

使用这个指令，子节点的中文到是都转出来了，当前节点的属性，还是unicode格式的

先不管这个了，我们先用变量 ccgp 引用这个站点设置

ccgp = sites[0]
print(ccgp.attrib)

结果，准备获取属性时，发现他又不乱码了。。。我也是服气了

不管他，先做个简单的测试

import re
from spider import Ajax
from lxml import etree as ET
x = ET.parse(r'D:\\work\\source\\CaiGou_Gather_Services\\CaiGou_Gather_Test\\config.xml')
root = x.getroot()
sites = root.findall('.//Sites/Site')
ccgp = sites[0]
ajax = Ajax()

def spider(target):
    tag = target.tag
    if tag.lower() == 'site':
        url = target.attrib['url']
        charset = target.findall('./settings/charset')[0].text
        isDirectory = target.findall('./settings/hasfilename')[0].text
        reg = target.findall('./regex/reg')[0].text.strip()
        if isDirectory == 'false':
            url = re.sub('/$','',url) + '/'
        ajax.charset = charset
        html = ajax.Http(url)
        urls = re.findall(reg,html,re.I)
        print(urls)

spider(ccgp)

先看看入口解析，能不能得到下一步的链接，运行后，结果符合预期

那么，我们就可以正式制作这个类了

import re
from lxml import etree as ET
from spider import Ajax

class XmlSettings:
	def __init__(self,file):
		'''初始化'''
		self.version = '0.1'
		self.ajax = Ajax()
		self.xml = ET.parse(file)
		self.root = self.xml.getroot()
		self.sites = self.root.findall('.//Sites/Site')
		self.queue = []
		self.done = []

	def parse(self,element,html=None,url=None):
		tag = element.tag
		if element.findall('./settings/charset'):
			charset = element.findall('./settings/charset')[0].text
			isDirectory = element.findall('./settings/hasfilename')[0].text
		else:
			charset = element.getparent().findall('./settings/charset')[0].text
			isDirectory = element.getparent().findall('./settings/hasfilename')[0].text
		if tag.lower() == 'site':
			url = element.attrib['url']
			if isDirectory == 'false':
				url = re.sub('/$','',url) + '/'
			self.queue.append(url)
			html = self.ajax.Http(url)
			nodes = element.findall('./regex')
			for node in nodes:
				self.parse(node,html)
		if tag.lower() == 'regex':
			if element.findall('./reg'):
				reg = element.findall('./reg')[0].text.strip()
				urls = re.findall(reg,html,re.I)
				for url in urls:
					if isDirectory == 'false':
						url = re.sub('/$','',url) + '/'
					self.queue.append(url)
					html = self.ajax.Http(url)
					nodes = element.findall('./regex')
					for node in nodes:
						self.parse(node,html,url)
			if element.findall('./match'):
				nodes = element.findall('./match')
				for node in nodes:
					self.parse(node,html,url)
			if element.findall('./page'):
				reg = element.findall('./page/reg')[0].text.strip()
				next = element.findall('./page/loop')[0]
				prefix = ''
				start = 1
				maxPage = 0
				pages = re.findall(reg,html,re.I)
				if 'start' in next.attrib:
					start = int(next.attrib['start'])
				if 'prefix' in next.attrib:
					prefix = next.attrib['prefix']
				if pages:
					maxPage = int(pages[0])
				for i in range(start,maxPage+1):
					next_url = next.text.strip()
					next_url = next_url.replace('[i]',str(i))
					next_url = next_url.replace('[fullurl]',url)
					next_url = next_url.replace('[url]',url)
					next_url = next_url.replace('[querystring]',url)
					self.queue.append(next_url)
					html = self.ajax.Http(next_url)
					node = element.getparent().findall('./regex/match')[0]
					#self.parse(node,html,next_url)
		if tag.lower() == 'match':
			regex = element.findall('./reg')[0].text.strip()
			prefix = element.findall('./url')[0].attrib['prefix'] if 'prefix' in element.findall('./url')[0].attrib else ''
			postfix = element.findall('./url')[0].attrib['postfix'] if 'postfix' in element.findall('./url')[0].attrib else ''
			matches = re.finditer(regex,html,re.I)
			for m in matches:
				match = m.string[m.span()[0]:m.span()[1]]
				print(match)

先简单的实现一些定义，其中parse方法算是递归方法了，当然这只是暂时的，因为真正要实现采集，还要考虑并发，考虑对方服务器封IP策略，考虑自己计算机运行速度等，这些咱们暂且先都不考虑，先看看能不能实现翻页，能不能得到终端页

在这段代码中，当碰到 regex/page 节点时，计算翻页，什么前缀，什么querystring全都考虑进来了，毕竟有的翻页是 /index_2.shtml，有的则是 /list.php?pg=2 这样的格式，所以，我这里定义的变量也相对多了一点，next_url就是计算完页码后的链接地址，为了测试，老顾把所有采集的页面链接，都放到了 queue 列表中了，我们可以在外边打印下 queue

from spider import XmlSettings
yy = XmlSettings(r'D:\\work\\source\\CaiGou_Gather_Services\\CaiGou_Gather_Test\\config.xml')
yy.parse(yy.sites[0])

for i in yy.queue:
    print(i)

可以看到，翻页后的链接的确已经生成成功了，然后，在翻页链接被采集后，有一句获得该链接对应的列表页解析节点的代码

					node = element.getparent().findall('./regex/match')[0]
					#self.parse(node,html,next_url)

根据这个节点，继续解析采集到的内容。。。不过为了减少运行时间，我暂时给他注释掉了，没有解析翻页后的列表页

而每个列表页的第一页，则进入到了

if tag.lower() == 'match':

这个代码片段，我在这个实现里，仅仅获取了列表页的 li 标签，并将其打印出来了

那么，到此为止，我们基本上可以对任意站点进行老顾这样的xml定义，进行不限制的采集了。

还是那句话，本文主要是针对已有的采集项，在转型到python时，用老顾定义的 Ajax类来实现转型的，而不是强制使用 scrapy 来从新定义的。

如果有同学有自己的采集池也要转型，可以私信老顾，咱们一起探讨一下怎么迁移哦。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

文盲的Python入门日记：第三十天，使用 xml 进行采集定义，进行定向采集，以 ccgp 为例的相关文章

使用Supervisor和NGINX部署

目录 SupervisorNGINX Supervisor span class token function sudo span span class token function apt get span y update span c
当Android的Kotlin出现了Unresolved reference:***(设置的控件id)

这几天学习Kotlin xff0c 在看郭霖老师的第一行代码第三版这本书 xff0c 这里一段程序 xff0c 同样得样例 xff0c 自己敲会报错 xff08 入图 xff09 xff0c 很疑惑 xff0c 自己手动解决了这里很明
opencv显示图像并转换成灰度图（c++） day1

include lt opencv2 opencv hpp gt include lt iostream gt using namespace cv int main Mat src 61 imread 34 aa jpg 34 Mat g
古典问题（兔子生崽）：有一对兔子，从出生后第3个月起每个月都生一对兔子，小兔子长到第三个月后每个月又生一对兔子，假如兔子都不死，问每个月的兔子总数为多少对

基础不夯实 xff0c 工作两行泪 include lt stdio h gt int main 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 1 2 3 5 8 13 21 34 int m 61
瑞芯微RK1808开发板之进入系统

参照RK1808 EVB用户指南 V10 20181226 pdf用户指南配置文档获取地址https github com rockchip linux docs tree master SoC 20platform 20related
瑞芯微RK1808编译rknn_demo

操作步骤在ubuntu16 04下编译官方给的sdk里的rknn demo不能直接编译缺少一些动态链接库 xff0c 还需要完善一些CMakeLists txt内容首先在rknn demo下新建一个build 进入 build文件夹下
关于Gson解析异常：Use JsonReader.setLenient(true) to accept malformed JSON at line 1 column 1 path $

很明显 xff0c 字面意思 xff0c Gson解析异常出现这个的原因多是Gson串不标准 xff0c 甚至是返回乱码 xff0c 这些都需要后台去处理我遇到这个问题遇到过2次第一次 xff1a 网页测试都是好的 xff0c 正常解
mac系统使用idea+sbt运行spark程序

1 首先要搭建spark环境 xff0c 具体方法请看 xff1a https blog csdn net sunxiaoju article details 86183405 2 打开idea xff0c 然后新建一个项目 xff0c 如
CentOS7编译安装thrift工具

1 在https archive apache org dist thrift 位置选择相应的版本下载 xff0c 如下图所示 xff1a 2 然后选择thrift 0 13 0 tar gz下载 xff0c 如下图所示 xff1a 3 通
vue3.0+ts集成jquery、bootstrap、jquery.dataTable插件、echart

先看运行效果 xff1a 1 首先查看开发环境 xff0c IDE使用的是vscode xff0c 如下图所示 xff1a 2 然后根据使用vue创建项目 xff0c 如下命令 xff1a vue create myweb 如下图所示 xf
Print.js javascript库实现页面打印

官网地址 xff1a https printjs crabbly com 您可以从GitHub版本下载最新版本的Print js xff1a https github com crabbly Print js releases npm 安装
js通过正则表达式获取＜a＞标签数组

console span class token punctuation span span class token function log span span class token punctuation span span clas
Ubuntu MySQL安装和卸载

安装下载 https dev mysql com downloads mysql 5 7 html percona下载 https www percona com doc percona server 5 7 index html deb
jQuery.Step 步骤说明文档

一设置 setting 1 外观设置 Appearance 设置名称描述值的类型默认值headerTag指定步骤按钮文本所在的标签Stringh1bodyTag指定步骤主体内容所在的标签StringdivcontentContainerT
vs2010+qt4编译出现error LNK2001: 无法解析的外部符号 "public: virtual struct QMetaObject等错误

1 当vs2010编译qt时会出现以下错误 xff1a 1 gt 已启动全部重新生成项目 MyDialog 配置 Debug Win32 1 gt 生成启动时间为 2015 9 9 14 57 04 1 gt InitializeBuil
osgOcean+VS2010+Win7编译方法

1 首先要下载osgOcean Source 1 0 1包 xff0c 以及依赖包osgOcean Resources 1 0 1 fftss 3 0 20071031 xff0c 可在 xff1a 链接 xff1a http pan ba
ubuntu 16.04 启用root用户方法

1 使用 sudo passwd root设置root的密码 xff0c 如下图所示 xff1a 2 使用su root来测试是否可以进入root用户 xff0c 如果出现说明已经设置root用户的密码成功 xff0c 如下图所示 xff
U盘安装Mac High Sierra（制作U盘启动必须是在mac系统中）

一 Mac电脑制作U盘下载macOS High Sierra地址 xff1a https pan baidu com s 1U6AA3AgGIqpTx l I9XSXw 密码 xff1a 0ahd 1 准备一个8GB或更大的U盘 xff0
git忽略某个目录或文件不上传

1 首先我们通过git status来查看能被上传的文件 xff0c 如下图所示 xff1a 2 我们查看到node modules目录默认是可以被上传的 xff0c 那么我们需要在目录总创建一个 gitignore文件 xff0c 可以在
使用IntelliJ IDEA 配置Maven并配置仓库位置

转自 xff1a https www cnblogs com sigm p 6035155 html 首先声明 xff0c 本文非EamonSec原创 xff0c 转自哪儿我现在也不知道了 xff0c 可能被我转的人也不是原创 1 下载Ma

随机推荐

c++ 多线程阻塞队列的简单实现

经常用到 xff0c 经常重复写 xff0c 先留一份 xff0c 日后备用 xff0c 不想用别人实现的 xff0c 第三方的针对性都不强 xff0c 加上了一堆用不到的东西好了上代码 Queue h Created on 2013
[FAQ03891] 如何在User版本开启串口(Uart),抓取上层Log,开启输入控制台

FAQ Content Description 如何在User版本开启串口 Uart xff0c 开启输入控制台 xff0c 抓取上层Log Keyword User Uart Log Logcat 输入控制台串口 Solution 1
Docker安装rabbitmq，创建用户

启动 span class token comment 端口映射以及初始用户名和密码rabbit或者不加直接默认guest账户密码 xff0c 直接拉取镜像 span span class token function docker spa
常用照片尺寸对照表，照片大小看这个表就对了

照片的规格有1寸 2寸 3寸 5寸 6寸 8寸 10寸 xff0c 其中1寸照片最为常用 xff0c 像身份证驾驶证港澳通行证护照毕业证大多都用是1寸的照片 xff0c 但这些证件照片对应的尺寸还是有区别的常用的照片尺寸对照数据
SSH命令使用手册

SSH 的详细使用方法如下 xff1a ssh l login name hostname user 64 hostname command ssh afgknqtvxCPX246 c blowfish 3des e escape char
解决Bug：win10升级AndroidStudio4.1时出现“Missing essential plugin: org.jetbrains.android……”

文 Promise Sun Bug xff1a win10升级AndroidStudio 4 1版时出现 Missing essential plugin org jetbrains android 目录一 Bug 问题 xff1a 二
AS里的MainActivity.kt中引用资源id出现“Unresolved reference：“问题解决方法

MainActivity kt中引用资源id出现 34 Unresolved reference xff1a 34 问题解决方法在bulid gradle文件中插入id kotlin android extensions xff0c 如下
深度神经网络应用实例

深度神经网络目前有哪些成功的应用深度学习最成功的应用是在音视频的识别上 xff0c 几乎所有的商用语音识别都是深度学习来完成的其次深度学习应用最成功的领域就是图像识别 xff0c 目前识别准确率已经超越人类深度学习成了图像识别的标配
PWM控制舵机

学习PWM对舵机的控制 xff1a 舵机的控制就是通过一个固定的频率 xff0c 给其不同的占空比的 xff0c 来控制舵机不同的转角 180度舵机 xff08 自用 xff09 舵机频率为50Hz xff08 20ms的周期 xff09
Collections中的sort()方法、compareTo()方法、max()方法、min()方法

sort是进行collection集合进行排序使用的方法会自动调用compareTo 方法 xff0c 对集合进行排序一般步骤 xff1a 要排序的类要实现Comparable lt gt 接口 xff0c 然后重写compareTo
Ubuntu16.04安装N卡驱动

最近碰到个实验 xff0c 需要用pytorch0 4和python2 7的环境 xff0c 因为环境比较老 xff0c 所以新显卡可能不能装紧急联系朋友搞了张1660ti想来跑实验 xff0c 结果光是驱动就碰了一鼻子灰 xff0c 这
Ubuntu16.04安装深度学习环境（CUDA9.2+PyTorch0.4.1+Python2.7）

之前已经安装好了显卡驱动 xff0c 接着就可以安装CUDA了于是又找了好几篇文章进行参考 xff1a https zhuanlan zhihu com p 361190040 https blog csdn net qq 4366560
CTF问题汇总

Web方向 PHP检测用户语言有道题目的代码是这样的 lt php error reporting 0 if isset SERVER 34 ACCEPT LANGUAGE 34 alang 61 SERVER 34 ACCEPT LAN
Windows和Linux的shell脚本报错：no such file or directory，command not found

问题运行脚本时明明有文件 xff0c 提示找不到文件 xff0c 路径不存在 standard init linux go 228 exec user process caused no such file or directory co
ubuntu下安装phpmyadmin打开后出现404

最近要用到PHP xff0c 由于在学习linux程序设计 xff0c 所以不想用windows做 xff0c 虽然上面集成环境之类的都弄好了 xff0c 但linux弄LAMP不也分分钟的事么 xff0c 于是我就在ubuntu上装起LA
解决运行PHP一片空白

今天手打了一个PHP页面 xff0c 结果运行的时候一片空白 xff0c 啥都没有 xff0c html部分也都被消失了 xff0c 也没有错误提示 xff0c 甚是不解删掉PHP部分 xff0c html部分出来了 xff0c 好的
使用Lambda表达式遍历集合（forEach方法）

使用Lambda表达式遍历集合 xff08 forEach方法 xff09 Java8为Iterable接口新增forEach Consumer action 方法 xff0c Iterable接口是Collection接口的父接口 xff
基于FPGA的数字电路实验（一）：实验准备及示例项目

最近在做数字电路的实验 xff0c 写点文章记录下过程 xff1a 我们的教学开发板是Nexys3 xff0c 淘宝上要1000多基于FPGA xff0c 开发语言是VerilogHDL xff0c 开发平台是ISE Design Sui
java.lang.IllegalStateException异常产生的原因及解决办法

问题描述 xff1a 错误类型大致为以下几种 xff1a java lang IllegalStateException xff1a Cannot forward a response that is already committed I
文盲的Python入门日记：第三十天，使用 xml 进行采集定义，进行定向采集，以 ccgp 为例

本次采集实战 xff0c 以 http www ccgp gov cn 为例 xff0c 定向采集该站的政府采购信息本文中 xff0c 用到的采集类 xff0c 请参考老顾的python入门23天和28天两篇文章本文中所有出现的相关知识

文盲的Python入门日记：第三十天，使用 xml 进行采集定义，进行定向采集，以 ccgp 为例

文盲的Python入门日记：第三十天，使用 xml 进行采集定义，进行定向采集，以 ccgp 为例 的相关文章

随机推荐

热门标签

文盲的Python入门日记：第三十天，使用 xml 进行采集定义，进行定向采集，以 ccgp 为例的相关文章