爬虫中网页分析的几种技术

2023-10-27

一般来说我们只抓取网页中的特定数据，比如抓取某人所有的blog，我们就只关心list 页面中文章列表那部分的链接和title

有几种技术可以用来分析网页

1）正则匹配

2）一般字符串匹配content.substring(pattern, startIndex)，一般是带有startIndex的substring，而不是每次都是从头匹配

3) 基于sax的事件

4）DOM + XPath

抓去的数据有两种

1）基于数据本身的parttern，比如链接、email adrress，适合用正则

2）基于位置。数据本身没什么特别，关键在于在什么位置出现。适合用其他3种，

基于sax事件的最好，流式处理，不需要存储整个网页，缺点是有些网页不规范，sax 要求必须是合法、well formed xml。

substring和正则一般需要先把网页读成字符串，substring更简单轻量级一些，

DOM+xpath太杀鸡用牛刀了

例子，把自己csdn上所有的博文扒下来：

from urllib2 import Request, urlopen, URLError

page, articleList, visited, startOver = 1, [], set(), False
while not startOver:
    req = Request('http://blog.csdn.net/binling/article/list/' + str(page), headers={'User-agent': 'Mozilla 5.10'})
    try:content = urlopen(req).read()
    except URLError, e: break
    pos = 0
    while True:
        try:
            pos = content.index('link_title', pos)
            pos = content.index('href', pos)
            pos = content.index('"', pos)
            end = content.index('"', pos + 1)
            link = content[pos + 1:end].strip().decode('utf-8')
            if link in visited:
                startOver = True
                break
            pos = content.index('>', end)
            end = content.index('</a>', pos)
            title = content[pos + 1: end].strip()
            articleList.append((title.decode('utf-8'), link))
            visited.add(link)
        except: break
    page += 1

home = 'C:\\Personal\\CSDN'
for title, link in articleList:
    for c in '/\*:<>?"|':
        if c in title: title = title.replace(c, ' ')
    content = urlopen(Request('http://blog.csdn.net' + link, headers={'User-agent': 'Mozilla 5.10'})).read()
    with open(home + '\\' + title + '.html', 'w') as f:
        f.write(content)
        print title

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

parser

系统分析设计

爬虫中网页分析的几种技术的相关文章

Error: Failed to load parser ‘babel-eslint‘ declared in

解决办法 xff1a 使用手动安装 babel eslint npm i D babel eslint
args = parser.parse_args() SystemExit: 2 解决方案

问题描述今天运行程序 xff0c 突然报错 xff1a args 61 parser parse args args 61 SystemExit 2 查阅网上解决方案无果 xff0c 于是自己检查了错误信息 xff0c 哦 xff0c 原
使用http_parser解析URL

转载自 xff1a https www iteye com blog shangxun 2139443 使用http parser解析URL 用C语言编写http应用 xff0c 解析URL是一个繁琐的事儿前几天使用http parser
Http_parser报文解析（转载）

转载自 xff1a https blog csdn net qq 36482772 article details 80174358
【slighttpd】基于lighttpd架构的Server项目实战(7)—http-parser

转载地址 https blog csdn net jiange zh article details 50639178 对于http服务器 xff0c http request的解析是比较麻烦的 xff0c 由于我们的重点并不在这上面 xf
开源HTTP解析器---http-parser和fast-http

转载自 xff1a https www cnblogs com arnoldlu p 6497837 html 开源HTTP解析器 http parser和fast http 由于项目中遇到需要发送http请求 xff0c 然后再解析接收到
使用http_parser解析URL

用C语言编写http应用 xff0c 解析URL是一个繁琐的事儿前几天使用http parser实现httpclient xff0c 发现里面提供了一个解析URL的方法http parser parse url xff0c 用起来相当方便
【slighttpd】基于lighttpd架构的Server项目实战(7)—http-parser

对于http服务器 xff0c http request的解析是比较麻烦的 xff0c 由于我们的重点并不在这上面 xff0c 所以这一部分不打算自己编写 xff0c 而是使用开源的http parser库 xff0c 下面我们将使用该库来
子串/子段问题总结

1 一般子串问题求一个串中满足某种条件的子串 1 如果所求子串的条件是一个值比如sum 则考虑子段问题注意这样一个性质子段前缀差子段和前缀和的差 vector
爬虫中网页分析的几种技术

一般来说我们只抓取网页中的特定数据比如抓取某人所有的blog 我们就只关心list 页面中文章列表那部分的链接和title 有几种技术可以用来分析网页 1 正则匹配 2 一般字符串匹配content substring pattern s
中缀表达式求值问题

1 有无括号 2 一种优先级运算符只有或还是2种和都有 3 求逆波兰序列求值求表达式树两种思路 1 分治求值和求表达式树都可以用 nlogn 1 先去掉冗余括号两边最外面的如 1 1 2 如果有的话找到优先级最小的
还是搜索、索引的问题

搜索要弄清2个基本问题 1 要搜索出什么类型的entity 2 entity的哪个方面维度和关键词发生关联的一般来说可以有多个角度link到entity 一个entity支持多个索引可以从不同的column检索对于 web sear
二叉树 level order 遍历问题汇总

一如何确定层结束 1 维护一个levelEnd 如果当前结点等于level end 更新levelEnd 为queue back 注意先判断queue是否empty 最后一层结束后 queue就空了 2 维护一个curLevelNum 和
merge sort 一些变种、应用

1 逆序对数目分治公式总的逆序对个数前半部分逆序对个数后半部分逆序对个数 merge时候每取一次后半部分的数累加一次前半部分剩余的数的个数 int countInvertion vector
最大公约数，最小公倍数，素数等问题

1 两个数的最小公倍数等于两个数的乘积除以最大公约数 scm a b a b gcd a b 所以主要是最大公约数问题 gcd 问题辗转相除法依据就是欧几里得定理 gcd a b gcd b a b def gcd a b whil
什么是Service, 以及Service 模板

Service本质就是一个驻留Process 驻留Prcess至少有一个驻留线程这个线程处在waiting的状态相对于Runable 控制流停在某个点上等待外部事件驱动或者是自己的timer驱动 Windows Service 是一
一致性的3种协议，并发，事务

Two Phase Commit MVCC Paxos TPC对应于传统数据库上的local cluster的一致性分布式事务每个节点上的local事务可以是不同的亦可以是相同的 replica MVCC的思想是抓住Transactio
一个完整的语法分析、词法分析例子——Universal Pasrser

需求用户用formal notation指定语法词法然后可以匹配相应的文本用法类似正则表达式只需给出formal notation 不需要为每一种格式的文本单独写匹配器 formal notation主要是3个部分 1 BNF 列
大数据问题汇总

1最基本的一个数据流文件求top k biggest solution 维护大小为K的最小堆和堆顶比大于堆顶的加入堆堆顶相当于准入门槛如果size 超过K 移除堆顶 vector
面向对象OO 设计、架构终极理解，以及如何学习一个领域

程序就是一些互相引用的内存快互相发消息每个内存块就是一个状态机状态的迁移规则是定制好的一些消息方法构造函数用来初始化状态一个内存块的方法除了改变自身状态也有可能向引用的别内存快发消息引起别的内存块发生状态转移重点不在过程化

随机推荐

jmeter 接口快速创建

通过cURL命令创建测试计划从浏览器获取接口从postman获取接口
postgresql 创建自增索引（序列）、以及索引（序列）相关操作

PostgreSQL 没有自增索引的概念需要通过序列来完成相关操作 PostgreSQL 使用序列来标识字段的自增长数据类型有 smallserial serial 和 bigserial 这些属性类似于 MySQL 数据库支持的 AU
java 的循环输入

书本7 3 计算数字出现的次数
在MFC中怎样添加一个非模态的对话框

添加一个非模态对话框1 点击菜单插入资源选择Dialog 点击新建 2 编辑对话框添加一些控件什么的 3 双击对话框或者打开ClassWizard 为对话框建立一个类如CMyDialog 4 在 view cpp的开头添加新建立的
SSM之mybatis：修改了Mybatis的xml文件不生效

这两天写一个项目是修改了下mybatis的xml文件中的一个sql语句结果发现修改后的xml文件始终不生效情况是这样的一开始我的语句
七、C++语言初阶：模板

7 模板 7 1 基本概念什么是模板模板 Template 是允许函数或者类通过泛型 generic types 的形式表现或运行的特性模板有什么用模板可以使函数或者类只写一份代码而对应不同的类型模板编程泛型编程一种独立于特定
三维SLAM路径规划——MATLAB实现

三维SLAM路径规划 MATLAB实现在机器人视觉和导航领域中 SLAM是一个非常重要的问题 SLAM的全称为 Simultaneous Localization and Mapping 即同时定位和地图构建而在SLAM中路径规划则是
将photoscan空三结果导入smart3d(cc)

将photoscan空三结果导入smart3d cc 1 photoscan版本要求1 4 0以上 2 在photoscan跑出空三结果后点击Export Camera导出空三选择Blocks Exchange格式保存 3 打开导出的x
LATEX 和 TEX 相关的术语和概念

目录引擎格式编译命令常见的引擎格式和编译命令的关系总结几个编译命令的基本特点引擎全称为排版引擎是编译源代码并生成文档的程序如pdfTEX X TEX 等有时也称为编译器格式是定义了一组命令的代码集 LATEX 就是
计算机视觉基础（四）——图像滤波

图像的实质是一种二维信号滤波是信号处理中的一个重要概念在图像处理中滤波是一种非常常见的技术它们的原理非常简单但是其思想却十分值得借鉴滤波是很多图像算法的前置步骤或基础掌握图像滤波对理解卷积神经网络也有一定帮助均值滤波方框滤
全国企业税收调查数据（2007-2016）共10年数据，均未脱敏。可通过纳税人识别号，识别具体企业名称和地区信息等，可匹配中国工业企业数据库，中国出口海关统计数据、中国企业污染排放数据库、中国海关数据
《Redis设计与实现》读书笔记-第一部分：数据结构与对象

目录 1 1简单动态字符串 SDS 1 2链表 1 3字典符号表关联数组映射 1 3 1字典的实现 1 4跳跃表 1 5整数集合 1 6压缩列表 1 7对象 1 7 1对象的类型与编码 1 7 2字符串对象 1 7 3列表对象 1 7
百度翻译接入API实现自己的翻译小页面（原生JS+Vue+elementui）

通过这个API实现翻译主要是重温Vue在js中的写法结合了elementui2 x版本的写法 VUE和ElementUI都是cdn引入的失效去官网下粘贴一份换了就行就是练练手前提需要在百度翻译页面注册个开发者账号获取appid和k
利用blktrace分析磁盘I/O

blktrace对于分析block I O是个非常好的工具本篇文章记录了如何使用blktrace blktrace原理 blktrace是对通用块层 block layer 的I O跟踪机制它能抓取详细的I O请求 request 发送
【腾讯轻量应用服务器上部署kafka并通过flink读取kafka数据】

环境准备经过1个月的摸索最终选择在腾讯云上搭建一个学习环境当时选择原因还是新用户有优惠 150左右3年但现在看1核2g的配置勉强够用建议后续小伙伴选择时最好是2核4g配置由于是单节点安装需要准备如下资源 1 jdk1 8 2
漏洞情报

点击上方订阅话题第一时间了解漏洞威胁 0x01 漏洞描述 Windows Print Spooler是Windows的打印机后台处理程序广泛的应用于各种内网中微软在2021年6月的安全更新中修复了一处 Windows Print S
解决elementUI中el-form、el-dialog、数据回显同时用时，有bug

提示记录学习elementUI时遇到的一些问题及解决办法前言现象第一次打开网页先点击修改再点击新增发现输入框竟然有值原因点击修改后关闭对话框的时候置空失效了分析主人公resetFields有问题线索1 Dialo
Dart 根据当前年份和第几周获取该周的开始和结束日期

最近遇到一个需求计算当前年份有多少周网上查阅了资料得到以下计算方式 Calculates number of weeks for a given year as per https en wikipedia org wiki ISO w
r HDU - 3709 Balanced Numbe(数位dp解析)

题目链接 https vjudge net contest 355127 problem C Problem Description A balanced number is a non negative integer that can
爬虫中网页分析的几种技术

一般来说我们只抓取网页中的特定数据比如抓取某人所有的blog 我们就只关心list 页面中文章列表那部分的链接和title 有几种技术可以用来分析网页 1 正则匹配 2 一般字符串匹配content substring pattern s

爬虫中网页分析的几种技术

爬虫中网页分析的几种技术 的相关文章

随机推荐

热门标签

爬虫中网页分析的几种技术的相关文章