python试爬李毅吧贴子标题,爬虫最初级

2023-05-16

注:以下所有python代码均运行于2.7.0

最近想抓点数据存起来,开始捣鼓python。爬虫技术以前没接触过,这一回就当练手,从零开始,从最原始的方式开始。先定个小目标,抓一下著名的“李毅吧”的一些贴子标题。

要爬数据,第一步肯定是网络请求,在这里主要是指get/post请求。第二步是对返回的html进行解析。第三步是从解析后的DOM树里取我们想要的东西。

在这些步骤进行之前,要先安装lxml,这个用pip install lxml就可以了。

第一步,使用urllib2,先把李毅吧的url请求一下。百度目前使用的是https,这个没关系。https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85/

然后打开命令窗口,python。let's go。
import urllib2 from lxml import etree r = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85") p = r.read()
好了,是不是代码很简短,我们第一步就完成了。

第二步,要引入lxml,来解析取到的html文件。解析前肯定是要用开发者工具先分析一下html源码的,要不然怎么找到规律去匹配我们想要的内容呢。用开发者工具定位到贴吧的贴子都是位于一个div里面,这个div的id是content,class也是content。每个贴子的标题都是一个超链接,标题内容放在这个超链接的title里。

简单的介绍一下lxml的路径表达式:
//body/a[1] 取body下的第一个a元素 //a[@href] 取所有拥有属性名为href的a元素 //a[@href='img.html'] 取所有htre属性为img.html的a元素 根据前面的分析,要取到贴子的标题,需要这么写 //div[@id='content']//a//@title
下面开始解析:
e = etree.HTML(decode_html) l = e.xpath("//div[@id='content']//a//@title")
第二步到此为止,通过xpath能匹配到所有的贴子标题。

第三步就是数据过滤、清洗、转换、存储之类的工作了,没有什么通用性。因为l是一个列表,里面又存的是utf8,对于一些新手来说,可能很抓狂,因为不能很直观地看到汉字。
加上这一段就好了:
for item in l: print item
最后附上代码:

#-*- coding: utf-8 -*-

import urllib2
import lxml
from lxml import etree

r = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85")

raw_html = r.read()

decode_html = raw_html.decode("utf-8")

dom_html = etree.HTML(decode_html)

title_list = dom_html.xpath("//div[@id='content']//a//@title")

for item in title_list:
        print item

这个代码没有真正实现只抓贴子标题的功能,抓的内容超出了贴子标题的范围。还需要优化一下才可以的。


try_baidu_liyi.png
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python试爬李毅吧贴子标题,爬虫最初级 的相关文章

  • c++工程中make和cmake的使用(CMakeLists.txt)

    一 make和cmake 1 make make xff0c 常指一条计算机指令 xff0c 可以从一个名为Makefile的文件中获得如何构建程序的依赖关系 通常项目的编译规则就定义在makrfile 里面 xff0c 比如 xff1a
  • 2. 阿里云上搭建ubuntu16.04并使用VNC进行远程连接

    首先 xff0c 用xshell连接阿里云 xff08 便于后续操作方便 xff09 参考文档 xff1a 阿里云服务器 xff08 Ubuntu16 04 64位 xff09 远程连接 再来创建新用户 参考文档 xff1a 为Ubuntu
  • 【哈工大李治军】操作系统课程笔记9:设备驱动与文件管理(显示器、键盘和磁盘)

    xff08 应粉丝催更 xff0c 笔记提前放出来了 xff0c 还剩最后一个视频 xff0c 等有空了再整理 xff09 1 I O与显示器 xff08 终端设备输出 xff09 本次所学的I O设备主要归为两大类 xff1a 键盘和显示
  • MathType7新版本数学公式编辑器上线功能特性

    许多论文或文献中含有大量较复杂的公式或者符号 xff0c 为了使文章中的公式符号更加规范 美观 xff0c 现在很多人选用MathType软件来编辑公式 MathType具有非常强大的公式编辑能力 xff0c 和我们常用的Office软件结
  • LDO:低压差线性稳压芯片

    LDO LDO即low dropout regulator xff0c 是一种 低压差 线性稳压器 这是相对于传统的线性稳压器来说的 传统的线性稳压器 xff0c 如78XX系列的芯片都要求输入电压要比输出电压至少高出2V 3V xff0c
  • git使用gitee 仓库教程详细

    1 先再本地创建 一个git 仓 先创建一个文件夹 在文件夹内运行git 执行git init 命令生成git 仓库 生成git 仓库之后 创建一个想要上传到云库的文件 xff0c 然后通过 git add 添加所有文件命令 添加跟踪 也叫
  • realsenseD435i运行vins-mono

    目录 写在前面准备编译vins mono 修改launch realsense vins mono 运行参考完 写在前面 1 本文内容 realsenseD435i运行vins mono 2 平台 ubuntu1804 ros melodi
  • Hive源码阅读--SQL的语法解析和语义分析--Driver

    前面五个类 xff0c 殊途同归都是CliDriver类 xff0c 他负责接受用户在命令行上输入的信息 xff0c 然后准备执行并将执行的结果返回 而真正底层干事情的是Driver xff0c 他将接受到的命令编译 xff0c 优化为MR
  • C语言字符串结束符“\0”

    C语言字符串结束符 0
  • STM32 PCB设计

    看了自己2018年2月画的PCB和现在2019年7月画的PCB xff0c 不多说了 不多说了 不多说了上图 96 2018年2月 96 2019年7月 大家可以明显看到第一块板子简直就是惨不忍睹 说几点PCB设计注意事项和自己的感想 xf
  • Java 调用第三方接口方法

    Java 调用第三方接口方法 一 通过JDK网络类Java net HttpURLConnection 1 java net包下的原生java api提供的http请求 使用步骤 xff1a 1 通过统一资源定位器 xff08 java n
  • docker基本命令及使用实例

    docker基本命令 特别鸣谢 xff1a B站up主 狂神说java的视频 xff0c 让我能短时间了解docker docker文件系统 docker镜像为分层设计 xff0c 相比于全量的虚拟机镜像 xff0c 少了引导程序bootf
  • ubantu 系统分区介绍

    假设分区有40个G 1 500M引导分区 2 10个G的swap分区 swap是一个内存交换空间 xff0c 当内存溢出 xff0c 或者计算机打算休眠的时候 会将数据存在swap分区中 在windows系统中是三个文件 swap的大小通常
  • H3C交换机常用命令(初学)

    一 显示交换机当前的一些配置信息 1 display current configuration 显示当前的一些配置信息 xff0c 如vlan xff0c 端口详细信息 2 display saved configuration 显示下次
  • Linux下的Tcp通信项目范例【demo】

    一 适合阅读对象 2 4个月的初学者 C语言编程方向 xff09 二 项目内容 xff1a 设计一个可以符合多用户进行线上查阅乐器的商城 xff0c 要求可以多个用户查看 xff0c 管理员可随时修改内容 xff0c 普通用户仅可查看 xf
  • 平衡小车之陀螺仪调参

    一 平衡小车 平衡小车作为控制进阶 xff0c 成为每个学习PID控制算法者的必经之路 xff0c 可难可易 xff0c 找到方法则非常容易 xff0c 找不到方法可能盲调数天也没有收获 要让小车平衡 xff0c 我认为需要掌握的技能有几点
  • 常用的字符函数和字符串函数

    一 分类 求字符串长度 xff1a strlen长度不受限制的字符串函数 xff1a strcpy strcat strcmp长度受限制的字符串函数 xff1a strncpy strncat strncmp字符串查找 xff1a strs
  • 成功解决Command "python setup.py egg_info" failed with error code 1 in C:\Users\AppData\

    成功解决Command amp quot python setup py egg info amp quot failed with error code 1 in C Users AppData 目录 解决问题 解决方法 解决问题 Com
  • 解决JetPack4.2 自制载板无法开机

    使用下面方法会导致无法连接显示器 xff01 xff01 xff01 1 源码下载 https developer nvidia com embedded downloads 选择 L4T Sources 下载 L4T JAX and TX
  • Android开发技巧 (五) —— Lambda表达式

    Lambda表达式本质是一种匿名方法 xff0c 它既没有方法名 xff0c 也没有访问修饰符和返回值类型 xff0c 用它来写代码更简洁 xff0c 更易懂 Lambda是Java8的新特性 xff0c 所以要在app build gar

随机推荐