python爬虫的常用库

2023-05-16

1.requests
这个库是爬虫最常用的一个库。

2.Selenium Selenium
这是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的。

3.ChomeDrive
安装了这个库,才能驱动Chrome浏览器完成相应的操作。

4.GeckoDriver
使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

5.PhantomJS PhantomJS
这是一个无界面 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种Web标准:Dom操作,css选择器,json,Canvas以及SVG。

6.aiohttp
之前接收requests库是一个阻塞式HTTP请求库,当我们发送一个请求后。程序会一直等待服务器响应,直到服务器响应后,程序才会最下一步处理。其实,这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情,如进行请求的调度,响应的处理等,那么爬虫的效率就会比之前的那种方式有很大的提升。 而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。

7.解析库
1)lxml lxml
这是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式,而且效率也是非常高的,深受广大程序员的热爱
2)Beautiful Soup
Beautiful Soup也是python里一个HTML或XMl的解析库,它可以很方便的懂网页中提取数据,拥有强大的API和多种解析方式。
3)pyquery
同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文梢,

8.数据库
1)mysql 数据库
2)MongoDB
MongoDB 是由 ++语言编写的非关系型数据库, 是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活
3)Redis 是一个基于 存的高效的非关系型数据库,

9.存储库
1)PyMySOL
2)PyMongo
3)redis-py
4)RedisDump

10.web库
1)Flask 是一个轻量级的Web服务程序,它简单,易用,灵活
2)Tornado 是一个支持异步的Web框架,通过使用非阻塞I/O流,可以支持成千上万的开放式连接。

了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081/html/bd9fb365-ae11-4182-84d0-af28197bac71.html?ly=csdn
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫的常用库 的相关文章

  • k8s——flannel网络

    文章目录 一 Flannel简介二 Flannel网络概述三 部署 一 Flannel简介 1 当一个k8s集群创建好后一般会存在三种IP xff0c 分别是 xff1a Pod IP Node IP Cluster IP Cluster
  • STM32笔记之FreeRTOS

    文章目录 1 RTOS简介1 1 基本概念1 2 基本名词1 3 FreeRTOS 2 任务2 1 基本属性2 1 1 优先级2 1 2 任务控制块 任务堆栈任务控制块任务堆栈 2 2 状态2 3 操作 3 机制简介3 1 队列3 2 信号
  • 【算法设计与分析】1.排序算法性能分析

    相关资源下载链接 要求pdf 43 报告word 43 pre ppt 43 cpp源代码大礼包 cpp源代码 pre ppt 报告word 目录 写在前面的话 概览 算法原理 排序算法及伪代码 选择排序 选择排序伪代码 xff1a 冒泡排
  • 搭建openstack 创建实例时报错No valid host was found. There are not enough hosts available. code:500

    我的虚拟机环境是centos7 2 1511 4g4核CPU 看见网上说很多说是内存资源不足 xff0c 查看了计算节点的日志 xff0c 愣是没看出个所以然来 xff01 后来fq看了一下别国的排错 xff0c 说是可能是计算的配置文件没
  • CentOS7安装anaconda及创建虚拟环境

    anaconda安装 下载 下载地址 xff1a https mirrors aliyun com anaconda 安装 配置 安装 准备 创建目录 span class token function mkdir span p appli
  • k8s 安装pod网络插件(flannel)报错

    span class token punctuation span root 64 master k8s span class token punctuation span kubectl apply span class token op
  • shell脚本----基础命令sort-tr-uniq-cut-split-paste-eval

    文章目录 一 sort命令二 uniq命令三 tr命令四 cut命令五 split命令六 paste命令七 eval命令 一 sort命令 sort命令以行为单位对文件内容进行排序 xff0c 也可以根据不同的数据类型来排序 xff0c 比
  • 树莓派开发

    树莓派等芯片带操作系统的启动过程 C51 STM32 裸机 C直接操控底层寄存器实现相关业务 业务流程型的裸机代码 遥控灯 xff1a while 1 垃圾桶 xff1a WemosD1 LOOP 恩智浦智能车 xff1a stm32 X8
  • strtok用法详解

    字符串操作函数strtok用法 xff1a char strtok xff08 char src xff0c char split xff09 xff1b 函数参数 xff1a src xff1a 被分割的字符串 split xff1a 分
  • wget--linux命令使用说明

    xfeff xfeff wget是一个从网络上自动下载文件的自由工具 它支持HTTP xff0c HTTPS和FTP协议 xff0c 可以使用HTTP代理 所谓的自动下载是指 xff0c wget可以在用户退出系统的之后在后台执行 这意味这
  • PDU 发送短信4

    pdu 编码主要包括两个主要的部分 xff0c 一是 pdu 串的整体数据格式 xff0c 分别因为发送信息串和接收信息串而有区别 xff0c 二是 pdu 中文本部分的编码 xff0c 分别因为字符集而不同 我们也可以这样来理解这个 pd
  • Docker

    一 Docker简介 1 是什么 xff1f 解决了运行环境和配置问题软件容器 方便做持续集成并有助于整体发布的容器虚拟化技术 一次构建到处运行 2 能干嘛 linux虚拟机的缺点 xff1a 1 资源占用多 2 冗余步骤多 3 启动慢 L
  • VNC树莓派无法连接

    问题 xff1a 树莓派配置好VNC后 xff0c 第二次通过笔记本远程连接失败 xff0c 报错refused by the computer 解决方法 xff1a 在putty中输入IP地址登录树莓派 xff0c 输入vncserver
  • 如何利用GitHub发布个人网站

    如何利用gihub发布个人网站让所有人都可以浏览 发布步骤 发布步骤 进入github xff0c 点击Create repository创建一个仓库 建立自己的仓库 点击uploading an existing file上传一个已有文件
  • 直接插入排序(C语言)[测试数据随机生成+计算程序运行时间+算法效率分析]

    直接插入排序 xff0c 使用C语言实现 这里为了方便测试面对大量数据时直接插入排序算法的运行时间 xff0c 通过宏定义来设定生成随机数的数量 xff08 即参与排序的数据数量 xff09 xff0c 利用rand 函数生成随机数 xff
  • docker Kubernetes(k8s)部署

    文章目录 一 准备工作二 初始化集群然后在server2中然后在server1中再然后在server2中在server1中然后在server2中在server3和server4中 一 准备工作 把server2和server3 xff0c
  • LQR的理解与运用 第一期——理解篇

    目录标题 0 本系列目的理解六个问题 运用一阶倒立摆matlab 43 simscape multibody实现 简单的轮足模型 xff08 二阶倒立摆 xff09 1 理解LQR写在前面Q1 LQR控制的是什么Q2 LQR的适用场景与形式
  • LQR的理解与运用 第二期——一阶倒立摆在matlab上的LQR实现

    目录标题 0 本系列目的参考教程 1 理解2 运用在solidworks上创建一阶倒立摆模型并导出一阶倒立摆的模型及物理公式推导模型介绍模型推导模型推导方法化简方法结论 根据模型求LQR的K值matlab仿真的实现流程与步骤准备步骤正确导入
  • tensorflow张量和numpy数组相互转换

    知识补充 xff1a 官方文档 xff08 GItHub xff09 xff1a TensorFlow 2 0 Functions not Sessions tensorflow2 x的转换模块 64 tf function 关于图执行 x
  • 猿创征文|【电源专题】案例:怎么用万用表测试静态电流IQ

    目录 nbsp nbsp nbsp nbsp 静态电流在生活中的例子 nbsp nbsp nbsp nbsp 什么是静态电流IQ 关断电流 非开关静态电流 lt

随机推荐

  • IDEA找不到Maven插件原因及解决办法

    IDEA找不到Maven插件原因及解决办法 报错如下 xff0c 因为我自己的报错解决了 xff0c 所以借用了别人的图 xff0c 侵删 在idea中你会发现明明在pom xml中加入了插件但依然会报错 xff0c 并且不会下载 解决办法
  • linux系统用户自动登陆不需要输入密码设置

    使用于ubuntu linux unix 一 删除密码 root 64 ubuntu passwd d root 或者 passwd root d 二 修改sshd config文件 root 64 ubuntu cd etc ssh ro
  • 新建springboot项目报错

    未能配置数据源 xff1a url 属性未指定 xff0c 无法配置嵌入式数据源 原因 xff1a 无法确定合适的驱动程序类别 如果您想要一个嵌入式数据库 xff08 H2 HSQL或Derby xff09 xff0c 请将其放在类路径上
  • 伪分布搭建hadoop

    伪分布式搭建hadoop 伪分布模式准备工作以root权限修改ip xff0c 配置关网等修改完IP地址后 xff0c 需要重启网络服务查看ip和是否能ping通修改主机名修改域名映射文件关闭防火墙ssh免密登陆 安装JDK卸载之前的JDK
  • Java实现AI机器人聊天

    文章目录 前言一 账号注册申请密钥二 参数详情三 Java集成1 调用接口2 响应数据 四 效果总结 前言 OpenAI API 几乎可以应用于任何涉及理解或生成自然语言或实现代码等场景 提供一系列具有不同学习训练的模型 xff0c 适用于
  • 使用全局阈值进行灰度图像二值化

    1 原理 选取阈值的一种方法就是图像直方图的视觉检测 选择 T 的另一个方法是反复实验 xff0c 选取不同的阈值 xff0c 直到观测者觉得产生了较好的结果为止 xff0c 这在交互环境下特别有效 例如 xff0c 这种方法允许 使用者通
  • Linux动静态库

    文章目录 Linux动静态库认识动静态库动态库静态库 静态库的打包与使用静态库的打包静态库的使用 动态库的打包与使用动态库的打包动态库的使用 Linux动静态库 认识动静态库 我们先来看一段代码 xff1a span class token
  • GPS启动方式、定位速度、定位精度介绍

    前面文章介绍了GPS定位基础知识 GPS定位知识介绍 qq com 本文主要介绍GPS启动方式 定位过程中最重要的辅助信息是时间 星历 位置 根据辅助信息不同
  • window11上Linux环境搭建

    以下的大部分图片来自网上 xff0c 本人在操作过程中忘记截图记录了 xff0c 但是发出来的这些和我做的是一模一样的 xff01 xff01 一 点击下载centOS7镜像 centos 7 9 2009 isos x86 64安装包下载
  • SQLyog连接MySQL出现错误,提示Client does not support authentication protocol requested by server的解决方法

    问题 xff1a 自己电脑安装了MySQL8 0 26版本 xff0c 但从网上找到破解版的SQLyog软件 xff0c 在装好SQLyog后连接不上 xff0c 会弹出 Client does not support authentica
  • C++的基础知识学习笔记

    C 43 43 的基础知识学习 1 3变量 作用 xff1a 给一段指定的内存空间起名 xff0c 方便操作这段内存 语法 xff1a 数据类型 变量名 61 初始值 xff1b int a 61 1 xff1b 变量存在的意义 xff1a
  • zsh 配置指南

    zsh 配置指南 前言 在Linux系统中 xff0c 我们厂用终端输入命令与系统进行交互 xff0c 大多Linux系统使用的shell为bash 但bash中的功能和色调非常简单和单调 xff0c 往往想达到一个趁手的命令行工具 xff
  • linux/swupd基础命令讲解---基础篇

    一 原生linux ubuntu unix系统安装基础命令 root 64 ubuntu clrtrust generate root 64 ubuntu s wupd bundle add network basic root 64 ub
  • Ros_Canopen:ROS与底盘的can通讯使用

    ROS CANOPEN ROS与底盘的can通讯使用 这篇文章记录了ros canopen的安装和使用过程 xff0c 系统版本为ubuntu16 04 并且已经安装了ROS xff08 kienect 安装过程可能会出现错误 xff0c
  • casbin的详细理解过程(附图片理解)(rbac模型)

    一 casbin模型 casbin模型又叫PERM模型 xff1a subject sub 访问实体 xff0c object xff08 obj访问的资源 xff09 和action xff08 act访问方法 xff09 eft xff
  • EKF(拓展卡尔曼滤波)学习笔记:

    一些参考 xff1a xff08 三十九 xff09 通俗易懂理解 卡尔曼滤波与扩展卡尔曼滤波 知乎 zhihu com 50 封私信 42 条消息 如何通俗并尽可能详细地解释卡尔曼滤波 xff1f 知乎 zhihu com 视觉slam1
  • MSCKF学习笔记

    1 IMU简介 xff1a 测量物体三轴姿态角及加速度的装置 一般IMU包括三轴陀螺仪及三轴加速度计 IMU通常包含陀螺仪 Gyroscope 加速度计 Accelermeters 现代的陀螺仪 MEMS 输出的是旋转变化率 Rotatio
  • 树莓派串口编程c语言

    一 xff1a 初次使用树莓派串口编程 xff0c 需要配置 1 进入 cmdline txt 文档 指令 xff1a cd boot sudo vim cmdline txt 2 删除 之间的部分 dwc otg lpm enable s
  • 数据结构与算法

    为什么要学习数据结构与算法 1 数据结构 43 算法 61 程序 2 代码化繁为简 3 提高代码性能 4 提高面试通过率 栈 栈的概念 栈是一种遵从后进先出原则的有序集合添加新元素的一端称为栈顶 xff0c 另一端称为栈底操作栈的元素时 x
  • python爬虫的常用库

    1 requests 这个库是爬虫最常用的一个库 2 Selenium Selenium 这是一个自动化测试工具 xff0c 利用它我们可以驱动浏览器执行特定的动作 xff0c 如点击 下拉等操作 对于一些用JS做谊染的页面来说 xff0c