网络爬虫 - 1 网络爬虫基本概念和相关工具

2023-11-20

网络爬虫基本概念和相关工具

1.基本概念

(1)什么是网络爬虫(web crawler)?

以前经常称之为网络蜘蛛(spider),是按照一定的规则自动浏览万维网并获取信息的机器人程序(或脚本),曾经被广泛的应用于互联网搜索引擎。使用过互联网和浏览器的人都知道,网页中除了供用户阅读的文字信息之外,还包含一些超链接。网络爬虫系统正是通过网页中的超链接信息不断获得网络上的其它页面。正因如此,网络数据采集的过程就像一个爬虫或者蜘蛛在网络上漫游,所以才被形象的称为网络爬虫或者网络蜘蛛。

(2)有哪些语言可以实现爬虫 ?

1.php: 号称世界上最好的语言
2.java: 可以实现,而且做的非常好,是python爬虫最主要的竞争对手,做的不好,语言不简洁,代码臃肿,重构成本高
3.c、c+ : 也可以实现爬虫,非常强大,编程语言排行榜,只能说你牛x,但是不是一个好的选择
4.python: 可以实现, 号称世界上最优雅的语言,代码简洁,学习成本低,执行效率也好,而且还有一个非常强大的爬虫框架scrapy

(3)什么是通用爬虫 ?

例如:百度、谷歌、360、搜狗、必应等搜索引擎
1.做的工作:爬取互联网所有的数据, 对数据存储并且处理, 给用户提供检索服务
2.如何让百度抓取你的网站? 百度会和DNS服务商合作, 主动提交自己的url, 在其它网站设置友情链接
3.如何让网站不让百度抓取?君子协议(口头协议),robots协议(存放在网站的根目录下)
4.网站排名(SEO): (1)pagerank值排名(根据点击量、浏览量等,相当靠谱), (2)竞价排名
5.通用爬虫缺点:(1)抓取很多数据都是无效的(2)不能根据自己的需求抓取数据

(4)什么是聚焦爬虫 ?

1.聚焦爬虫就是: 根据自己特定的需求,来抓取指定的数据
2.如何实现聚焦爬虫?
a.熟悉网页的特点:网页都有自己唯一的url, 都是由html组成, 网页传输都是使用http、https协议
b.爬取的思路:给一个url,模拟浏览器发送http请求,从html结构中提取指定的数据,从字符串中根据规则提取指定数据
c.开发环境:windows系统,python3.x(64位),sublime,pycharm,vscode编辑器等

(5)爬虫的整体内容

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

网络爬虫 - 1 网络爬虫基本概念和相关工具 的相关文章

随机推荐

  • JAVA 安装与简单使用

    JAVA简易安装 下载安装 环境变量 进入变量界面 设置变量 验证JAVA环境 运行Java程序 个人站 ghzzz cn 还在备案 很快就能访问了 下载安装 第一步当然是从官网下载安装java了 网上有很多的教程 这里简单的写一下 在这里
  • python人脸识别(转载)

    源码出处 http www cnblogs com AdaminXie 该项目笔记是基于下面博客的摘抄 Python 3 利用 Dlib 实现摄像头实时人脸识别 coneypo 博客园 cnblogs com Python 3 利用 Dli
  • maven 打包(zip)

    Main下添加文件 下添加assembly package xml
  • 免费接口API

    天气接口 气象局接口 http m weather com cn data 101010100 html 解析 用例 音乐接口 虾米接口 http kuang xiami com app nineteen search key 歌曲名称 d
  • 网页 序列号 逆向linux,逆向序列号生成算法(一)

    对逆向工程一直很感兴趣 工作之余自己也研究一下 好久没有练手了 OllyDBG的使用都感觉生疏了 晚上抽空先去补了补OllyDBG的使用方法 然后看到一个叫做CycleCrackMe 的序列号保护练手程序 如图1 刚好是OllyDBG入门文
  • GGally与pairs相关关系图_史上最全(二)

    作者 李誉辉 四川大学在读研究生 接上一篇 GGally与pairs相关关系图 史上最全 一 2 4 wrap 封装 其它需要指定到geom xxx 中的参数 可以通过wrap 传递给lower upper 或diag 语法 1wrap f
  • 【Pytorch with fastai】第 2 章:从模型到生产

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • MySQL常见的数据类型

    MySQL的常见数据类型 数据类型是什么 数据类型是列 存储过程的参数 表达式和局部变量的数据特征 它决定了数据的存储格式 代表了不同的信息类型 有一些数据是要存储为数字的 数字当中有些是要存储为整数 小数 日期型等 MySQL常见的数据类
  • 【第十四届蓝桥杯三月真题刷题训练——第 24 天 (3.27)& 旋转 & 附近最小 & 扫地机器人 & 窗口】

    第一题 旋转 import java util Scanner public class Main static int N 300 static int a new int N N static int b new int N N pub
  • 数模培训第二周——图论模型

    图论中最短路算法与程序实现 图论中的最短路问题 包括无向图和有向图 是一个基本且常见的问题 主要的算法有Dijkstra算法和Floyd算法 Floyd算法 简介 Floyd Warshall算法 英语 Floyd Warshall alg
  • 机器学习入门-数值特征-时间特征处理

    我们可以将一连串的时间特征进行拆分 比如 2015 03 08 10 30 00 360000 00 00 我们可以将其转换为日期类型 然后从里面提取年 月 日等时间信息 对于一些hour month等信息 我们也可以使用pd cut将ho
  • 单个IMU实现精确的轨迹重构

    惯性传感器 IMU 被广泛用于导航 运动状态研究 人体运动和步态分析等领域 然而 由于IMU的固有误差和测量误差 尤其是漂移误差 很少有人尝试基于IMU实现精确的轨迹重建 尤其是使用单个IMU 尽管如此 与视觉 红外线和超声波定位技术相比
  • C#——反射和特性

    元数据 程序是用来处理数据的 文本和特性都是数据 而我们程序本身这些也是数据 有关程序及其类型的数据被称为元数据 他们保存在程序的程序集中 反射 程序在运行时 可以查看其它程序集或其本身的元数据 一个运行的程序查看本身的元数据或者其他程序集
  • Java中基本类型自动转换与强制转换

    类型转换 Java 语言是一种强类型的语言 强类型的语言有以下几个要求 变量或常量必须有类型 要求声明变量或常量时必须声明类型 而且只能在声明以后才能使用 赋值时类型必须一致 值的类型必须和变量或常量的类型完全一致 运算时类型必须一致 参与
  • Python学习(3):批量修改文件名(以excel文件为例)

    coding utf 8 import os dir input 请输入文件路径 for root dirs files in os walk dir for i in range len files filename files i ne
  • python django 学习第3天 文件长传

    在根目录下新建media目录 在settings py 加入代码 为上传文件操作做准备 MEDIA ROOT os path join BASE DIR media MEDIA URL media 做一个新闻调查页面 在views 中加入
  • bash 括号(小括号,双小括号,中括号,双中括号,大括号)

    小括号 和大括号 主要包括一下几种 var cmd 和 exp var string var string var string var string var pattern var pattern var pattern var patt
  • 计算机网络运输层运输层协议概述

    运输层协议概述 进程之间的通信 下图说明运输层的作用 可以看出网络层为主机之间提供逻辑通信 而运输层为应用进程之间提供端到端的逻辑通信 根据应用程序的不同需求 运输层有两种不同的运输协议 1 面向连接的TCP 2 无连接的UDP 运输层的两
  • Vue-cli3更改项目logo图标

    1 图标切成对应大小 2 图标名称后缀与vue原有图标logo名称 后缀一致 favicon ico 并替换 3 vue项目根目录下 新建 vue config js 添加下列代码 module exports pwa iconPaths
  • 网络爬虫 - 1 网络爬虫基本概念和相关工具

    网络爬虫基本概念和相关工具 1 基本概念 1 什么是网络爬虫 web crawler 以前经常称之为网络蜘蛛 spider 是按照一定的规则自动浏览万维网并获取信息的机器人程序 或脚本 曾经被广泛的应用于互联网搜索引擎 使用过互联网和浏览器