PHP爬虫语言的优点与缺点

2023-05-16

对于网络爬虫来说,python和java是大众的选择语言框架,其实编程中有许多框架语言来编写自己的爬虫程序。至于选择什么语言,根据自己的情况而定。爬虫的接口很简单,分析目标网站,找到该网站的API链接,在下载链接数据。开发语言框架我选择了PHP。
PHP语言的优点与缺点:优点:
1、操作简单,使用方便
2、可支持C,java去执行代码
3、支持多种平台,多种框架
4、支持采集各种数据
5、成本低
缺点:
1、语法编码不太完善
2、不支持多线程
3、难以拓展,运维复杂
以下是PHP使用爬虫代理IP的代码:
[PHP]  纯文本查看  复制代码
?
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
<?php
     // 要访问的目标页面
     $url = "http://httpbin.org/ip" ;
     $urls = "https://httpbin.org/ip" ;
 
     // 
     define( "PROXY_SERVER" , "tcp://t.16yun.cn:31111" );
 
     // 代理身份信息
     define( "PROXY_USER" , "username" );
     define( "PROXY_PASS" , "password" );
 
     $proxyAuth = base64_encode (PROXY_USER . ":" . PROXY_PASS);
 
     // 设置 Proxy tunnel
     $tunnel = rand(1,10000);
 
     $headers = implode( "\r\n" , [
         "Proxy-Authorization: Basic {$proxyAuth}" ,
         "Proxy-Tunnel: ${tunnel}" ,
     ]);
     $sniServer = parse_url ( $urls , PHP_URL_HOST);
     $options = [
         "http" => [
             "proxy"  => PROXY_SERVER,
             "header" => $headers ,
             "method" => "GET" ,
             'request_fulluri' => true,
         ],
         'ssl' => array (
                 'SNI_enabled' => true, // Disable SNI for https over http proxies
                 'SNI_server_name' => $sniServer
         )
     ];
     print ( $url );
     $context = stream_context_create( $options );
     $result = file_get_contents ( $url , false, $context );
     var_dump( $result );
 
     // 访问 HTTPS 页面
     print ( $urls );
     $context = stream_context_create( $options );
     $result = file_get_contents ( $urls , false, $context );
     var_dump( $result );
?>
为了避免必要的触发网站的反爬,可以利用爬虫代理来进行稳定有效的采集相关数据。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

PHP爬虫语言的优点与缺点 的相关文章

  • TypeScript:类的继承

    类可以继承 继承可以说是对父类抽象的一次细化 通常基类 父类 用于描述更一般 更通用的属性及方法 继承类 子类 则用来描述更具体 更特别的属性及方法 并且继承类可以重写基类的方法以完成对方法的重新定义 class Phone owner s
  • C++(11):noexcept

    noexcept 用于描述函数不会抛出异常 xff0c 一旦有异常抛出 xff0c 会立刻终止程序 xff0c 它可以阻止异常的传播与扩散 noexcept可以带一个 常量表达式 作为参数 xff0c 常量表达式为true xff0c 表示
  • C++(11):bind

    bind函数可以将既有函数的参数绑定起来 从而生成一个函数对象 include lt iostream gt include lt functional gt using namespace std void func1 int d cou
  • Linux编程:time/gettimeofday获取时间戳

    时间戳 指格林威治时间从1970年1月1日 00 00 00 GMT 至当前时间的总秒数 需要注意的是 时间戳跟时区没有关系 不论在哪个时区 时间戳是一个值 linux下获得时间戳常用的的方式有两个 1 通过time函数 include l
  • Ubuntu(20.04):安装VNC

    1 首先安装tightvncserver nbsp sudo apt install tightvncserver 2 安装gnome panel 否则vnc后的画面是纯灰色 sudo apt nbsp install gnome pane
  • nlohmann json:struct与json的互转

    nlohmann json可以很方便的实现struct与json的互转 对于化定义结构体成员时有就地初始的情况 include lt iostream gt include lt string gt include lt nlohmann
  • C++(11):mem_fn,将类的成员函数转换为函数对象

    C 43 43 11 提供了mem fn xff0c 类似于std function xff0c 用于将类的成员函数转换为函数对象 xff1a include lt functional gt include lt iostream gt
  • C++(20):span防止数组越界

    C C 43 43 一直都有数组越界这个陷阱 xff0c 越界后容易造成数据不一致 xff0c 程序运行状态混乱 xff0c coredump C 43 43 20提供了span容器 xff0c 他用于表示一段连续的内存空间 xff0c 并
  • gcc:升级编译器版本

    Ubuntu 22 04 下升级gcc和g 的方法 1 添加工具链 sudo add apt repository ppa ubuntu toolchain r test nbsp 2 更新apt软件列表 sudo apt update 3
  • JAVA: String转JsonArray

    String str 61 34 34 JsonArray jsonArray 61 new JsonParser parse str getAsJsonArray JsonObject jsonObject 61 jsonArray ge
  • CPU性能天梯图

    查看更多榜单 gt gt 查看桌面CPU性能榜 二代酷睿三代酷睿四代酷睿五六代酷睿七代酷睿八代酷睿九代酷睿十代酷睿三代锐龙二代锐龙一代锐龙八代APU七代APU旧APU推土机 打桩机弈龙 速龙 线程撕裂者3990X 线程撕裂者3970X 线程
  • Ubuntu必备开发工具安装

    1 安装gcc g 43 43 gdb make 等基本编程工具 sudo apt get install build essential 2 安装常见开发工具 sudo apt get install autoconf automake
  • apt与apt-get区别

    apt包含了apt get apt cache apt config xff0c 属于包含与被包含关系 apt与apt get命令区别如下 xff1a
  • Java super关键字:super调用父类的构造方法、利用super访问父类成员

    由于子类不能继承父类的构造方法 xff0c 因此 xff0c 要调用父类的构造方法 xff0c 必须在子类的构造方法体的第一行使用 super 方法 该方法会调用父类相应的构造方法来完成子类对象的初始化工作 在以下情况下需要使用 super
  • 如何将ova转成vmdk文件

    ova是一个压缩文件 xff0c 使用7zip打开ova文件可以看到 xff0c 里面有三个文件组成 xff1a ovf 是一个XML描述符 xff0c 定义了虚拟机的元数据信息 xff0c 如名称 硬件要求 xff0c 并且包含了OVF文
  • 基于51单片机的温室大棚土壤湿度检测智能语音灌溉通风系统proteus仿真原理图PCB

    功能介绍 xff1a 0 本系统采用STC89C52作为单片机 1 系统实时监测当前的土壤湿度和空气温湿度 xff0c 并上传WIFI 2 支持手动 自动两种模式 3 自动模式下 xff0c 当温湿度超过阈值上限时 xff0c 打开通风机
  • 基于51单片机的自动窗户控制系统风速测量proteus仿真原理图PCB

    功能介绍 xff1a 0 本系统采用STC89C52作为单片机 1 系统实时监测当前的雨滴 温湿度 风速 xff0c 烟雾浓度 2 支持手动 自动两种模式 3 自动模式下 窗户关闭状态下 xff0c 当烟雾浓度超过阈值 xff0c 打开窗户
  • 基于51单片机的智能路灯控制系统proteus仿真原理图PCB

    功能 xff1a 0 本系统采用STC89C52作为单片机 1 LCD1602液晶实时显示当前时间 环境光强 工作模式 2 支持路灯故障检测 3 工作时间内 17 24时 xff0c 两个路灯同时点亮 xff0c 24时以后 xff0c B
  • 基于51单片机的温度控制系统数码管显示蜂鸣器报警proteus仿真原理图PCB

    功能 xff1a 0 本系统采用STC89C52作为单片机 1 系统实时监测并显示当前温度 xff0c 并通过四位数码管显示 2 超过设定阈值 xff0c 蜂鸣器将报警 xff0c 同时控制相应继电器实现降温或者加热 3 系统具备三个功能按
  • 基于STM32单片机的智能水表水流量计原理图PCB

    功能 xff1a 0 本系统采用STM32F103C8T6作为单片机 1 该系统采用LCD1602液晶显示各种参数 xff0c 包括瞬时流量速度 xff0c 已经总流量 xff0c 同时可通过按键设置最大阈值 xff0c 一旦流量超过该值将

随机推荐