php爬虫教程(五)提高爬虫抓取效率

2023-11-13

之前有一次抓取x浪图片库的时候200w图片跑了一整天的时间,

后来采取多进程抓取提高了很高的效率。

多进程的实现可以参考这个方法:

http://blog.csdn.net/u014017080/article/details/46925725

主进程文件--调用子进程 每一个分类对应单独的一个进程 并发抓取

<?php
set_time_limit(0);
$arr = array(
//      7,  //生活百科
//      6,  //经典语录
//      3,  //幽默搞笑
//      25, //创意无限
//      23, //萌宠动物
//      20, //心里测试
//      8,  //时尚潮流
//      68, //内涵漫画
//      4,  //星座物语
//      22, //时尚家居
//      17, //小说故事
//      5,  //美食工厂
 
        24,  //生活百科
        19,  //经典语录
        88,  //幽默搞笑
        57, //创意无限
        1, //萌宠动物
        2, //心里测试
        43,  //时尚潮流
        32, //内涵漫画
        97,  //星座物语
 
        );
foreach($arr as $v){
    //echo '/usr/local/php/bin/php get_wbcontent_ppcc.php '.$v.' > /dev/null 2>&1 &'."\n";
    exec('/usr/local/php/bin/php get_wbcontent_ppcc.php '.$v.' > /dev/null 2>&1 &');
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

php爬虫教程(五)提高爬虫抓取效率 的相关文章

  • UTF-8、PHP 和 XML Mysql

    我在解决这个问题时遇到了很大的问题 我有一个编码 latin1 swedish ci 的 mysql 数据库和一个存储名称和地址的表 我正在尝试输出 UTF 8 XML 文件 但在使用以下字符串时遇到问题 Otiv gen它被输出为Otiv
  • 如何在 php 和 mongodb 中使用 findAndModify

    我想将 id 加 1 但运行 php 页面时出现问题 错误是 Fatal error Call to undefined method MongoCollection findAndModify in C wamp www 我的代码是
  • 如何在javascript中显示目录中的所有图像?

    我想在 javascript 的帮助下动态显示目录中的所有图像 我怎样才能做到这一点 我不认为这是可能的 但如果您向 ASP NET 或 PHP 或类似 页面发出 AJAX 请求 它们可以列出文件夹中的文件并将其返回以供 Javascrip
  • 如何按年和月对 WordPress 帖子进行分组?

    我正在尝试创建一个带有后查询并在输出中具有以下结构的函数 2021 January 1 Post Title 2 Post Title March 3 Post Title 2020 May 4 Post Title 这是我到目前为止所做的
  • yii2:抛出新异常的正确方法

    只是为了测试 我在模型中添加了这段代码 同时设置 debug true 和 false if packagedays lt 1 throw new yii base Exception package days cannot be less
  • 有什么办法可以打破 PHP 中的 if 语句吗?

    PHP中是否有任何命令可以停止执行当前或父进程if声明 与break or break 1 for switch loop 例如 arr array a b foreach arr as val break echo test echo f
  • JWT 中的注销不起作用

    我是 Laravel 的新手 我安装了 JWT 并登录 所以它工作并生成了一个令牌 当我在邮递员中注销时它返回 true 但一次又一次它返回 true 和 auth gt 用户 注销后始终返回用户 这是我的代码 public functio
  • PHP 中的基本 URL

    我有一个两难的困境 它已经困扰我很长一段时间了 我有一个本地测试服务器 其设置如下 127 0 0 1 我的网站在离线模式下如下所示 127 0 0 1 websitename index php 我的网站实时版本如下所示 websiten
  • Laravel 9.x 登录应用程序时目标类不存在错误

    尝试为管理面板制作一个登录应用程序以轻松编辑网站的其余部分 我有一个名为AuthController它执行多种操作 例如登录 注销 我决定只使用一个 而不是使用两个不同的控制器 当我去 login在我的浏览器上它返回Target class
  • 从其他域发送电子邮件而不是垃圾邮件

    这个问题问了一遍又一遍 仍然没有好的解决方案 当有人使用 php 发送电子邮件并将另一个域放在 from 中时 它最终会成为垃圾邮件 解决方案通常是 使用您的 发件人 并将您想要的域名放入 回复 中 将您的域列入主要邮件服务的白名单 第一个
  • 使用 PHP 上传、调整图像大小并裁剪图像中心

    我想要创建一个非常非常基本的上传 调整大小和裁剪 PHP 脚本 其功能与 Twitter 用于上传头像图片的方法相同 无论如何我最后检查过 我希望脚本拍摄任何尺寸的图像 将最短边的大小调整为 116 像素 然后裁剪顶部和底部 如果是横向 则
  • Laravel 上的图像更新并删除旧图像

    尝试在我的更新控制器中实现更新文章似乎可行 但问题是当我只想更新帖子而不上传图像时 旧的总是会被删除 但这是不应该的 这是我的商店功能 public function store Post post post gt update this
  • empty() 在对象的非空属性上返回 TRUE

    我遇到了一个非常奇怪且意想不到的问题 empty 正在返回TRUE由于我不知道的原因 在一处非空的房产上 class MyObject private property public function construct property
  • Laravel Eloquent with()-> 返回 null

    我正在尝试使用 Eloquent 来获取具有以下功能的特定产品 brand id映射到a的列brands表 该brand数组返回空 这里有什么明显需要改变的地方吗 product Product with images gt with br
  • 带缓存的简约 PHP 模板引擎,但不带 Smarty?

    有大量的问题 https stackoverflow com search q php template engine cache寻找 正确的 PHP 模板引擎 但它们都不专注于缓存 有谁知道一个轻量级 高质量 基于 PHP 5 的模板引擎
  • 如何将十进制转换为二进制并将其位值恢复到数组中?

    例如 result func 14 The result应该 array 1 1 1 0 如何实施func decbin http docs php net decbin会产生一个字符串二进制字符串 echo decbin 14 outpu
  • jQuery 不断 ping 以获得 Ajax 响应

    如何使用 jQuery 不断运行 PHP 脚本并每秒获取响应 并将鼠标上的少量数据发送到同一脚本 我真的需要添加一些随机扩展才能让这样一个简单的计时器工作吗 迭代是人类的 递归是神圣的 L 彼得 多伊奇 http www devtopics
  • 如何使用多个分隔符拆分列表?

    基本上 我想在文本区域中输入文本 然后使用它们 例如 variable1 variable2 variable3 variable1 variable2 variable3 variable1 variable2 variable3 我知道
  • 将文件附加到 PHPMailer

    我目前正在开发一个项目 该项目将文件作为 blob 存储在数据库中 我需要将文件附加到电子邮件并通过 PHPMailer 发送出去 我熟悉 mail gt addAttachment 但是 这个函数似乎只接受文件路径 而我没有 我想知道是否
  • File_get_contents($url): 无法打开流

    我有一个脚本 我使用以下方法读取文件 file get contents urlencode url 我收到此错误 failed to open stream HTTP request failed HTTP 1 0 400 Bad req

随机推荐

  • 猿创征文|国产数据库之TiDB详解和安装使用

    文章目录 前言 1 TiDB简介 2 TiDB架构 3 TiDB的安装使用 3 1 部署本地测试集群 3 2 在单机上模拟部署生产环境集群 4 在生产环境部署TiDB 4 1 软硬件环境需求及前置检查 4 2 环境与系统配置检查 4 3 在
  • Qt QTextEdit 设置只读,设置不可选中,设置鼠标样式

    设置只读 setReadOnly true 设置不可选中 setTextInteractionFlags Qt NoTextInteraction 设置鼠标样式 直接设置不管用 需调用viewport viewport gt setCurs
  • 虚拟服务器IP地址创建,虚拟服务器的ip地址

    虚拟服务器的ip地址 内容精选 换一换 虚拟IP地址用于为网卡提供第二个IP地址 同时支持与多个弹性云服务器的网卡绑定 从而实现多个弹性云服务器之间的高可用性 登录管理控制台 选择 计算 gt 弹性云服务器 在弹性云服务器列表中 单击待绑定
  • 开源网盘空间本地挂载神器,挂载百度、阿里云盘、OneDrive等云盘到本地工具-AList

    开源网盘空间本地挂载神器 挂载百度 阿里云盘 OneDrive等云盘到本地工具 AList 什么是Alist 一个支持多种存储 支持网页浏览和 WebDAV 的文件列表程序 由 gin 和 Solidjs 驱动 AList 是一款免费开源支
  • Java中匿名对象

    匿名对象的使用 1 理解 我们创建的对象 没有显式的赋给一个变量名 即为匿名对象 2 特征 匿名对象只能调用一次 3 使用 如下 public class InstanceTest public static void main Strin
  • object转为有序json

    开发十年 就只剩下这套Java开发体系了 gt gt gt 1 引入依赖
  • 基于Bert+Attention+LSTM智能校园知识图谱问答推荐系统——NLP自然语言处理算法应用(含Python全部工程源码及训练模型)+数据集

    目录 前言 总体设计 系统整体结构图 系统流程图 运行环境 Python 环境 服务器环境 模块实现 1 构造数据集 2 识别网络 3 命名实体纠错 4 检索问题类别 5 查询结果 系统测试 1 命名实体识别网络测试 2 知识图谱问答系统整
  • 自定义炫酷powershell

    自定义炫酷powershell 美化 linux上的bash和zsh之类的命令行终端炫酷无比 window上的cmd和powershell丑的不忍直视 很久之前不知参考谁的一篇文章自定义了一下 还算勉强能看得过去 重装电脑时候发现了 便记录
  • 我是疫情期间的幸运儿

    疫情期间的人生百态 疫情持续了这么长时间 有非常非常多的人的工作受疫情的影响 有些人因为疫情 企业经营困难 被迫失业 有些人在疫情严重前夕 选择辞职 然后寻找更好的工作机会 可是因为疫情 被迫延长待业的时间 并且在焦虑中煎熬 有些人本想打算
  • 10秒钟脱口而出十位数相同两位数的乘法

    10秒钟脱口而出十位数相同两位数的乘法 一 范围 十位数相同的两位数 二 目标 计算两位数的相乘 10秒钟脱口而出 三 基本公式 以尾数之和展开讨论 假设两个数分别是10a b以及10a c 那么尾数之和就是b c 序号 分类 公式 举例
  • Python —— matplotlib库的温度图像绘制

    使用的环境是Jupyter Notebook 我是安装了python版本Anaconda 已经内置了各种python包 可进入官网下载 在Anaconda下安装Jupyter Notebook即可在web页面上进行代码编写 在python中
  • Shell--基础--07--基本运算符

    Shell 基础 07 基本运算符 1 介绍 Shell支持多种运算符 包括如下 算数运算符 关系运算符 布尔运算符 字符串运算符 文件测试运算符 原生bash不支持简单的数学运算 但是可以通过其他命令来实现 例如 awk 和 expr e
  • fancyhdr宏包设置latex页眉页脚

    LaTeX的fancyhdr宏包的使用 CTEXwiki关于fancyhdr的说明可以在这里找到 在latex中用自定义页眉页脚 一般都要使用宏包fancy 关键是琢磨一下下面的例子 在看看相应的说明 一般就可以得到你想要的结果了 下面的内
  • 腾讯云轻量数据库mysql服务快速入门!

    快速入门 本文旨在介绍如何快速使用轻量数据库服务 帮助用户快速了解轻量数据库服务使用的全流程 从数据库的创建到基本使用 您需要完成如下操作 创建数据库 登录 轻量数据库服务购买页 根据实际需求选择各项配置信息 确认无误后 单击立即购买 地域
  • styled-components常见使用方法

    yarn add styled components import styled from styled components 1 基础使用 const BoxStyle styled div color red 2 UI组件加样式 imp
  • 数据结构-malloc申请动态空间-链表的创建

    一 malloc申请动态空间注意以下事项 1 malloc申请动态空间时必须声明类型 2 使用malloc申请的空间在使用完成之后必须使用free释放 3 malloc申请空间的类型必须和指向他的指针类型匹配 such as int p p
  • 挖掘视频网站【优酷】上被截断的视频的地址--001

    不知道大家看视频的时候有没有注意过 一个稍微长的视频 比如超过20分钟 你刚开始看的时候暂停播放 它的进度条会在中途某一个位置停止加载 当你把播放位置调节到那个停顿的地方 视频又开始继续加载 如果视频还有很多 它会停顿很多次 我们不禁要问
  • 网管实战(7):CISCO网管设备学习笔记

    虽然现在管理的都是华为和H3C的网络设备 但有时候还是要管理一些思科的设备 比如CISCO 4506 CISCO 6504 3750等 作为网管小白 很多时候都需要查一些命令来操作 这里是我2019年9月25日开始学习CISCO设备时的学习
  • 给Delphi社群的公开信

    给Delphi社群的公开信 Borland RAD部门副总裁
  • php爬虫教程(五)提高爬虫抓取效率

    之前有一次抓取x浪图片库的时候200w图片跑了一整天的时间 后来采取多进程抓取提高了很高的效率 多进程的实现可以参考这个方法 http blog csdn net u014017080 article details 46925725 主进