爬虫脚本php

2024-03-09

我在这里抓取了一段脚本来抓取网站，将其放在我的服务器上并且它可以工作。唯一的问题是，如果我尝试爬行并将深度设置为 4 以上，则它不起作用。我想知道这是由于服务器缺乏资源还是代码本身造成的。

<?php

error_reporting(E_ALL); 

function crawl_page($url, $depth)
{
    static $seen = array();
    if (isset($seen[$url]) || $depth === 0) {
        return;
    }
    $seen[$url] = true;

    $dom = new DOMDocument('1.0');
    @$dom->loadHTMLFile($url);

    $anchors = $dom->getElementsByTagName('a');
    foreach ($anchors as $element) {
        $href = $element->getAttribute('href');
        if (0 !== strpos($href, 'http')) {
            $href = rtrim($url, '/') . '/' . ltrim($href, '/');
        }
        crawl_page($href, $depth - 1);
    }
    echo "URL:",$url,PHP_EOL;
    echo  "<br/>";
}
crawl_page("http://www.mangastream.com/", 2);
?>

EDIT:

我打开了脚本的错误报告，我得到的就是这个

错误 324 (net::ERR_EMPTY_RESPONSE)：未知错误。

尝试确保所有错误消息均已打开（display_errors、error_reporting）。这应该可以让您更深入地了解它崩溃的原因。

另外，请记住，爬行通常是非法的，具体取决于您要对数据执行的操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

php

webcrawler

爬虫脚本php 的相关文章

在脚本中使用未定义常量

我搜索了该网站并看到了对用户应该在变量周围加上单引号的问题的修复但我仍然有点困惑错误全部参考第28行注意使用未定义的常量 log id 假定为 log id 注意使用未定义的常量 log username 假定为 log use
如何在索引视图中打印关联数据

subjects this gt Subjects gt find all contain gt Users fields gt Users username Users email gt hydrate false gt toArray
PHP 7.2 计数错误

警告 count 参数必须是数组或对象实现 Countable in 我在以下行中收到上述错误 if 0 gt count this gt xprop 有人可以帮助我理解这一点吗我对 PHP 还很陌生问题显然是 this gt xpr
如何访问带有美元符号的 PHP 对象属性？

我有一个 PHP 对象其属性中有一个美元符号如何访问该属性的内容例子 echo object gt variable Ok echo object gt variable WithDollar Syntax error With 变
Laravel 5：在控制台内核的 Schedule() 函数中使用 Cache:: 或 DB::

我正在尝试以不同的用户配置的时间间隔在 Laravel 5 中运行 Artisan 控制台命令我已经构建了控制台命令并拥有一个包含运行频率配置值的数据库具有 Eloquent 模型内schedule 的函数App Console
动态重新定义 PHP 类函数？

我试图弄清楚如何动态导入大量 PHP 类函数例如 class Entity public function construct type require once type functions php person new Entity
snappy wkhtmltopdf 包装器将生成的 html 文件发送到浏览器

我像鼹鼠一样用谷歌搜索但找不到正确的方法我正在使用 WKHTMLTOPDF Wrapper Snappy 创建 PDF 如何将使用generateFromHtml方法生成的pdf直接发送到浏览器这就是我想做的 header Conte
CodeIgniter加入选择为

我的数据库中有 2 个表需要加入一张表是 artikelen 表另一张表是 Collections 表我目前有 this gt db gt select this gt db gt from collecties this gt db
通过字符串操作预防 PHP SQL 注入[重复]

这个问题在这里已经有答案了可能的重复 PHP 中防止 SQL 注入的最佳方法 https stackoverflow com questions 60174 best way to prevent sql injection in php
Symfony/Doctrine 重新排列数据库列

当我使用doctrine schema update命令行生成表时 Doctrine 或Symfony 似乎想要添加一个命令来重新排列我的列将键放在它出现的前面我想知道是否更希望在哪里我可以禁用环境的这个功能所以当我去生成我的表
根据product_id获取magento产品的浏览次数

我想在 Magento 的类别列表页面上显示查看计数这些数据看起来过去可以通过 reports product collection 访问但我找不到正确访问它的方法我基本上想提供一个产品 ID 并获取返回给我的所述产品的观看次数您可
AJAX 安全问题

我希望能够解决一些关于 AJAX 安全性的问题这是我试图理解的一个场景假设我正在使用 AJAX 向页面请求一些半敏感材料例如我将把用户的 ID 传递给一个 php 文件并返回一些关于他们自己的信息现在是什么阻止人们模拟此 Ja
计算帖子中使用 WordPress 短代码的次数

我有以下 WordPress 短代码功能 function wp shortcode static i 1 return i i return return add shortcode shortcode wp shortcode 这很好用
检查用户设备的 GPS 是否开启

我正在使用 jQuery Mobile 和 PHP 开发一个应用程序我没有使用 Phonegap 或其他框架我需要找到用户的geolocation 如果用户设备的 GPS 关闭那么我无法获取位置现在我需要查找用户设备的 GPS 是否
PHP 使用主键和辅助键对多维数组进行排序[重复]

这个问题在这里已经有答案了如何按主键和辅助键对多维数组进行排序例如假设有以下数组 result array result 0 prio 1 result 0 date 2010 02 28 result 0 post February
如何使用 PHP 将字符串按大写字母分解？

我有一个字符串 CamelCaseString 我想对大写字母进行explode split 或一些更好的方法来将该字符串分解为单个单词最简单的方法是什么解决方案更新此链接指向一个略有不同的问题但我认为答案通常比本页当前问题的答案更
检查字符串是否编码为 UTF-8

function seems utf8 str length strlen str for i 0 i lt length i c ord str i if c lt 0x80 n 0 0bbbbbbb elseif c 0xE0 0xC0
从 $i 获取值，顺序被打乱

for i 0 i lt count name i some output ommited td td
通过 IP 地址限制 Laravel 错误日志

When debug被设定为true在 Laravel 的app config php有什么方法可以限制结果Whoops包含对某些 IP 地址的堆栈跟踪的错误页面并且不在该列表中的 IP 显示特定视图 Thanks 没有内置但是你可能可
无法将句子插入数据库

我有一些句子我必须选择由 6 个以上单词组成的句子然后它们将被插入到数据库中

随机推荐

如何在 Perforce 2013 之前将搁置的变更列表取消搁置到另一个分支？

Using Perforce 服务器 2012 2 538478 如何将文件从主干取消搁置到另一个分支当尝试这样做时我得到 filename not mapped to your workspace view 在 Perforce 20
jdt.core Java 模型的 JUnit 测试

我正在尝试为我的代码进行一些 JUnit 测试但问题是我使用了 ICompilationUnit IPackageFragment ITypes 等 Java 模型我不知道如何创建一些 ICompilationUnit 然后进行测试
如何在由空格分隔的字符串的中点添加换行符

使用 php 如何在字符串相对中间的空白处插入换行符或者换句话说如何计算句子中的单词数然后在句子的中间点换行这个想法是为了避免博客文章标题第二行出现寡妇废弃的单词方法是将每个标题切成两半如果标题占用一行以上则将其放在两行上
C# 中反射的 SetValue

考虑这段代码 var future new Future future GetType GetProperty info Name SetValue future converted 在上面的代码中我们应该传递两个参数SetValue 首
SceneKit - 如何获取 .dae 模型的动画？

好吧我在这里使用 ARKit 和 SceneKit 我在查看其他涉及 SceneKit 试图在其中建立模型的问题时遇到了麻烦 dae格式化并加载各种动画以使该模型运行现在我们在 iOS11 中似乎某些解决方案不起作用这是我从基地获取模
Haskell 中是否执行单子法则？

来自 Haskell 维基 Monad 可以被视为各种标准编程接口数据或控制结构由 Monad 类捕获全部常见的单子是它的成员 class Monad m where gt gt m a gt a gt m b gt m b gt
如何处理Matlab parfor循环中的未分类变量？

我有以下代码我想使其并行但不幸的是当我使用 parfor 循环时出现以下错误这是代码 parfor l1 1 length lambda1 list over l1 for l2 1 length lambda2 list par
Chrome SVG 网络字体在选择输入中出现奇怪的字符

Windows 8 上的 Chrome 26 0 1410 64m 在渲染 WebFonts 时出现问题这是一个已知问题解决方案是首先提供字体的 svg 版本而不是 woff 版本它修复了抗锯齿并使字体看起来再次漂亮此方法的缺点是选
Safari iOS 12.2 和 12.3 中的错误

所以我刚才在做个人项目时注意到了一些奇怪的事情以下代码将导致位置问题div如果手机在方向之间来回切换则元素处于纵向模式而不是div如果固定或与屏幕底部齐平 div 将漂浮在屏幕上方并且根本不接触屏幕底部 html width 100
Java 中的泛型和反射

这可能是一个非常基本的问题但我对 Java 中的泛型确实很陌生而且我很难改变我的思维过程与 C 中的完成方式所以请耐心等待我正在尝试用 Java 构建一个通用存储库我创建了一个 IRepository 界面如下所示 public
在asp.net中使用表单身份验证时，是否可以使用iis 7来管理用户

我有一个使用表单身份验证的 ASP NET Web 应用程序一切都已配置并正常工作但是我正在处理创建和维护用户和角色成员资格的问题我知道我可以推出自己的解决方案但我想知道是否有替代解决方案 iis7 是否提供用于管理表单身份验证用
如何使用 WinAPI 锁定内存中的页面？

我需要防止应用程序的内存页面在 Windows 上从 RAM 中换出是否有与 POSIX 等效的 WinAPI 函数mlockall http opengroup org onlinepubs 007908799 xsh mlockall
Erlang中socket的“packet”选项怎么能如此加速tcp传输呢？

使用 packet 4 通过本地主机上的两个不同端口传输1G数据只需要8秒而使用 packet raw 则无法在30秒内完成相同的任务我知道如果使用后一种方法数据将以数万个小块的形式到达在archlinux上大小为1460字节我已
检查文件是否包含字符串

所以我在这里找到了这个问题但我对输出以及如何使用 if 语句处理它有疑问这就是我所拥有的但它总是说这是真的即使文件中不存在监视器这个词 if File readlines testfile txt grep monitor do s
为什么Java不支持在finally抛出异常时从try/catch中检索丢失的异常？

在 Java 7 中该功能被添加到通过getSuppressed 获取从 try with resources 语句的隐式 finally 块抛出的异常似乎仍然没有一种方法据我所知可以做相反的事情当有一个显式的finally块并
在 HTTP 请求中指定端口号 (node.js)

使用请求模块发出 HTTP 请求时是否可以指定端口号我在文档中没有看到任何有关此内容的信息 var request require request this works request method GET url http exampl
h 标签的额外字间距

I have h2标签并且有内容 before HTML h2 class glyphicon arrow heading text white margin zero This is h2 tag and it has word spac
创建运行批处理文件的快捷方式

我想创建一个 powershell 脚本在 Windows 7 任务栏中创建一个快捷方式从 cmd exe 运行批处理文件尝试按照这两篇文章中的说明进行操作 https superuser com questions 100249 h
具有动态依赖关系的静态库

我遇到过很多类似的问题但我并没有真正得到答案因此我有一个依赖于 Static lib 的 App exe 而 Static lib 又依赖于动态库 Dynamic dll 在 Static lib 中我链接到 Dynamic lib
爬虫脚本php

我在这里抓取了一段脚本来抓取网站将其放在我的服务器上并且它可以工作唯一的问题是如果我尝试爬行并将深度设置为 4 以上则它不起作用我想知道这是由于服务器缺乏资源还是代码本身造成的

爬虫脚本php

爬虫脚本php 的相关文章

随机推荐

热门标签