有关 PHP 中网络爬虫的错误

2023-12-08

我正在尝试使用 PHP 创建一个简单的网络爬虫，它能够爬行 .edu 域，并提供父级的种子 url。

我使用了简单的html dom来实现爬虫，而一些核心逻辑是我自己实现的。

我将发布下面的代码并尝试解释这些问题。

private function initiateChildCrawler($parent_Url_Html) {

    global $CFG;
    static $foundLink;
    static $parentID;
    static $urlToCrawl_InstanceOfChildren;

    $forEachCount = 0;
    foreach($parent_Url_Html->getHTML()->find('a') as $foundLink) 
    {
        $forEachCount++;
        if($forEachCount<500) {
        $foundLink->href = url_to_absolute($parent_Url_Html->getURL(), $foundLink->href);

        if($this->validateEduDomain($foundLink->href)) 
        {
            //Implement else condition later on
            $parentID = $this->loadSaveInstance->parentExists_In_URL_DB_CRAWL($this->returnParentDomain($foundLink->href));
            if($parentID != FALSE) 
            {
                if($this->loadSaveInstance->checkUrlDuplication_In_URL_DB_CRAWL($foundLink->href) == FALSE)
                {
                    $urlToCrawl_InstanceOfChildren = new urlToCrawl($foundLink->href);
                    if($urlToCrawl_InstanceOfChildren->getSimpleDomSource($CFG->finalContext)!= FALSE)
                    {
                        $this->loadSaveInstance->url_db_html($urlToCrawl_InstanceOfChildren->getURL(), $urlToCrawl_InstanceOfChildren->getHTML());
                        $this->loadSaveInstance->saveCrawled_To_URL_DB_CRAWL(NULL, $foundLink->href, "crawled", $parentID);

                        /*if($recursiveCount<1)
                        {
                            $this->initiateChildCrawler($urlToCrawl_InstanceOfChildren);
                        }*/
                    }
                }
            }
        }
        }
    }   
}

现在您可以看到，initiateChildCrawler 正在被initiateParentCrawler 函数调用，该函数将父链接传递给子爬虫。父链接示例：www.berkeley.edu，爬虫将找到其主页上的所有链接并返回其所有 html 内容。这种情况会一直发生，直到种子网址耗尽为止。

例如： 1-harvard.edu ->>>>> 将找到所有链接并返回其 html 内容（通过调用 childCrawler）。移动到parentCrawler 中的下一个父级。 2-berkeley.edu ->>>>> 将找到所有链接并返回其 html 内容（通过调用 childCrawler）。

其他功能是不言自明的。

现在问题是： childCrawler完成每个链接的foreach循环后，函数无法正常退出。如果我从 CLI 运行脚本，CLI 就会崩溃。在浏览器中运行脚本时会导致脚本终止。

但是，如果我将爬行子链接的限制设置为 10 或更少（通过更改 $forEachCount 变量），爬行器就会开始正常工作。

请在这方面帮助我。

来自 CLI 的消息：

问题签名：问题事件名称：APPPCRASH 应用程序名称: php-cgi.exe 应用程序版本：5.3.8.0 应用程序时间戳：4e537939 故障模块名称：php5ts.dll 故障模块版本：5.3.8.0 故障模块时间戳：4e537a04 异常代码：c0000005 异常偏移：0000c793 操作系统版本：6.1.7601.2.1.0.256.48 区域设置 ID：1033 附加信息 1：0a9e 附加信息 2：0a9e372d3b4ad19135b953a78882e789 附加信息 3：0a9e 附加信息 4：0a9e372d3b4ad19135b953a78882e789

平环示例：

您可以使用包含您要首先处理的所有 URL 的堆栈来启动循环。
Inside the loop:
1. You shift堆栈中的第一个 URL（您获取它并将其删除）。
2. 如果您发现新的 URL，请将它们添加到堆栈的末尾（push).

这将运行直到处理完堆栈中的所有 URL，因此您添加（因为您已经以某种方式为foreach) 一个计数器，以防止其运行时间过长：

$URLStack = (array) $parent_Url_Html->getHTML()->find('a');
$URLProcessedCount = 0;
while ($URLProcessedCount++ < 500) # this can run endless, so this saves us from processing too many URLs
{
    $url = array_shift($URLStack);
    if (!$url) break; # exit if the stack is empty

    # process URL

    # for each new URL:
    $URLStack[] = $newURL;
}

您可以通过不将 URL 添加到堆栈中已存在的 URL 来使其更加智能，但是您只需将绝对 URL 插入到堆栈中即可。不过，我强烈建议您这样做，因为无需再次处理您已经获得的页面（例如，每个页面可能都包含指向主页的链接）。如果你想这样做，只需增加$URLProcessedCount在循环内，以便您也保留以前的条目：

while ($URLProcessedCount < 500) # this can run endless, so this saves us from processing too many URLs
{
    $url = $URLStack[$URLProcessedCount++];

另外我suggest你使用PHPDOMDocument扩展而不是简单的 dom，因为它是一个更通用的工具。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

有关 PHP 中网络爬虫的错误的相关文章

php-curl 不支持 url 中的 utf-8

我正在尝试将 http 请求从我的服务器发送到 php 中的另一台服务器例如我发送请求的 URL 包含一些 utf8 字符http www aparat com etc api videoBySearch text http www a
在 php 中检测 iPad？

如何向 iPad 查看者提供不同的页面 if SERVER HTTP USER AGENT Mozilla 5 0 iPad U CPU iPhone OS 3 2 like Mac OS X en us AppleWebKit 531 2
如何检查 id 是否已存在 - codeigniter

我正在尝试检查数据库中的 id 是否已存在如果不存在则仅插入该 id 而不是其他存在的 id 我尝试执行一个 where 语句来检查数据库中是否存在它们的 id 但即使它们是新信息它也不会将其插入数据库中我在这里很迷路任何指导将不胜
PHP 类中的命名空间和全局变量问题

我陷入了这种困惑我不明白为什么我的 HelperClass 下的全局 error 返回空我可以验证 class gt error 确实之前已填充了数据在这种情况下命名空间是否存在某种我不知道的问题请给我一些指点以下是一些相关的代
PHP 数组的最大键大小是多少？

我正在生成关联数组键值是 1 n 列的字符串连接会回来咬我的钥匙有最大长度吗如果是这样我可能会停下来并采取不同的做法它似乎仅受脚本内存限制的限制快速测试后我得到了 128mb 的密钥没问题 ini set memory lim
按带宽限制成员资格

我刚刚将 Codeigniter 应用程序部署到 Amazon EC2 使用 S3 作为媒体使用 RDS 作为 MySQL 我需要根据使用的带宽量限制用户帐户访问帐户将基于带宽例如基本帐户 x 每月最多 20GB 等但是我不知道最好
连接以逗号分隔的字符串，但如果字符串为空，则逗号不应出现在开头[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
正则表达式匹配带或不带特殊/重音字符的字符串？

是否有正则表达式可以匹配包含或不包含特殊字符的特定字符串可以这么说特殊字符不敏感 Like c ra将匹配cera 反之亦然有任何想法吗编辑我想匹配带有或不带有特殊重音字符的特定字符串不仅仅是任何字符串字符测试示例 cli
电子邮件标题中的特殊字符是什么以及何时使用引号？

我正在尝试使用 PHP 发送和阅读电子邮件到目前为止我发现我必须使用该函数对特殊字符进行编码mb encode mimeheader 但我不必对空格进行编码我还发现地址字段中的括号不起作用读取带有括号的标题时 PHP 的 imap
数据库字段中的空白不会被trim()删除

我在 MySQL 的文本字段的段落开头有一些空格 Using trim var text field 在 PHP 中或TRIM text field MySQL 中的语句绝对不执行任何操作这个空白可能是什么以及如何通过代码删除它如果我进
ZF2：如何将参数传递给转发插件，然后我可以在转发它们的方法中获取这些参数？

我有一个 Action 方法Foo需要参数的控制器 public function fooAction one two a one b two 我需要从某些方法的其他方法转发到该方法Boo控制器这些参数之一必须是引用参数唯一的例子就是手
PHP：数据库连接类构造方法

我是面向对象编程的新手最初我是在类内部和构造函数外部定义变量并为其赋值但是在今天的 Java OOP 课程之后我被告知这是不好的风格应该避免这是我模拟的原始 PHP 数据库连接类 class DatabaseConnection
PHP file_get_contents() 和设置请求标头

使用 PHP 是否可以发送 HTTP 标头file get contents 我知道您可以从您的php ini文件但是您是否还可以发送其他信息例如HTTP ACCEPT HTTP ACCEPT LANGUAGE and HTTP CO
Drupal：*.api.php 中的 hook_ 函数是否被调用过？

在 Drupal 7 中每个核心模块都有一个 api php文件其中是模块的名称例如 modules node node api php modules path path api php 这些文件有什么用它们包含以以下开头的函数
设置基于 PHP 定时器的函数

我有一个 php 文件test php 我想要echo or print5 秒后即在浏览器调用加载或打开 php 文件后不久成功顺便说一句有时我可能想在特定的时间间隔后执行初始化某些函数如何使用 php 执行面向时间的任务例
WooCommerce 添加到购物车后停止重定向

我希望在用户单击添加到购物车按钮后完全删除任何重定向实际上我没有使用产品页面我使用一个带有产品链接的简单按钮如下所示 add to cart 492 我的用户将单击我页面上的多个添加到购物车按钮因此在单击第一个按钮后他无法重
ajax - 检查用户名是否存在+如果存在则返回消息

我试图检查用户想要的用户名是否已被使用而无需发送表单基本上是用户名字段的模糊我遇到了一些麻烦有几个问题我有我的输入字段加上js
从php字符串中删除奇怪的字符

这就是我现在所拥有的将 RSS feed 绘制到 php 中 RSS feed 中的原始 xml 如下所示 Paul 8217 s Confidence 到目前为止我拥有的 php 是这样的 newtitle item gt title
用 PDO 和准备好的语句替换 mysql_* 函数

我总是做简单的连接mysql connect mysql pconnect db mysql pconnect host user pass if db echo strong Error strong Could not connect
password_verify 哈希值与密码不匹配

我使用下面的代码生成了密码哈希 hash password hash test PASSWORD BCRYPT 然后我使用 255 个字符将其存储在数据库中然后我尝试使用比较器来测试登录但失败了它只允许我使用我之前刚刚生成的几行哈希登

随机推荐

rvm 安装 - /usr/local/rvm ：权限被拒绝（在此之前，我在 Ubuntu 中错误地删除了主目录）[重复]

这个问题在这里已经有答案了可能的重复如何修复使用 SUDO 完成的 RVM 安装我在我的服务器 myuser 上创建了一个用户登录并运行此命令 curl L get rvm io bash s auto dotfiles 一切都很好
DBCP Tomcat 连接池泄漏
作业：使用 R 模拟抛硬币直到连续正面朝上

我是 R 新手因此在这里询问尚未找到非常有用的详细模拟教程问题陈述是这样的模拟抛硬币20次并记录正面的数量和最长的头模拟抛硬币并记录所需的抛掷次数直到依次连续出现 2 3 4 次正面负二项式使用不同的种子进行 100
C++类成员函数指针指向函数指针

我使用 luabind 作为我的 lua 到 C 包装器 Luabind提供了一种使用我自己的回调函数来处理lua抛出的异常的方法 set pcall callback 因此我解释了文档中的一个示例更改是 logger gt log 函
hibernate envers：合并和 saveOrUpdate

我正在开发 spring hibernate envers 应用程序经过大量谷歌搜索后事情终于对我有用但我仍然有几个问题早些时候我正在使用saveOrUpdate为了保存或更新实体但当与恩弗斯一起工作时它是扔一个nonUn
Windows 应用程序中 DataGridView 中的货币格式

我无法在 DataGridView 上显示货币格式你们能看一下这段代码吗 private void dataGridView1 DataBindingComplete object sender DataGridViewBindingCo
R 函数（如 str()、summary() 和 head()）的 Python pandas 等价物是什么？

我只知道describe 功能还有其他类似的功能吗str summary and head 在熊猫中info 方法创建与 R 非常相似的输出str gt str train data frame 891 obs of 13 variabl
单击时循环遍历数组

我想知道如何在单击时循环遍历数组中的值当显示数组的最后一个值时下一次单击应再次显示数组的第一个值我认为我已经很接近了但是当我到达数组的最后一个值时我必须单击两次才能再次显示第一个值这是我的 JavaScript var myAr
PHP - 使用explode()函数将值分配给关联数组

我想分解一个字符串但结果数组具有特定的字符串作为键而不是整数 IE 如果我有一个字符串 Joe Bloggs 我想将其分解以便我有一个关联数组例如 arr first name Joe arr last name Bloggs 目前
在 vscode 中安装 ionide-fsharp 时出现错误“未找到中央目录记录签名结尾”

我已经安装了 VS Code 版本 1 8 1 机器是Windows 7 64位安装 ionide fsharp 扩展时出现错误未找到中央目录记录签名末尾 VS Code 的 1 7 2 版本似乎可以工作但是这个问题似乎在 1 8
android 对话框上的轮式选择器

我想从旋转轮获取文本作为密码您能给我任何用于从中获取文本的旋转轮的示例吗我没有得到任何好的例子提前致谢我试图得到这个旋转轮最后我已经构建了我的轮子来从用户那里获取文本我给出了四个整数的例子 package com example
在ggplot2中使用facet_grid()函数时，如何使用labeller()函数让列总计出现在facet的标签中

这是一个数据集可以为我的问题提供背景信息 library tidyr library dplyr library ggplot2 set seed 1 dfr2 lt tibble x1 factor sample letters 1 3
如何在 BitmapFactory 中保持图像质量相同

我已将位图图像转换为字符串以保存它 Bitmap photo extras getParcelable data ByteArrayOutputStream baos new ByteArrayOutputStream photo comp
将许多子目录拆分为一个新的、单独的 Git 存储库

这个问题与将许多子目录分离到新的单独的 git 存储库中 Git 子树和多个目录我不想分离单个子目录而是想分离几个子目录例如这是我的文件夹结构 app1 file1 file2 folder1 folder2 app2 file3
来自输入文件的动态数组

我是初学者所以如果这确实是一个愚蠢的问题我很抱歉我的任务是从输入文件中打印出动态数组我尝试用谷歌搜索它发现了一些类似的问题但答案都是使用向量等但我们还没有学到这些还说必须使用函数这就是我想出的 include
如何从 PL/pgSQL 写入磁盘上的文件？

我想做相当于 c 或 php fopen 和 fwrite 的操作我不想将表转储到磁盘我正在尝试在开发过程中进行一些调试日志记录您可以在 postgres 函数中使用 plpythonu f open f write f close
Bootstrap 下拉菜单隐藏在模式中

您好我正在尝试获取引导下拉列表以显示模型内的列表我想我要说的是当我单击下拉菜单时它会展开但如果列表比模型长它将切断列表的其余部分导致用户无法选择所有选项我一直在谷歌搜索并看到这篇文章点击这里这与我的问题非常相似然而他们说
Pandas 使用正则表达式分隔符读取 csv

我一直在尝试读取这样的自定义 csv 文件 6 Rotterdam NLD Zuid Holland 593321 19 Zaanstad NLD Noord Holland 135621 214 Porto Alegre BRA Rio
java 类型推断是如何工作的？

有人可以解释一下以下语法是如何工作的吗 public static
有关 PHP 中网络爬虫的错误

我正在尝试使用 PHP 创建一个简单的网络爬虫它能够爬行 edu 域并提供父级的种子 url 我使用了简单的html dom来实现爬虫而一些核心逻辑是我自己实现的我将发布下面的代码并尝试解释这些问题 private function

有关 PHP 中网络爬虫的错误

有关 PHP 中网络爬虫的错误 的相关文章

随机推荐

热门标签

有关 PHP 中网络爬虫的错误的相关文章