使用 DOMDocument 进行网络抓取

2024-01-19

我正在尝试使用以下方法抓取网页内容file_get_contents抓取 HTML，然后使用DOMDocument目的。我的问题是我无法获得适当的信息。我不确定这是否是因为我正在使用DOMDocument的方法错误，或者我的源代码中的 (X)HTML 很差。

在源代码中，有一个 id 为“cards”的元素，它有两个子元素divs。我想要第一个孩子，它有很多孩子divs，而他们又拥有anchor孩子与div孩子。我想要href来自anchor以及它的子节点的 nodeValuediv.

结构是这样的：

<div id="cards">
    <div class="grid">
        <div class="card-wrap">
            <a href="linkValue">
                <img src="..."/>
                <div>nameValue</div>
            </a>
        </div>
        ...
   </div>
   <div id="...">
   </div>
</div>

我已经开始了$cards = $dom->getElementById("cards")。我得到一个 DOMText 对象、一个 DOMElement 对象、一个 DOMText 对象、一个 DOMElement 对象和一个 DOMText 对象。然后我用$grid = $cards->childNodes->item(1)获取第一个 DOMElement 对象，这可能是.grid元素。但是，当我使用以下命令迭代 $grid 时：

foreach($grid->childNodes as $item){
    if($item->nodeName == "div"){
        echo $item->nodeName,' | ',$item->nodeValue,'<br>';
    }
}

我最终得到一个充满“div | nameValue”的页面，其中 nameValue 是嵌入的 divnodeValue，并且我无法找到anchors 得到他们的href value.

我是否对 DOMDocument 做了一些明显错误的事情，或者可能还有更多问题发生？

好吧，从你的示例代码来看if($item->nodeName == "div"){非常会排除任何<a>标签。另外，我不相信childNodes允许递归迭代。

因此，要访问有问题的节点，您could use:

$children = $dom->getElementById("cards")->childNodes
                ->item(1)->childNodes->item(1)->childNodes;

然而，正如您所看到的，这非常混乱......介绍 XPath：

http://php.net/manual/en/class.domxpath.php http://php.net/manual/en/class.domxpath.php
http://www.w3schools.com/xpath/xpath_syntax.asp http://www.w3schools.com/xpath/xpath_syntax.asp

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

php

domdocument

使用 DOMDocument 进行网络抓取的相关文章

选择MySql表数据放入数组中

我尝试从 mysql 捕获数据并将它们全部放入数组中认为 users table id name code 1 gorge 2132 2 flix ksd02 3 jasmen skaod2 sql mysql query select
学说“没有命名的协会”

将我添加到无法找出其学说映射出了什么问题的人列表中我正在模拟国际象棋Game与一对多Halfmoves 有任何想法吗 DDL create table game game id int primary key create table h
php 打印 aa aaa ab aab 直到 zzz 的算法

你好我需要打印从 a 到 zzz 最多 3 个字母例如我的输出应该是 A B Z AA AB AZ BA BB ZZ AAA AAB ZZZ 我在过去的 5 个小时里努力尝试我找不到任何逻辑我尝试了下面的代码 PHP 有一个方便的功
SQL 大表中的随机行（使用 where 子句）

我有一个网站人们可以在其中对汽车进行投票向用户展示 4 辆汽车他她可以投票选出他们最喜欢的汽车桌子cars有重要的列 car id int 10 not auto increment so has gaps views int 7
Smarty 3 或更早版本中有类似 Dwoo-s {with} 或 {loop} 的东西吗？

Dwoo 模板引擎中的 with 和 loop 插件更改变量名称解析的默认上下文如果在 Dwoo 中您提供模板 arr foo with arr foo arr foo with 有数据 array arr gt array foo gt
如何将自定义类型数组传递给 Postgres 函数

我有一个自定义类型 CREATE TYPE mytype as id uuid amount numeric 13 4 我想将它传递给具有以下签名的函数 CREATE FUNCTION myschema myfunction id uuid
通过jquery传递搜索参数

我有一个表单如果用户输入搜索查询其参数应通过 jquery 传递并在获取结果后将结果加载到 div 容器中由于我不太熟悉 jquery 我该怎么做 html currently the data is being displayed
我如何知道请求是否来自 flash swf？

我有一个用 flash 开发的应用程序我需要访问一些 php 文件因此如果访问来自 swf 则 php 文件会返回一些数据如何判断请求是否来自Flash 无需将 get post 变量传递给 php 可能是用户代理推荐人请记住
使用 PHP/COM/ADSI/LDAP 更改 AD 密码

我已经被这个问题困扰了好几天了我尝试了各种解决方案均无济于事请帮忙 Problem 我们有两个域控制器它们不属于我们的管理范围我们能够通过端口 389 上的 LDAP 进行连接但无法通过端口 636 安全连接我们正在开发一个系统
如何比较两个字符串的大小写和变音符号不敏感？

我有两根弦字符串 1 塞巴斯蒂安字符串 2 塞巴斯蒂安我想通过忽略重音字符来比较这两个字符串谁能知道这个逻辑吗提前致谢
PHP 如果不存在，则从字符串中删除 ','

我正在运行这段代码 stmt pdo conn gt prepare SELECT from admin where support emails support emails and logged logged and disabled
CSS 无法与 CodeIgniter 一起使用

这是我的 CI 代码的一部分 class page extends CI Controller var Page public function construct parent construct this gt Page 1 this
Facebook 中用户的时区是如何编码的

我需要检查用户的时区但我找不到它的真正定义参考API http developers facebook com docs reference api user says 用户的时区与 UTC 的偏移量现在在维基百科上这些是可能的时区
PHP 的 PDO 可以限制为单个查询吗？

PHP 的 PDO 允许通过 query 方法或作为准备好的语句同时执行多个查询以下两个示例均有效 Two SQL queries query SELECT FROM table DROP table Execute via query
根据通过 AJAX 请求的用户输入重绘 google 图表

我有一个谷歌图表从我的数据库中提取数据它可以按我想要的方式工作根据 URL 中的 get 请求它从所选表中提取数据我想根据下拉菜单中选定的表通过 ajax 更新此图表我无法突破的部分是通过 ajax 获取数据响应我认为下面的代码
Laravel 5.3：护照实现 - {“error”：“invalid_client”，“message”：“客户端身份验证失败”}

我按照中提到的确切步骤进行操作Laracast Laravel 5 3 的新增功能 Laravel Passport https laracasts com series whats new in laravel 5 3 episodes
PHP 时间间隔

我正在寻找一个看起来应该非常简单的解决方案但似乎我不能在这里找到任何好的答案而且我自己似乎无法让它发挥作用我正在寻找的是设置开始时间结束时间然后迭代给定时间间隔之间的一组时间例如上午 9 00 下午 5 00 是开始时间这些
通过ajax执行后期操作时如何克服CORS重定向问题？

我可以通过外部登录表单中的 post 方法类型提交表单来登录 roundcube 实例托管在另一台服务器上我收到此错误通过 ajax 签名时 XMLHttpRequest 无法加载https 192 168 0 7 mail http
如何使用 PHP 获取列中的所有值？

我一直在到处寻找这个问题但仍然找不到解决方案如何从 mySQL 列中获取所有值并将它们存储在数组中例如表名称客户列名称 ID 名称行数 5 我想获取此表中所有 5 个名称的数组我该如何去做呢我正在使用 PHP 我试图 SE
如何显示 PHP 对象

我有这样的代码 dataRecord1 client gt GetRecord token table filter echo pre print r dataRecord1 echo pre foreach dataRecord1 gt

随机推荐

如何在 OncreateView 中运行异步功能？

我的应用程序有问题首先我使用以下命令制作了两个选项卡碎片这会膨胀一个activity 实现的选项卡工作正常其次我已经展示了XAML right 但是我现在需要异步运行一些东西 Fragment 中的 OnCreateView 我怎样
万物皆对象是如何运作的？

我了解背后的主要理论一切都是对象但我真的不明白它是如何在幕后实现的功能 So foo 4 是相同的foo call 4 但是什么阻止了我做foo call call 4 foo是一个函数并且foo call 都是围绕函数的方法包装器但是
复制带有下一个和随机指针的链表，仅赋予链表读取权限

我需要复制带有下一个和随机指针的链表下一个指针照常指向链表中的下一个元素随机指针可能指向任何其他节点甚至指向其自身如果我不允许在任何时候修改给定的列表而只给出列表的读取权限该怎么办优雅的解决方案线性时间恒定空间创建节点
Microsoft Exchange 不会将 PHPmailer 生成的电子邮件呈现为 HTML

这个问题已经困扰我好几个星期了我有一个脚本可以在 PHPmailer 的帮助下将带有 xls 附件的 html 电子邮件发送给多个收件人它已经运行良好一年多了最近来自同一家公司的两个使用 Microsoft Exchange 作为
如何设置svn仓库的权限？

我在网络驱动器上创建了一个存储库svnadmin create repos 有没有办法设置用户对存储库的权限如果是这种情况如何设置这些权限如果您需要通过以下方式管理访问svn 协议嵌入授权您所需要做的就是更改文件conf新创建的存
是否可以将标准的纯 C 标头 #include 指令放入命名空间中？ [复制]

这个问题在这里已经有答案了可能的重复将 include 包装在命名空间块中是个好主意吗 https stackoverflow com questions 6670738 is it a good idea to wrap an inc
如何使用 roxygen 包从 dplyr 导入管道运算符 %>%

我想用我编写的一些函数构建一个包现在我的问题是我无法将管道运算符 gt 与 dplyr 一起使用我用 roxygen2 创建包如果我编写没有 gt 的 dplyr 命令则一切正常代码里面 import dplyr readr m
如何传递函数参数的值并运行独立的 Google Apps 脚本？

从文档来看 https developers google com apps script guides standalone https developers google com apps script guides standalon
如何在 vim 中进行语法检查？

这个问题已经以这样或那样的形式被问过十几次了这让我大吃一惊为什么没有一个人真正解决如何配置合成的 http www vim org scripts script php script id 2736 or jslint http www
jsf 表达式语言中的 null 检查

请参阅此表达语言 styleClass obj validationErrorMap eq null obj validationErrorMap contains key highlight field highlight row 即使地
如何使用 Cognito Id（+配置）调用 AWS API Gateway 端点？

我想打电话给AWS API Gateway Endpoint受保护的是AWS IAM使用generated JavaScript API SDK 我有一个Cognito UserPool and a Cognito Identity Poo
CSS 问题 - 边距顶部 - Google Chrome [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions On my
Android 应用程序在向下滚动 ListView 后崩溃

我有一个 listView 当我没有太多项目时一切都工作正常当我向下滚动时项目列表很长时它会在某个点崩溃这是我的适配器代码 public class SearchListViewAdapter extends BaseAdapter
DotNetZip：将文件添加到动态创建的存档目录

我无法想象这很难做到但我还没能让它发挥作用我有一个文件类它只存储我想要压缩的文件的位置目录和名称我要压缩的文件存在于磁盘上因此 FileLocation 是完整路径磁盘上不存在 ZipFileDirectory 如果我的文件列
如何创建允许语法错误的 AST 解析器？

首先关于解析和构建 AST 需要阅读哪些内容如何为将构建 AST 并允许语法错误的语言如 SQL 创建解析器例如对于 3 4 5 3 4 5 对于有语法错误的 3 4 解析器会猜测用户的意思是 3 4 从哪儿开始 SQL SELE
如何在“

使用 DOMDocument 进行网络抓取

使用 DOMDocument 进行网络抓取 的相关文章

随机推荐

使用 DOMDocument 进行网络抓取的相关文章