在 C# 中实现动态 Web Scraper 的逻辑

2024-04-12

我希望在 C# 窗口窗体中开发一个 Web scraper。我想要完成的任务如下：

从用户处获取 URL。
在WINForms中的IE UI控件（嵌入式浏览器）中加载网页。
允许用户选择文本（连续、小（不超过 50 个字符））。从加载的网页。
当用户希望保留位置时（HTML DOM 位置）它必须被持久化到数据库中，以便用户在后续访问期间可以使用该位置来获取该位置中的数据。

假设加载的网站是一个价目表网站，并且报价不断变化，我们的想法是保留 DOM 层次结构，以便我下次可以遍历它。

如果所有 HTML 元素都有其 id 属性，我就能够做到这一点。在 id 为 null 的情况下，我无法完成此操作。

有人可以就此提出一个有效的想法（如果可能的话，提供最低限度的代码片段）。？

即使您可以分享一些在线资源，这也会很有帮助。

thanks,

vijay

一种方法是构建一堆标签/样式/id 直至您要选择的元素。

从你想要的元素开始，向上遍历到最近的id元素。这样您将摆脱大部分顶部标题等。然后构建一个要查找的序列。

Example:

<html>
  <body>
    <!-- lots of html -->
    <div id="main">
       <div>
          <span>
             <div class="pricearea">
                <table> <!-- with price data -->

对于 example，您将在数据库中存储以下序列：[id=main],div,span,div,表格也许div[类=价格区域],表.

使用样式/类也可以用于创建您的路径。您可以选择查找标签、标签的属性或组合。您希望它尽可能准确，元素尽可能少，以使其稳健。

如果布局很少更改，这将使您每次导航到同一位置。

我还建议你也许使用HTML 敏捷包 http://www.codeplex.com/htmlagilitypack或者类似的 DOM 解析，因为 IE 控制很慢。

屏幕抓取很有趣，但很难 100% 覆盖所有页面。祝你好运！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

DOM

webcrawler

bots

webscraping

在 C# 中实现动态 Web Scraper 的逻辑的相关文章

添加对共享类的多个 WCF 服务的服务引用

我正在尝试将我的 WCF Web 服务拆分为几个服务而不是一个巨大的服务但是 Visual Studio Silverlight 客户端复制了两个服务共享的公共类这是一个简单的例子来说明我的问题在此示例中有两个服务两者都返回类
在 C++ 中分割大文件

我正在尝试编写一个程序该程序接受一个大文件任何类型并将其分成许多较小的块我想我已经有了基本的想法但由于某种原因我无法创建超过 12 kb 的块大小我知道谷歌等上有一些解决方案但我更感兴趣的是了解这个限制的根源是什么然后实际
获取两个字符串之间的公共部分c# [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要的是获取两个单词之间的共同部分并获取差异例子场景1 word1 感言 word2 Test 将返回公共部分Test 不同之
当我单击 C# 中的“取消”按钮时重定向到新页面（Web 部分）

Cancel button tc new TableCell btnCancel new Button btnCancel Text Cancel btnCancel Click new EventHandler btnCanel Clic
Linux TUN/TAP：无法从 TAP 设备读回数据

问题是关于如何正确配置想要使用 Tun Tap 模块的 Linux 主机 My Goal 利用现有的路由软件以下为APP1和APP2 但拦截并修改其发送和接收的所有消息由Mediator完成我的场景 Ubuntu 10 04 Mach
Guid 应包含 32 位数字和 4 个破折号

我有一个包含 createuserwizard 控件的网站创建帐户后验证电子邮件及其验证 URL 将发送到用户的电子邮件地址但是当我进行测试运行时单击电子邮件中的 URL 时会出现以下错误 Guid should contain
获取从属性构造函数内部应用到哪个属性的成员？

我有一个自定义属性在自定义属性的构造函数内我想将属性的属性值设置为属性所应用到的属性的类型是否有某种方式可以访问该属性所应用到的成员从我的属性类内部可以从 NET 4 5 using CallerMemberName Somethi
为什么密码错误会导致“填充无效且无法删除”？

我需要一些简单的字符串加密所以我编写了以下代码有很多灵感来自here http www codeproject com KB security DotNetCrypto aspx create and initialize a cr
如何用 kevent() 替换 select() 以获得更高的性能？

来自Kqueue 维基百科页面 http en wikipedia org wiki Kqueue Kqueue 在内核和用户空间之间提供高效的输入和输出事件管道因此可以修改事件过滤器以及接收待处理事件同时每次主事件循环迭代仅使用对
获取点击的的DOM路径

HTML div class lol a class rightArrow href a div 伪代码 rightArrow click function rightArrowParents this dom dom is the pse
范围和临时初始化列表

我试图将我认为是纯右值的内容传递到范围适配器闭包对象中除非我将名称绑定到初始值设定项列表并使其成为左值否则它不会编译这里发生了什么 include
通过不同 DLL 或 EXE 中的指针或引用访问 STL 对象时发生访问冲突

我在使用旧版 VC6 时遇到以下问题我只是无法切换到现代编译器因为我正在处理遗留代码库 http support microsoft com kb 172396 http support microsoft com kb 172396
“MyClass”的类型初始值设定项引发异常

以下是我的Windows服务代码当我调试代码时我收到错误异常 CSMessageUtility CSDetails 的类型初始值设定项引发异常 using System using System Collections Generic
std::bind 重载解析

下面的代码工作正常 include
如何排列表格中的项目 - MVC3 视图 (Index.cshtml)

我想使用 ASP NET MVC3 显示特定类型食品样本中存在的不同类型维生素的含量如何在我的视图 Index cshtml 中显示它 an example 这些是我的代码 table tr th th foreach var m in
在 C 中复制两个相邻字节的最快方法是什么？

好吧让我们从最明显的解决方案开始 memcpy Ptr const char a b 2 调用库函数的开销相当大编译器有时不会优化它我不会依赖编译器优化但即使 GCC 很聪明如果我将程序移植到带有垃圾编译器的更奇特的平台上我也不
C# 搜索目录中包含字符串的所有文件，然后返回该字符串

使用用户在文本框中输入的内容我想搜索目录中的哪个文件包含该文本然后我想解析出信息但我似乎找不到该字符串或至少返回信息任何帮助将不胜感激我当前的代码 private void btnSearchSerial Click object
Silverlight Datagrid：在对列进行排序时突出显示整个列

我的 Silverlight 应用程序中有一个 DataGrid 我想在对该列进行排序时突出显示整个列它在概念上与上一个问题类似 Silverlight DataGrid 突出显示整列 https stackoverflow com qu
无法使用 Ninject 将依赖项注入到从 Angular 服务调用的 ASP.NET Web API 控制器中

我将 Ninject 与 ASP NET MVC 4 一起使用我正在使用存储库并希望进行构造函数注入以将存储库传递给其中一个控制器这是实现 StatTracker 接口的上下文对象 EntityFramework public cla
热重载时调用方法

我正在使用 Visual Studio 2022 和 C 制作游戏我想知道当您热重新加载应用程序当它正在运行时时是否可以触发一些代码我基本上有 2 个名为 UnloadLevel 和 LoadLevel 的方法我想在热重载时执行它

随机推荐

通过将函数应用于数据框的每一行来创建具有命名值的列表

我试图通过将函数应用于数据帧的每一行来获取每个元素都有名称的列表但无法获得正确的输出假设这是我想要应用于每一行的函数 format setup name lt function m v s a lt list a paste m mac
如何使用 TensorFlow 加载稀疏数据？

有一个关于加载稀疏数据的小片段但我不知道如何使用它 SparseTensors 不能很好地处理队列如果您使用 SparseTensors 则必须在批处理后使用 tf parse example 解码字符串记录而不是在批处理之前使用 t
Ruby 中的每个自动计数器？

我想使用 for each 和计数器 i 0 for blah in blahs puts i to s blah i 1 end 有更好的方法吗 Note 我不知道是否blahs是一个数组或一个散列但必须这样做blahs i 不会让它变
如何让eclipse记住ssh密钥密码？

我将 Egit 与 Eclipse 结合使用来使用 git 并访问 github 一切工作正常但我想省略一件事id rsa每次我将提交推送到 github 时都需要输入密钥密码每次重新启动 Eclipse 并尝试推送时都会要求我输入密
对齐CSS中旋转的元素

我尝试旋转页面上的 div 并将其靠在其父元素在本例中为主体的左侧我了解变换原点但无论我插入什么值它都无法正确对齐 http jsfiddle net QpHCM http jsfiddle net QpHCM HTML div
JSDOC：如何记录函数的内部变量

有没有办法让 JSDOC 显示函数内部的变量而不使用命名空间函数前面的注释我做了一个小测试对象但它只会显示内部变量k对于最后一个函数它被声明为命名空间我想使用成员注释和精确 name注释将在下面调用的第二个方法中显示内部变量d
链接网页、Facebook Like 按钮和 Facebook 粉丝页面？

这可能吗当有人点击 Facebook Like 按钮时他她会与 Facebook 上的朋友分享网页 URL 通过同样的点击用户也成为该网站 Facebook 粉丝页面的粉丝 Thanks 虽然可以在您的网站上添加喜欢按钮来喜欢您的
在 postgresql 中编写我自己的聚合函数

我从来没有写过自己的聚合只写过存储过程我需要一些建议我想编写一个自定义聚合它将返回整数行的最大值并将其增加 10 我该怎么做我试过这个 CREATE AGGREGATE incremented max v SFUNC max ST
扩展 C# 语言？

基本上我想知道的是是否有任何方法可以向基于 net 的语言添加新的语句我正在寻找的一个例子是类似介绍public class MyClass decoratorOf ClassWithLotsOfMethods并在预编译时将其更改为普通
removeAttribute() 不适用于 DOM

为什么不removeAttribute 删除以下代码中的任何内容 div Element with style div br br
Git克隆无法创建文件

尝试克隆远程 git 存储库裸时我收到如下几个错误之后 git 停止 error unable to create file frozen email lamson mymailserver run queue mark name
Lasso 和 RobustScaler 之后如何对回归预测进行逆变换？

我试图弄清楚如何在使用 RobustScalar 和 Lasso 后取消缩放数据大概使用 inverse transform 进行预测下面的数据只是一个例子我的实际数据更大更复杂但我希望使用 RobustScaler 因为我的数据
React router v4 - 在同一路由上渲染两个组件

我有这些路线
带有一个图标的 ShareActionProvider - 看起来就像一个简单的操作项

我要显示ShareActionProvider on ActionBar 但具有自定义外观和感觉只有一个简单的共享图标没有边框右侧没有最常用的应用程序图标但提供弹出菜单与最常用的应用程序有没有一种简单的方法可以做到这一点而无需实现
islice 一次读取 N 行的问题

我正在尝试使用 from itertools import islice 以便使用 liblas 模块一次从 las 文件中读取多行我的目标是逐块阅读按照问题 Python如何一次读取N行 https stackoverflow com
如何旋转 SCNBox

我正在尝试旋转SCNBox我创建使用swipe gestures 例如当我向右滑动时该框应旋转 90 度Y axis当我向左滑动时为 90degs 为了实现这一点我一直在使用节点的SCNAction rotateByX方法来执行旋转动
Java中如何预加载类？ [复制]

这个问题在这里已经有答案了在我的 Swing 界面中首次打开新的 JInternalFrame 需要一些时间根据探查器大部分时间都花在 Classloader loadClass 方法上据我所知它会在需要时动态加载类并且实际上
如何创建播放列表

我正在尝试创建一个仅提供编辑文本和图像按钮的应用程序如果单击按钮则会将专辑添加到播放列表中并在编辑文本框中命名专辑应随机选择不用说专辑曲目应该按正确的顺序排列我可以稍后添加更多功能例如保存覆盖删除等我有界面但正在努
Magento 1.9 注册后重定向客户

我想在 Magento 1 9 中成功注册后将所有客户重定向到自定义页面我已经尝试了很多事情首先我成功地覆盖了核心客户帐户控制器我尝试自定义以下操作创建后动作 successProcessRegistration welcome客
在 C# 中实现动态 Web Scraper 的逻辑

我希望在 C 窗口窗体中开发一个 Web scraper 我想要完成的任务如下从用户处获取 URL 在WINForms中的IE UI控件嵌入式浏览器中加载网页允许用户选择文本连续小不超过 50 个字符从加载的网页当用户希望

在 C# 中实现动态 Web Scraper 的逻辑

在 C# 中实现动态 Web Scraper 的逻辑 的相关文章

随机推荐

热门标签

在 C# 中实现动态 Web Scraper 的逻辑的相关文章