在 C# 中实现动态 Web Scraper 的逻辑

2024-04-12

我希望在 C# 窗口窗体中开发一个 Web scraper。我想要完成的任务如下:

  1. 从用户处获取 URL。
  2. 在WINForms中的IE UI控件(嵌入式浏览器)中加载网页。
  3. 允许用户选择文本(连续、小(不超过 50 个字符))。从加载的网页。
  4. 当用户希望保留位置时(HTML DOM 位置)它必须被持久化到数据库中,以便用户在后续访问期间可以使用该位置来获取该位置中的数据。

假设加载的网站是一个价目表网站,并且报价不断变化,我们的想法是保留 DOM 层次结构,以便我下次可以遍历它。

如果所有 HTML 元素都有其 id 属性,我就能够做到这一点。在 id 为 null 的情况下,我无法完成此操作。

有人可以就此提出一个有效的想法(如果可能的话,提供最低限度的代码片段)。?

即使您可以分享一些在线资源,这也会很有帮助。

thanks,

vijay


一种方法是构建一堆标签/样式/id 直至您要选择的元素。

从你想要的元素开始,向上遍历到最近的id元素。这样您将摆脱大部分顶部标题等。然后构建一个要查找的序列。

Example:

<html>
  <body>
    <!-- lots of html -->
    <div id="main">
       <div>
          <span>
             <div class="pricearea">
                <table> <!-- with price data -->

对于 example,您将在数据库中存储以下序列:[id=main],div,span,div,表格也许div[类=价格区域],表.

使用样式/类也可以用于创建您的路径。您可以选择查找标签、标签的属性或组合。您希望它尽可能准确,元素尽可能少,以使其稳健。

如果布局很少更改,这将使您每次导航到同一位置。

我还建议你也许使用HTML 敏捷包 http://www.codeplex.com/htmlagilitypack或者类似的 DOM 解析,因为 IE 控制很慢。

屏幕抓取很有趣,但很难 100% 覆盖所有页面。祝你好运!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 C# 中实现动态 Web Scraper 的逻辑 的相关文章

随机推荐

  • 通过将函数应用于数据框的每一行来创建具有命名值的列表

    我试图通过将函数应用于数据帧的每一行来获取每个元素都有名称的列表 但无法获得正确的输出 假设这是我想要应用于每一行的函数 format setup name lt function m v s a lt list a paste m mac
  • 如何使用 TensorFlow 加载稀疏数据?

    有一个关于加载稀疏数据的小片段 但我不知道如何使用它 SparseTensors 不能很好地处理队列 如果您使用 SparseTensors 则必须在批处理后使用 tf parse example 解码字符串记录 而不是在批处理之前使用 t
  • Ruby 中的每个自动计数器?

    我想使用 for each 和计数器 i 0 for blah in blahs puts i to s blah i 1 end 有更好的方法吗 Note 我不知道是否blahs是一个数组或一个散列 但必须这样做blahs i 不会让它变
  • 如何让eclipse记住ssh密钥密码?

    我将 Egit 与 Eclipse 结合使用来使用 git 并访问 github 一切工作正常 但我想省略一件事id rsa每次我将提交推送到 github 时都需要输入密钥密码 每次重新启动 Eclipse 并尝试推送时 都会要求我输入密
  • 对齐CSS中旋转的元素

    我尝试旋转页面上的 div 并将其靠在其父元素 在本例中为主体 的左侧 我了解变换原点 但无论我插入什么值 它都无法正确对齐 http jsfiddle net QpHCM http jsfiddle net QpHCM HTML div
  • JSDOC:如何记录函数的内部变量

    有没有办法让 JSDOC 显示函数内部的变量而不使用 命名空间函数前面的注释 我做了一个小测试对象 但它只会显示内部变量k对于最后一个函数 它被声明为命名空间 我想使用 成员 注释和精确 name注释将在下面调用的第二个方法中显示内部变量d
  • 链接网页、Facebook Like 按钮和 Facebook 粉丝页面?

    这可能吗 当有人点击 Facebook Like 按钮时 他 她会与 Facebook 上的朋友分享网页 URL 通过同样的点击 用户也成为该网站 Facebook 粉丝页面的粉丝 Thanks 虽然可以在您的网站上添加喜欢按钮来喜欢您的
  • 在 postgresql 中编写我自己的聚合函数

    我从来没有写过自己的聚合 只写过存储过程 我需要一些建议 我想编写一个自定义聚合 它将返回整数行的最大值并将其增加 10 我该怎么做 我试过这个 CREATE AGGREGATE incremented max v SFUNC max ST
  • 扩展 C# 语言?

    基本上我想知道的是是否有任何方法可以向基于 net 的语言添加新的 语句 我正在寻找的一个例子是类似介绍public class MyClass decoratorOf ClassWithLotsOfMethods并在预编译时将其更改为普通
  • removeAttribute() 不适用于 DOM

    为什么不removeAttribute 删除以下代码中的任何内容 div Element with style div br br
  • Git克隆无法创建文件

    尝试克隆远程 git 存储库 裸 时 我收到如下几个错误 之后 git 停止 error unable to create file frozen email lamson mymailserver run queue mark name
  • Lasso 和 RobustScaler 之后如何对回归预测进行逆变换?

    我试图弄清楚如何在使用 RobustScalar 和 Lasso 后取消缩放数据 大概使用 inverse transform 进行预测 下面的数据只是一个例子 我的实际数据更大 更复杂 但我希望使用 RobustScaler 因为我的数据
  • React router v4 - 在同一路由上渲染两个组件

    我有这些路线
  • 带有一个图标的 ShareActionProvider - 看起来就像一个简单的操作项

    我要显示ShareActionProvider on ActionBar 但具有自定义外观和感觉 只有一个简单的共享图标 没有边框 右侧没有最常用的应用程序图标 但提供弹出菜单与最常用的应用程序 有没有一种简单的方法可以做到这一点而无需实现
  • islice 一次读取 N 行的问题

    我正在尝试使用 from itertools import islice 以便使用 liblas 模块一次从 las 文件中读取多行 我的目标是逐块阅读 按照问题 Python如何一次读取N行 https stackoverflow com
  • 如何旋转 SCNBox

    我正在尝试旋转SCNBox我创建使用swipe gestures 例如 当我向右滑动时 该框应旋转 90 度Y axis当我向左滑动时为 90degs 为了实现这一点 我一直在使用节点的SCNAction rotateByX方法来执行旋转动
  • Java中如何预加载类? [复制]

    这个问题在这里已经有答案了 在我的 Swing 界面中首次打开新的 JInternalFrame 需要一些时间 根据探查器 大部分时间都花在 Classloader loadClass 方法上 据我所知 它会在需要时动态加载类 并且实际上
  • 如何创建播放列表

    我正在尝试创建一个仅提供编辑文本和图像按钮的应用程序 如果单击按钮 则会将专辑添加到播放列表中 并在编辑文本框中命名 专辑应随机选择 不用说 专辑曲目应该按正确的顺序排列 我可以稍后添加更多功能 例如 保存 覆盖 删除等 我有界面 但正在努
  • Magento 1.9 注册后重定向客户

    我想在 Magento 1 9 中成功注册后将所有客户重定向到自定义页面 我已经尝试了很多事情 首先 我成功地覆盖了核心客户帐户控制器 我尝试自定义以下操作 创建后动作 successProcessRegistration welcome客
  • 在 C# 中实现动态 Web Scraper 的逻辑

    我希望在 C 窗口窗体中开发一个 Web scraper 我想要完成的任务如下 从用户处获取 URL 在WINForms中的IE UI控件 嵌入式浏览器 中加载网页 允许用户选择文本 连续 小 不超过 50 个字符 从加载的网页 当用户希望