使用 JSOUP 从网页检索有用信息

2023-12-12

我如何从万维网中的任何网页的 JAVA 页面的“页脚”部分检索“联系我们”链接。

例如。查找页脚元素，或 id="footer" 或具有页脚类的元素？

我曾尝试使用 JSOUP 从网页检索所有链接，然后运行正则表达式.*contact.*在里面。但我不能 100% 确定通过这种方法获取的链接是网站的联系我们页面。

是否有任何其他可靠的方法，或者我是否可以使用页脚链接和我已经完成的方法来断定页面是否肯定是联系我们页面？

但我不能 100% 确定获取的链接......

简答

你永远无法确定。

长答案

对于给定的随机 HTML 页面，您想要找到“联系我们”链接。这种工作对于人类来说是微不足道的。这对计算机来说是一个巨大的挑战。

我可以在你的情况下看到一些选择：

选项1：众包

获取您想要“联系我们”信息的所有网站网址
将它们发送到众包服务平台，要求真人为您查找信息（Rapidworkers.com、Crowdsource.com、Clickworker.com、Amazon Mechanical Turk、microworkers.com）

检查平台是否提供API。

+ work done by human
+ dynamically adapt to unknown pattern
- cost money
- We suck at repetitive tasks

选项2：IS（模式搜索）

训练 IA 来提取信息
然后通过你的网站

看一下Weka例如或Java-ML.

+ Automated task
+ Can perform a repetitive task long time
- May take time to built a robust solution
- Risk of false positive or complete miss

选项 3：使用Jsoup

仔细研究您的目标网站的模式
告诉 Jsoup 查找您检测到的模式

这个选项是一个永无止境的任务。您必须始终为 Jsoup 提供新模式。我建议您建立一个监控系统，告诉您网站何时逃脱任何已知模式。

+ Automated task
+ Can perform a repetitive task long time
- Take time for studying, discovering, adding new patterns
- Risk of false positive or complete miss

选项 4：上述三个选项的混合

您可以在您的目标网站上使用这三个选项。

+ Reduce chances of false positive or complete misses
+ More confident final result
- Take time for studying, discovering, adding new patterns
- Cost money

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

html

Jsoup

使用 JSOUP 从网页检索有用信息的相关文章

Bootstrap 响应式表格在 iOS 设备上无法垂直滚动

这就是我所拥有的 div class table responsive table class table style background transparent table div 我正在使用以下 bootstrap css 文件 ht
垂直 ViewPager 中的动画

我需要垂直制作这个动画ViewPager https www youtube com watch v wuE 4jjnp3g https www youtube com watch v wuE 4jjnp3g 这是我到目前为止所尝试的 vi
Apache Thrift Java-Javascript 通信

我正在编写一个基于 Apache Thrift 的 Java 服务器它将从 Javascript 客户端接收数据我已经完成了 Java 服务器但问题是我可以获得 Javascript 客户端的工作示例我无法找到一个好的示例构建文档
H2数据库：如何进行加密保护，而不暴露文件加密密钥

我们在服务器模式下使用Java H2数据库因为我们不希望用户访问数据库文件为了对数据库文件添加更多保护我们计划使用 AES 加密将 CIPHER AES 添加到数据库 URL 以防存储被盗但是每个用户在连接时还需要提供文件保护密
获取Android库中的上下文

我正在编写一个 Android 应用程序它的一些功能封装在内部库中但是要使此功能发挥作用库需要一个应用程序上下文的实例为图书馆提供这种上下文的最佳方式是什么我看到了一些选择但没有一个有吸引力 Have my library c
使用全局变量从内部函数获取空字符串

请帮助我解决一些小问题我确信你能做到 D 我试图在 firestore 文档 user cases information 上设置一个字段其中包含一个字段 case number 首先我声明这个全局变量 private String c
使用 Jena 查询维基数据

目前 Wikidata 有一个 SPARQL 端点 https query wikidata org https query wikidata org 我想使用 Jena 3 0 1 查询此网站我使用以下代码但收到错误消息端点返回的
在拇指上方显示修改后的 JSlider 值

有没有一种简单的方法可以在使用某些外观和感觉的同时更改 JSlider 上方标签中显示的值为了清楚起见我正在谈论这个值具体来说我想显示除以 1000 的值而不是值本身我知道如果我显示它们我可以为刻度设置标签但用户将不得不猜
避免 @Secured 注释的重复值

我正在尝试使用以下方法来保护我的服务方法 Secured如下 public interface IUserService Secured ROLE ROLE1 ROLE ROLE2 ResponseEntity saveUser Creat
Time.valueOf 方法返回错误值

我使用 Time valueOf 方法将字符串 09 00 00 转换为 Time 对象如下所示 Time valueOf LocalTime parse 09 00 00 当我调用 getTime 来显示我得到的值时 28800000
Java HashSet 是线程安全的只读吗？

如果我通过 Collections unmodifyingSet 运行 HashSet 实例后它是线程安全的吗我问这个是因为 Set 文档声明它不是但我只是执行读取操作来自 Javadoc 请注意此实现不是同步的如果多个线程同时
HTML5 文件 API 和 AJAX 上传分块问题

我编写了一个带有单独进度的拖放多个文件上传等除了一件事之外它工作得非常好上传较大文件时有时浏览器会锁定直到上传完成我认为这是因为该文件存储在浏览器的内存中并占用了浏览器可用的所有资源我想知道是否可以逐段读取文件并在读取时通过
从字节数组设置 img src

我需要设置img src我在对象中拥有的字节数组的属性 img
开发者环境-如何调用/消费其他微服务

背景我的环境 Java Play2 MySql 我在 Play2 gt S1 S2 S3 上编写了 3 个无状态 Restful 微服务 S1 消耗来自 S2 和 S3 的数据因此当用户点击 S1 时该服务会异步调用 S2 S3 合
使用flex-basis控制行上显示的项目数

我想在使用 Flex 时将元素推出以隐藏它们例如如果flex basis为 50 仅显示两个项目弯曲到给定空间而其他元素则在overflow hidden 领土 Or if flex basis为 25 则仅显示 4 个 Flex 元
使用 Java 8 Spring 4 + MyBatis 集成问题

使用 Java 8 1 8 0 60 Spring 4 2 1 和 MyBatis 3 3 0 时遇到以下异常 Sep 29 2015 11 02 58 AM org springframework context annotation A
我应该创建一个块还是一个元素 BEM CSS？

Bem官网说创建一个块如果一段代码可以被重用并且它不依赖于正在实现的其他页面组件创建一个元素如果一段代码在没有父实体块的情况下无法单独使用我有一个关于部分块它的元素依赖于父级并且不能在网站中重复使用如何根据 bem 这段代
Firebase：用户注册后如何进行电话号码验证？

所以我知道我可以使用电子邮件验证或电话号码验证但我想做的是在用户注册或登录后进行电话号码验证如何连接这两种身份验证方法最后 Firebase中是否有一个函数可以检查用户是否通过电话号码验证谢谢即使用户已通过身份验证您仍然可以使用
我怎样才能限定我不“拥有”的自动装配设置器

要点是 Spring Batch v2 测试框架具有JobLauncherTestUtils setJob与 Autowired注解我们的测试套件有多个Job类提供者由于这个类不是我可以修改的东西我不确定如何限定它自动连接的作业每个
Android ClassNotFoundException：在路径上找不到类

10 22 15 29 40 897 E AndroidRuntime 2561 FATAL EXCEPTION main 10 22 15 29 40 897 E AndroidRuntime 2561 java lang Runtime

随机推荐

在 Haskell 中如何轮询文件、套接字或句柄以使其可读/可写？

我如何从 Haskell 观看多个文件套接字并等待它们变得可读可写 Haskell 中有类似 select epoll 的东西吗或者我被迫为每个文件套接字生成一个线程并始终使用该线程内的阻塞资源这个问题是错误的你不是force
如何从字符串中去除特定标签和特定属性？

事情是这样的我正在做一个项目来帮助人们教授 HTML 我自然是害怕史蒂夫那个渣男见图1 所以我想阻止ALLHTML 标签 except那些在非常具体的情况下批准的白名单在那些已批准的 HTML 标签中我想删除有害的属性以及例如on
为什么 Spring MVC 报告“找不到类型的返回值的转换器：class org.json.JSONObject”？

我想返回一个由两个字符串组成的 JSON 但不知道如何实现它这是我的代码 PostMapping public ResponseEntity lt gt createUser RequestBody User user JSONObjec
避免返回所有实体的学说

使用Symfony2 doctrine2 当我们使用find 函数根据选择的实体获取特定对象如果存在关系时如OneToMany Doctrine返回所有其他对象例如 em this gt get doctrine orm entit
IOS 自动布局更改旋转位置

我想将一个容器发送到另一个容器的下方纵向发送横向发送并排仅使用自动布局可以吗我知道我可以通过编程来做到这一点只是想知道是否可以从布局中做到这一点像这样 Well didRotateFromInterfaceOrientation
如果 popstate 事件来自 HTML5 Pushstate 的后退或前进操作，如何检索？

我正在开发一个网页根据下一个或后一个操作我执行相应的动画使用推送状态时会出现问题当我收到事件时我如何知道用户是否使用 Pushstate API 单击后退或前进历史记录按钮或者我是否必须自己实现某些内容您必须自己实现它这很容易
C# WriteFile()，无法写入USB HID设备

我对 C 和 Windows 编程相当陌生我正在尝试在 USB HID 设备之间建立通信我使用 SetupDiGetDevicexxxxxx 成功获取设备路径并使用 CreateFile 获取句柄下面是我的代码 public con
使用map()时出现意外的逗号

我有一个包含元素列表的数组我尝试使用模板字符串将此列表附加到 HTML 元素 var description HTML CSS Javascript object oriented programming Progressive Web
如何用Spark高效读取多个小parquet文件？有CombineParquetInputFormat吗？

Spark 生成了多个小 parquet 文件如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件恕我直言最直接的方法是在写入 parquet 文件之前使用重新分区合并除非数据倾斜并且您想要创建相同大小的输出
std::vector 的对齐问题

我终于遇到了这里描述的烦人的问题 https eigen tuxfamily org dox group TopicStlContainers html 我有一个包含多个特征固定大小矩阵的结构并且我想将结构的多个实例存储在 std vec
Java内存模型-有人能解释一下吗？

多年来我一直试图理解part处理内存模型和并发性的 Java 规范我不得不承认我失败得很惨是的我了解锁同步 wait 和 notification 我可以很好地使用它们谢谢我什至对不稳定的作用有一个模糊的概念但所有这些都
有没有一种方法可以在MySQL中动态执行代码，类似于Oracle中的“立即执行”？

Like EXECUTE IMMEDIATE在Oracle中有什么方法可以在MySQL存储过程中动态执行代码吗我真的很想在 MySQL 存储过程中使用准备好的语句以便在循环的每次迭代中生成新的 SQL 语句 MariaDB 支持立即执
Rails - 使用 Ajax 和 :remote => true 更新 div

我已经关注了这个铁路广播公司通过 Ajax 提交表单并更新 div 而不重新加载页面但我在处理其中一部分时遇到了问题瑞安有 products html in an index js erb文件来更新 productsdiv 提交表单时
如何在Java项目中使用NavigationExtensions.kt？

我正在尝试在新项目中使用 BottomNavigation 实现 NavController 这是我的第一次尝试到处都有很多关于此的模糊信息所以我的问题涉及每个底部选项卡都有自己的后堆栈并在底部导航点击之间保留片段是的我看过http
为什么一个简单的Python生产者/消费者多线程程序不能通过增加worker数量来加速？

下面的代码与 python 官方队列示例几乎相同http docs python org 2 library queue html from Queue import Queue from threading import Thread f
用特定值填充向量（SSE2）的最快方法。模板友好

我有这个模板类 template
寻找更简洁的正则表达式解决方案来匹配 SSN 的不同格式

要查看我想要的内容请查看我正在使用的正则表达式我会尝试用英语解释它我要匹配4444 or 444444444 or 444 44 4444 这就是我所拥有的它可以满足我的需求 0 9 9 0 9 4 0 9 3 0 9 2 0 9
TCP 套接字上的 Ascii

任何人都可以给我一个通过 TCP 发送 Ascii 消息的示例在网上找不到示例 thanks ray 这是一个例子写入和读取回显服务器简化摘录 Socket echoSocket null PrintWriter out null Bu
如何在 freopen("out.txt", "a", stdout) 之后将输出重定向回屏幕

include
使用 JSOUP 从网页检索有用信息

我如何从万维网中的任何网页的 JAVA 页面的页脚部分检索联系我们链接例如查找页脚元素或 id footer 或具有页脚类的元素我曾尝试使用 JSOUP 从网页检索所有链接然后运行正则表达式 contact 在里面但我不

使用 JSOUP 从网页检索有用信息

简答

长答案

使用 JSOUP 从网页检索有用信息 的相关文章

随机推荐

热门标签

使用 JSOUP 从网页检索有用信息的相关文章