我如何从万维网中的任何网页的 JAVA 页面的“页脚”部分检索“联系我们”链接。
例如。查找页脚元素,或 id="footer" 或具有页脚类的元素?
我曾尝试使用 JSOUP 从网页检索所有链接,然后运行正则表达式.*contact.*
在里面。但我不能 100% 确定通过这种方法获取的链接是网站的联系我们页面。
Q2
是否有任何其他可靠的方法,或者我是否可以使用页脚链接和我已经完成的方法来断定页面是否肯定是联系我们页面?
但我不能 100% 确定获取的链接......
简答
你永远无法确定。
长答案
对于给定的随机 HTML 页面,您想要找到“联系我们”链接。这种工作对于人类来说是微不足道的。这对计算机来说是一个巨大的挑战。
我可以在你的情况下看到一些选择:
选项1:众包
- 获取您想要“联系我们”信息的所有网站网址
- 将它们发送到众包服务平台,要求真人为您查找信息(Rapidworkers.com、Crowdsource.com、Clickworker.com、Amazon Mechanical Turk、microworkers.com)
检查平台是否提供API。
+ work done by human
+ dynamically adapt to unknown pattern
- cost money
- We suck at repetitive tasks
选项2:IS(模式搜索)
看一下Weka例如或Java-ML.
+ Automated task
+ Can perform a repetitive task long time
- May take time to built a robust solution
- Risk of false positive or complete miss
选项 3:使用Jsoup
- 仔细研究您的目标网站的模式
- 告诉 Jsoup 查找您检测到的模式
这个选项是一个永无止境的任务。您必须始终为 Jsoup 提供新模式。我建议您建立一个监控系统,告诉您网站何时逃脱任何已知模式。
+ Automated task
+ Can perform a repetitive task long time
- Take time for studying, discovering, adding new patterns
- Risk of false positive or complete miss
选项 4:上述三个选项的混合
您可以在您的目标网站上使用这三个选项。
+ Reduce chances of false positive or complete misses
+ More confident final result
- Take time for studying, discovering, adding new patterns
- Cost money
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)