所以我刚刚创建了一个为我执行页面抓取的应用程序,并运行它。效果很好。我想知道是否有人能够弄清楚代码正在被页面抓取,无论他们是否为此目的编写了代码?
我用java编写了代码,它几乎只是检查一行html代码。
我想在向该程序添加更多代码之前我应该对此有所了解。我的意思是它很有用,但它几乎就像一个黑客。
看起来最坏的情况是因为这个页面抓取工具并不算太糟糕,因为我稍后可以使用另一个设备,并且 IP 会有所不同。而且一个月后可能就不重要了。无论如何,该网站目前似乎获得了相当多的网络流量。编辑该页面的人现在可能已经睡着了,此时它实际上还没有完成任何事情,因此这可能会被忽视。
感谢您如此快速的回复。我认为这可能被忽视了。我所做的只是复制标题,所以只是文本。我想这可能类似于浏览器复制粘贴的工作原理。该页面今天早上刚刚编辑,包括我想要获取的文本。如果他们确实注意到了什么,他们也没有宣布,所以一切都很好。
这是一个黑客行为。 :)
无法以编程方式确定页面是否被抓取。但是,如果您的抓取工具变得流行或者您使用过多,则很有可能通过统计方式检测到抓取行为。如果您看到一个 IP 每天在同一时间抓取同一页面或多个页面,您就可以做出有根据的猜测。如果您在另一个计时器上看到请求,则相同。
如果可以的话,您应该尝试遵守 robots.txt 文件,并限制自己的速率,以保持礼貌。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)