我正在考虑制作一个网络爬虫/蜘蛛,但我需要有人为我指明正确的方向才能开始。
基本上,我的蜘蛛将搜索音频文件并为其建立索引。
我只是想知道是否有人对我应该如何做有任何想法。我听说用 PHP 完成它会非常慢。我知道 vb.net 那么这能派上用场吗?
我正在考虑使用 Google 的文件类型搜索来获取要抓取的链接。这样可以吗?
在 VB.NET 中,您需要首先获取 HTML,因此请使用 WebClient 类或 HttpWebRequest 和 HttpWebResponse 类。互联网上有很多关于如何使用这些的信息。
然后你需要解析 HTML。我建议为此使用正则表达式。
您使用 Google 进行文件类型搜索的想法是一个很好的想法。几年前,我做了类似的事情来收集 PDF 来测试 SharePoint 中的 PDF 索引,效果非常好。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)