C# web 和 ftp 爬虫库

2024-01-06

我需要一个库(希望是 C# 语言!),它可以作为网络爬虫来访问 HTTP 文件和 FTP 文件。原则上,我很高兴阅读 HTML,我想将其扩展到 PDF、WORD 等。

我对初学者的开源软件或至少对文档的任何指示感到满意。


Check NCrawler https://github.com/esbencarlsen/NCrawler project

简单且非常高效的多线程网络爬虫,具有用 C# 编写的基于管道的处理。包含 HTML、文本、PDF 和 IFilter 文档处理器和语言检测 (Google)。轻松添加管道步骤来提取、使用和更改信息。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

C# web 和 ftp 爬虫库 的相关文章

随机推荐