有已知网络爬虫的列表吗？ [关闭]

2024-04-14

我正在尝试获取网络服务器上某些文件的准确下载数量。我查看了用户代理，其中一些显然是机器人或网络爬虫，但对于许多人来说，我不确定，它们可能是也可能不是网络爬虫，并且它们导致了许多下载，因此对我来说了解这一点很重要。

是否有已知网络爬虫的列表以及一些文档，例如用户代理、IP、行为等？

我对官方的不感兴趣，比如谷歌、雅虎或微软的。这些人通常表现良好并且自我认同。

我在用着http://www.user-agents.org/ http://www.user-agents.org/通常作为参考，希望对您有所帮助。

你也可以尝试http://www.robotstxt.org/db.html http://www.robotstxt.org/db.html or http://www.botsvsbrowsers.com http://www.botsvsbrowsers.com.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

list

Documentation

webcrawler

bots

有已知网络爬虫的列表吗？ [关闭] 的相关文章

python统计前10名

使用Python 2 6 我有很大的文本文件以下是前 3 个条目但我需要检查超过 50 个用户 html log jeff 1153 3 1 84 625 54 1 2 71 3 2 10 7 58 499 3 5 616 36 241
Python列表切片效率

在下面的代码中 def listSum alist Get sum of numbers in a list recursively sum 0 if len alist 1 return alist 0 else return alist
确定非空列表条目是否“连续”的 Pythonic 方法

我正在寻找一种方法来轻松确定列表中所有非 None 项目是否出现在单个连续切片中我将使用整数作为非 None 项目的示例例如列表 None None 1 2 3 None None 满足我对连续整数条目的要求相比之下 1 2 Non
如何在 Flutter 中创建网络图像列表

我使用 Carousel Pro 包在屏幕上实现轮播在这个 Carousel 类中它需要一个图像列表 Carousel 类的语法是 Carousel images NetworkImage https cdn images 1 mediu
Facebook 爬虫严重攻击我的服务器并忽略指令。多次访问相同资源

Facebook 爬虫每秒多次访问我的服务器它似乎忽略了 Expires 标头和 og ttl 属性在某些情况下它会在 1 5 分钟内多次访问同一 og image 资源在一个示例中爬虫程序在 3 分钟内使用 12 个不同的 IP
如何访问对列表中对的每个元素？

我有一个名为对的列表 pairs a 1 b 2 c 3 我可以通过以下方式访问元素 for x in pairs print x 其输出如下 a 1 b 2 c 3 但我想访问每对中的每个元素就像在 c 中一样如果我们使用pair
在 Python 中使用列表理解来执行类似于 zip() 的操作？

我是一名 Python 新手我想做的事情之一就是围绕列表理解进行思考我可以看到这是一个非常强大的功能值得学习 cities Chicago Detroit Atlanta airports ORD DTW ATL print zip
Pandas DataFrame 中多列的映射方法

我有一个 Pandas 数据框其中的值是列表 import pandas as pd DF pd DataFrame X 1 5 1 2 Y 1 2 5 1 3 5 DF X Y 0 1 5 1 2 5 1 1 2 1 3 5 我想检查
根据多个值过滤字典列表

我有一个字典列表我想根据多个条件进行过滤该列表的简化版本如下所示 orders name v price 123 location Mars name x price 223 location Mars name x price 124
Android 动态添加联系表单

Hi 我想实现如图所示的表单不知道他们如何动态添加字段这是列表视图吗可扩展列表用户可以在运行时添加和删除我已经检查了包含子项目的可扩展列表但我们在数组中定义子元素在图像中它们动态添加任何指南链接 Thanks Custom
列表列中的设置操作

我正在尝试做集合运算在存储在列表列中的向量之间例如this https stackoverflow com questions 38712196 text file to dataframe with a list column DT l
如何从字典列表中查找键的值？

如何从字典列表中获取给定键的值 mylist powerpoint color blue client name Sport Parents Regrouped sort order ascending chart layout 1 cha
从 Wikipedia XML 转储获取静态 HTML 文件

我希望能够从巨大的即使是压缩的英语维基百科 XML 转储文件中获取相对最新的静态 HTML 文件enwiki 最新 pages articles xml bz2 http download wikimedia org enwiki la
Java：如何实现3和？

我正在研究 3 Sum 来自己实现它并遇到了以下规则的实现给定一个由 n 个整数组成的数组 S S 中是否存在满足 a b c 0 的元素 a b c 查找数组中所有总和为零的唯一三元组注意三元组 a b c 中的元素必须按非降序排
通过 id 从通用列表中删除对象

我有一个像这样的域类 public class DomainClass public virtual string name get set public virtual IList
Python选择列表中最长字符串的最有效方法？

我有一个可变长度的列表并且正在尝试找到一种方法来测试当前正在评估的列表项是否是列表中包含的最长字符串我正在使用Python 2 6 1 例如 mylist abc abcdef abcd for each in mylist if co
Java 阻止列表实现

我在 SO 和 Google 上搜索了这个问题的答案但到目前为止找不到合适的解决方案我目前正在研究图形路由问题中的 LayerManager 管理器负责提供和重置一组固定的层我想使用阻止列表来实现消费者生产者模式以便只要没有可用的
省略号列表[...]并将列表连接到自身[重复]

这个问题在这里已经有答案了 EDIT 我在最初的例子中很粗心当我添加列表时不会发生该行为A本身而是当我添加一个列表时含有 list A to A本身请参阅下面更正的示例我试图理解省略号如何列出那些显示为当你有一个列表引用本身时发
根据 Mathematica 中的另一个列表值拆分列表

在 Mathematica 中我有一个点坐标列表 size 50 points Table RandomInteger 0 size RandomInteger 0 size i 1 n 以及这些点所属的聚类索引列表 clusterIndi
使用 sapply 的列表和矩阵

我有一个也许是基本的问题我在网上搜索过我在读取文件时遇到问题尽管如此我还是按照 Konrad的建议设法读取了我的文件我很欣赏这一点 How to get R to read in files from multiple subdi

随机推荐

如何配置 Android sdkmanager 命令行工具以使用自定义存储库？

是否可以配置 Google 的 Android sdkmanager 通过自定义存储库而不是下载依赖项dl google com android repository 背景我正在公司防火墙后面设置 Android 构建代理无法直接访问
Python：导入模块

假设我有一个 python 模型fibo py定义如下 Fibonacci numbers module print This is a statement def fib n a b 0 1 while b lt n print b a
Wix 安装程序 - 根据属性创建文件夹层次结构

我在用Wix 3 6 http wixtoolset org 创建一个设置我仍在不断学习那里的信息仍然分散我正在等待我的 Wix 开发人员指南书到达我目前有一个自定义 UI 对话框用户可以在其中输入一些应用程序配置该配置的一部分
创建 IIS 网站的代码

我需要以编程方式创建一个 IIS 网站有人可以告诉我执行此操作的代码吗请不要使用 WMI DirectoryEntry 如果可能的话当目标是 IIS 7 或更高版本时有一个API叫做ServerManager http msdn m
为什么创建文件夹后不存在？

这似乎没有意义所以我显然做错了什么 DirectoryInfo folder new DirectoryInfo Environment CurrentDirectory Test if folder Exists false folde
当用户向下滚动时显示内容

您好请检查此网站您会看到向下滚动时会自动加载下一个内容 http wallbase net search http wallbase net search 我用谷歌搜索过但找不到它的名字有例子教程吗您可以使用无限滚动 jQuery
添加 NOT LIKE 条件后查询返回的结果太少

我的 Access 2010 数据库在我稍微更改用户请求的查询时表现得很奇怪我有一个非常大的表不要问查询在其上运行然后提供给用户输入表单不管怎样今天一种特殊的形式开始返回的结果比我们预期的要少得多它通常会返回大约 1200
NSURLSession：后台上传然后调用服务api

我试图使用新的 ios7 后台传输 api 将一些照片上传到服务器现在发生的是 1 我们将字节上传到s3 2 调用服务api来完成上传我查看了这个文档似乎背景 NSURLSession 不支持数据任务这是否意味着实际上传完成
WCF：在 IErrorHandler 中提供通用的FaultException

一些上下文我们有一个自定义 XSD 并使用 WSCF blue 生成 WSDL 和 C 代码客户端使用ChannelFactory
Redux Connect w/ HOC - TypeError：无法设置未定义的属性“props”

我正在 Next js 中构建快速身份验证高阶组件但在使用以下代码时遇到了一些问题 import SignIn from components sign in import connect from react redux import
iOS - 架构 i386 的 3 个重复符号

我在理解链接器命令错误时遇到问题我收到以下信息 duplicate symbol OBJC IVAR XYZAddToDoItemViewController toDoItem in Users Library Developer Xco
WindowFromPhysicalPoint 和 WindowFromPoint 之间有什么区别？

WindowFromPhysicalPoint http msdn microsoft com en us library aa969270 aspx是 Vista 中的新功能它的文档几乎与WindowFromPoint http msd
如何获取请求Referer路径？

我需要引用者的路径我不想要域名例如如果引用者是http www google com adsense I want adsense request referer返回一个字符串但您可以使用Ruby 的 URI 模块 http www
Three.js 通过加载模型上的材质名称为材质添加边框

是否可以在材料周围添加边框如图所示我可以通过以下代码设置材质颜色 object traverse function child if child instanceof THREE Mesh child material color se
OCUnit 测试在未测试的类中给出错误

我编写了一个 OCUnit 测试在 Xcode 3 2 中运行良好现在在 Xcode 4 中遇到问题它测试单个静态函数X在班上A 它不调用任何类或函数库函数之外唯一需要调用的其他代码是静态构造函数它初始化两个静态变量但同样这
init的目的是什么！初始化器失败？

Apple Swift 编程语言指南提到了 init 的存在初始化程序但没有提供任何示例搜索初始化在此页面中 https developer apple com library ios documentation swift con
如何保持 Google App Engine 的运行实例

谷歌应用程序引擎和开发人员控制台似乎又发生了变化我不知道如何保持谷歌应用程序引擎的实例运行即使该网站是偶像应用程序引擎设置下曾经有一个滑块但现在已经不存在了我认为在 Google Speak 中我有动态实例并且我需要一个常驻实例
如何使用 Django 发布和检索 blob

我有一个blob 这是我使用调整大小的图像
如何在 R 中并排显示列表 - 列表的“cbind”？

我希望利用我的屏幕空间并排查看几个简单的列表我并不是想把它们结合起来 a lacbind 但我不介意是否创建一个新的中间结构当然要意识到一个列表可能有许多不同类型的对象尽管我几乎保证我的列表具有相同的结构如果有必要让事情正常工作
有已知网络爬虫的列表吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试获取网络服务器上某些文件的准确下载数量我查看了用户代理其中一些显然是机器人或网络爬虫但

有已知网络爬虫的列表吗？ [关闭]

有已知网络爬虫的列表吗？ [关闭] 的相关文章

随机推荐

热门标签