.net 4.0 中并行网络爬虫的最佳实践

2024-01-21

我需要通过代理下载很多页面。构建多线程网络爬虫的最佳实践是什么？

Parallel.For\Foreach 是否足够好，还是对于繁重的 CPU 任务更好？

您对以下代码有何看法？

var multyProxy = new MultyProxy();

   multyProxy.LoadProxyList();


   Task[] taskArray = new Task[1000];

        for(int i = 0; i < taskArray.Length; i++)
        {
            taskArray[i] = new Task( (obj) =>
                {                                                             
                       multyProxy.GetPage((string)obj);
                },

            (object)"http://google.com"
            );
            taskArray[i].Start();
        }


   Task.WaitAll(taskArray);

它的工作很糟糕。速度非常慢，我不知道为什么。

这段代码也运行得很糟糕。

 System.Threading.Tasks.Parallel.For(0,1000, new System.Threading.Tasks.ParallelOptions(){MaxDegreeOfParallelism=30},loop =>
            {
                 multyProxy.GetPage("http://google.com");
            }
            );

好吧，我认为我做错了什么。

当我启动脚本时，它仅使用 2%-4% 的网络。

您基本上将 CPU 绑定线程用于 IO 绑定任务 - 即。即使您正在并行化操作，它们本质上仍然使用了 ThreadPool 线程，该线程主要用于 CPU 密集型操作。

基本上，您需要使用异步模式来下载数据，以将其更改为使用 IO 完成端口 - 如果您使用 WebRequest，则使用 BeginGetResponse() 和 EndGetResponse() 方法

我建议查看反应式扩展来做到这一点，例如：

IEnumerable<string> urls = ... get your urls here...;
var results = from url in urls.ToObservable()
             let req = WebRequest.Create(url)
             from rsp in Observable.FromAsyncPattern<WebResponse>(
                  req.BeginGetResponse, req.EndGetResponse)()
             select ExtractResponse(rsp);

其中 ExtractResponse 可能只是使用 StreamReader.ReadToEnd 来获取字符串结果（如果这就是您想要的）

您还可以考虑使用 .Retry 运算符，如果您遇到连接问题等，它可以轻松地让您重试几次......

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

webcrawler

.net 4.0 中并行网络爬虫的最佳实践的相关文章

是否有与 posix_memalign 对应的 C++ 版本？

当我打电话时posix memalign http man7 org linux man pages man3 posix memalign 3 html为类型的对象分配对齐的内存Foo在我的 C 代码中我需要做一个reinterpret
使用 lambda 表达式注册类型

我想知道如何在 UnityContainer 中实现这样的功能 container RegisterType
如何在多线程C++ 17程序中交换两个指针？

我有两个指针 pA 和 pB 它们指向两个大的哈希映射对象当pB指向的哈希图完全更新后我想交换pB和pA 在C 17中如何快速且线程安全地交换它们原子我是 c 17 的新手 2个指针的原子无等待交换可以通过以下方式实现 inclu
代码 GetAsyncKeyState(VK_SHIFT) & 0x8000 中的这些数字是什么？它们是必不可少的吗？

我试图在按下按键的简单动作中找到这些数字及其含义的任何逻辑解释 GetAsyncKeyState VK SHIFT 0x8000 可以使用哪些其他值来代替0x8000它们与按键有什么关系 GetAsyncKeyState 根据文档返回如果
GetType() 在 Type 实例上返回什么？

我在一些调试过程中遇到了这段代码 private bool HasBaseType Type type out Type baseType Type originalType type GetType baseType GetBaseTyp
在c#中执行Redis控制台命令

我需要从 Redis 控制台获取客户端列表输出以在我的 C 应用程序中使用有没有办法使用 ConnectionMultiplexer 执行该命令或者是否有内置方法可以查找该信息 CLIENT LIST是服务器命令而不是数据库
为什么pow函数比简单运算慢？

从我的一个朋友那里我听说 pow 函数比简单地将底数乘以它的指数的等价函数要慢例如据他介绍 include
ComboBox DataBinding 导致 ArgumentException

我的几个类对象 class Person public string Name get set public string Sex get set public int Age get set public override string
查看 NuGet 包依赖关系层次结构

有没有一种方法文本或图形来查看 NuGet 包之间的依赖关系层次结构如果您使用的是新的 csproj 您可以在此处获取所有依赖项在项目构建后项目目录 obj project assets json
从客户端访问 DomainService 中的自定义对象

我正在使用域服务从 Silverlight 客户端的数据库中获取数据在DomainService1 cs中我添加了以下内容 EnableClientAccess public class Product public int produ
将 Long 转换为 DateTime 从 C# 日期到 Java 日期

我一直尝试用Java读取二进制文件而二进制文件是用C 编写的其中一些数据包含日期时间数据当 DateTime 数据写入文件以二进制形式时它使用DateTime ToBinary on C 为了读取 DateTime 数据它将首
C# 存档中的文件列表

我正在创建一个 FileFinder 类您可以在其中进行如下搜索 var fileFinder new FileFinder new string C MyFolder1 C MyFolder2 new string
打破 ReadFile() 阻塞 - 命名管道 (Windows API)

为了简化这是一种命名管道服务器正在等待命名管道客户端写入管道的情况使用 WriteFile 阻塞的 Windows API 是 ReadFile 服务器已创建启用阻塞的同步管道无重叠 I O 客户端已连接现在服务器正在等待一些数据
使用valgrind进行GDB远程调试

如果我使用远程调试gdb我连接到gdbserver using target remote host 2345 如果我使用 valgrind 和 gdb 调试内存错误以中断无效内存访问我会使用 target remote vgdb 启动
为什么从字典中获取时会得到 Action<> 的克隆？

我有以下字典 private Dictionary
在mysql连接字符串中添加应用程序名称/程序名称[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在寻找一种解决方案在连接字符串中添加应用程序名称或程序名称以便它在 MySQL Workbench 中的客户端连接下可见 SQL
在屏幕上获取字符

我浏览了 NCurses 函数列表似乎找不到返回已打印在屏幕上的字符的函数每个字符单元格中存储的字符是否有可访问的值如果没有的话Windows终端有类似的功能吗我想用它来替换屏幕上某个值的所有字符例如所有a s 具有不同的特征
String.Empty 与 "" [重复]

这个问题在这里已经有答案了可能的重复 String Empty 和有什么区别 https stackoverflow com questions 151472 what is the difference between string
这个可变参数模板示例有什么问题？

基类是 include
GCC 的“-Wl,option”和“-Xlinker option”语法之间有区别吗？

我一直在查看一些配置文件并且看到它们都被使用尽管在不同的体系结构上如果您在 Linux 机器上使用 GCC 将选项传递给链接器的两种语法之间有区别吗据我所知阅读 GCC 手册时他们的解释几乎相同 From man gcc Xli

随机推荐

使用 Base64 数据在 Chrome 中使用 favicon

我为此找了半天看起来人们真的很容易让它工作但是我在让 Chrome 理解它时遇到了一些问题它在FF中工作我的根目录中有 png 格式的图标有任何想法吗我正在使用这段代码
尝试使用 Python SFTP 文件时定义传输模式

我们正在尝试使用 python 脚本驻留在 SFTP 服务器上将文本文件从 Linux 服务器传输到 Windows 服务器我们有必要确保文件使用文本模式传输我没有看到这种可能性pysftp 还有其他Python库支持这个吗 pys
如何使用 PyAutoGUI 检测按键事件？

如何使用 PyAutoGUI 检测按键事件在我的研究中我无法在这个模型中举例 import pyautogui num 0 if pyautogui press b I know the right thing is not to us
段落标签不包含块元素

如何在 HTML 段落标记中放置块元素当我尝试这样做时 Firebug 的 HTML 选项卡显示该段落未包含块元素此外应用于段落的任何 CSS 都不适用于子块元素这段代码 p p ol li foo li li bar li ol
如何在 Conda environment.yml 中指定版本范围

是否可以在conda包的environment yml文件中指定版本范围 The 官方文档 https conda io projects conda en latest user guide tasks manage environmen
Flink：将文件与kafka流连接

我有一个问题我真的无法弄清楚所以我有一个 kafka 流其中包含一些如下数据 adId 9001 eventAction start eventType track eventValue timestamp 1498118549550
为了性能，使用一个还是多个css文件？

我想知道CSS文件是制作一个还是多个文件更好我总是看到有大量 css 文件的网站但它看起来更好 http developer yahoo com performance rules html num http仅使用一个大文件你有什么建
如何使用 Google Cloud Dataflow 将压缩文件写入 Google Cloud Storage？

我正在尝试将 Gzipped 文件写入 Google Dataflow 程序中的 Google Cloud Storage 存储桶中常见问题解答说 Does the TextIO source and sink support compr
通知高度不正确“match_parent”

我尝试使用以下 xml 代码创建自定义视图
您建议使用哪种 Java 嵌入式 VM 进行 ARM 开发？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案有很多 Java 嵌入式 VM 您对 ARM 开发有何建议 http www cacaovm org http www cacaovm o
ttl 在 cassandra 创建墓碑

我只对 cassandra 进行插入插入时仅插入非空值以避免墓碑但插入 TTL 的记录很少但是然后从表中执行 select count 会出现以下错误读取 76 个活动行和 1324 个逻辑删除单元以进行查询 SELECT FRO
Vue test-utils 如何测试 router.push()

在我的组件中我有一个方法将执行router push import router from router export default methods closeAlert function if this msgTypeContactF
这是 iOS14 中预期的 @State var 行为还是一个错误？

当我在 iOS14 sim 或设备上运行为 iOS14 编译的以下代码时更新的 State 变量选择不会传递到显示为 sheet 确切的代码在 iOS 13 5 sim 或 13 6 设备上运行正常如果我在视图中的某个位置放置一个文
Android 操作栏标签栏分隔线

我在设置分隔线的可绘制对象时遇到问题我的 style xml 如下所示
dtruss 在 OS X 10.11 上的 ps 上失败

我想看看是哪个系统调用ps用于获取 OS X 10 11 El Capitan 上进程的命令行并遇到以下错误 dtruss ps p 43520 o args dtrace failed to execute ps dtrace cann
运行时错误：无法创建链接（名称已存在）Keras

当我保存模型时出现以下错误 RuntimeError Traceback most recent call last
在旋转动画期间更新属性

我正在 Kotlin 中制作旋转动画并且在每个动画之后我想设置一个净rotationStart和rotationEnd 其中rotationStart值最初应设置为 0 然后假设每次旋转后的rotationEnd值 val rand Ra
NSWindow 中的底部栏

我正在 Cocoa 中开发一个应用程序我需要在窗口的底部栏显示进度但我正在寻找一种解决方案将底部栏放入NSWindow 期待解决方案这是在窗口底部放置一个栏的代码就像在取景器中一样 theWindow setContentBord
使用中的 Gunicorn 连接：('0.0.0.0', 5000)

我今天下午安装了 redis 它导致了一些错误所以我卸载了它但是当我使用以下命令启动应用程序时此错误仍然存在foreman start 关于修复有什么想法吗 foreman start 22 46 26 web 1 started
.net 4.0 中并行网络爬虫的最佳实践

我需要通过代理下载很多页面构建多线程网络爬虫的最佳实践是什么 Parallel For Foreach 是否足够好还是对于繁重的 CPU 任务更好您对以下代码有何看法 var multyProxy new MultyProxy mul

.net 4.0 中并行网络爬虫的最佳实践

.net 4.0 中并行网络爬虫的最佳实践 的相关文章

随机推荐

热门标签

.net 4.0 中并行网络爬虫的最佳实践的相关文章