Erlang 是网络爬虫的正确选择吗？

2024-01-19

我计划为 NLP 项目编写一个网络爬虫，每次以特定的时间间隔读取论坛的线程结构，并用新内容解析每个线程。通过正则表达式，提取新帖子的作者、日期和内容。然后结果被存储在数据库中。

爬虫使用的语言和平台必须符合以下条件：

在多核和 CPU 上轻松扩展
适合高 I/O 负载
快速正则表达式匹配
易于维护/运营开销很少

经过一些研究，我认为 Erlang 可能是一个合适的候选者，但我读到它不太擅长字符串处理（以及正则表达式匹配）。我对维护因素也没有任何经验。

对于上述场景，Erlang 是一种好的技术吗？如果没有，什么是好的替代方案？

我还在评估 erlang 作为网络爬虫的用途，到目前为止它看起来不错。

有很多现有的有用模块：HTML解析器 https://github.com/mochi/mochiweb, HTTP客户端 https://github.com/cmullaparthi/ibrowse, XPath http://www.erlang.org/doc/man/xmerl_xpath.html, regex http://www.erlang.org/doc/man/re.html, cache http://www.erlang.org/doc/man/mnesia.html.

And other http://berlinbrowndev.blogspot.com.au/2008/02/makings-of-simple-web-scraper-in-erlang.html people http://ppolv.wordpress.com/2008/05/09/fun-with-mochiwebs-html-parser-and-xpath/对相同的用例感兴趣，因此您可以向他们学习。

然而，如果这只是一个一次性项目，我推荐 Python / Ruby / Perl，因为它会更容易上手。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ERLANG

webcrawler

Erlang 是网络爬虫的正确选择吗？的相关文章

与共享数据相比，消息传递的性能损失

最近有很多关于不使用锁和使用 Erlang 等消息传递方法的讨论或者关于使用不可变的数据结构例如函数式编程与 C Java 中的比较但我关心的是以下几点 AFAIK Erlang 不保证消息传递消息可能会丢失如果还要担心消息丢失
Ruby+Anemone Web Crawler：正则表达式匹配以一系列数字结尾的 URL

假设我正在尝试抓取一个网站并跳过一个像这样结束的页面我目前正在 Ruby 中使用 Anemone gem 来构建爬虫我正在使用skip links like方法但我的模式似乎永远不匹配我试图使其尽可能通用因此它不依赖于子页面而只
Symfony 2 功能测试外部 URL

无论我做什么我总能得到一个 Symfony Component HttpKernel Exception NotFoundHttpException 否已找到的路线 in crawler gt text 当我尝试使用以下命令请求外部
Scrapy蜘蛛抓取页面和抓取项目之间的区别

我正在编写一个 Scrapy CrawlSpider 它读取第一页上的 AD 列表获取一些信息例如列表和 AD url 的缩略图然后向每个 AD url 发出请求以获取其详细信息它在测试环境中工作和分页显然很好但今天试图进行完整的
查找API端点的方法

API探索尽管有几个问题涉及该主题但我找不到解决我想要理解的核心概念的问题如果知道 API 的根结构我们可以想象一下http stackoverflow com api service 我们可以成功地从已知端点检索结果比方说htt
Erlang 如何并发处理访问邮箱

关于如何使用erlang邮箱的信息有很多但很少找到一篇论文或文档描述erlang如何在VM内部同时实际访问邮箱据我了解 Erlang VM 必须执行锁定或 CAS 操作以确保消息完整性 erlang幕后有没有什么精巧的方法我假设您所说
如何忽略网络爬虫中的文件类型？

我正在编写一个网络爬虫并且想要忽略链接到二进制文件的 URL exclude w flv swf png jpg gif asx zip rar tar 7z gz jar js css dtd xsd ico raw mp3 mp4 w
如何使用 ibrowse 将附件上传到 CouchDB 中的文档？

我已经使用curl上传图像文件Penguins jpg 例如 C curl gt curl vX PUT H Content Type image jpeg http localhost 5984 DBNAME DOCID Penguins
如何基于Scrapy构建一个永远运行的网络爬虫？

我想基于Scrapy构建一个网络爬虫从多个新闻门户网站抓取新闻图片我希望这个爬虫是永远奔跑意味着它将定期重新访问一些门户页面以获取更新安排优先事项为不同类型的 URL 赋予不同的优先级多线程获取我已经阅读了Scrapy文档
设置 Emacs 进行 Erlang 编程

Emacs 是 Erlang 编程的首选 IDE 有很多好的模式 distel erlware mode 默认的 erlang 模式但是您对设置 Emacs 进行专业 Erlang 开发有何建议按照中所述设置 erlang mode自述
使用自定义 mysql 模式的模块扩展 ejabberd？

代替ejabberd sql https github com processone ejabberd blob master sql mysql sql L95 我正在使用自定义 MySQL 架构由于遗留原因我将对某些活动执行一些数据
Erlang 应该如何处理通用数据？

假设我正在使用 Erlang 构建游戏服务器每个用户检查某些内容例如找到最近的玩家是很常见的因此通常有一个管理器类在上面的例子中我们使用互斥锁据我所知 Erlang 通常会为每个 TCP 连接用户会话创建新的 Erlang
Erlang 如何睡觉（晚上？）

我想在 Erlang 服务器上每隔几个小时运行一次小型清理过程我知道计时器模块我在教程中看到一个示例使用链式计时器睡眠命令来等待几天后发生的事件我觉得这很奇怪我知道 Erlang 进程与其他语言中的进程相比是独一无二的但是进程
在 digraph_utils:is_acirclic/1 返回 false 后查找循环或循环

我怎样才能有效地在Erlang有向图中找到循环或循环digraph utils is acyclic 1返回假 EDIT is acyclic is 定义为 https github com erlang otp blob maint
Erlang 中的接受器池和负载平衡？

From http www erlang org doc man gen tcp html accept 1 http www erlang org doc man gen tcp html accept 1 值得注意的是 accept 调
Java 页面爬行和解析之 Crawler4j 与 Jsoup

我想获取页面的内容并提取其中的特定部分据我所知此类任务至少有两种解决方案爬虫4j https github com yasserg crawler4j and Jsoup http jsoup org 它们都能够检索页面的内容并提取其
你为什么决定“反对”使用 Erlang？

Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的答案或互动你是否真的尝试过意味着在其中编程而不仅仅是阅读有关它的文章 Erlang并决定在项目中不
Scrapy仅抓取网站的一部分

您好我有以下代码来扫描给定站点中的所有链接 from scrapy item import Field Item from scrapy contrib spiders import CrawlSpider Rule from scrap
除了 Erlang 之外，还有哪些系统是基于“绿色流程”的？

我正在阅读这个信息页面绿线维基百科 http en wikipedia org wiki Green thread我想知道除了 Erlang 之外还有哪些编程系统依赖于绿色进程 Edit 绿线绿色流程基于绿色流程 Erlang
避免由于相对 URL 导致的错误请求

我正在尝试使用Scrapy抓取一个网站并且我想要抓取的每个页面的url都是使用这种相对路径编写的 a href en item to scrap html Link a 现在在我的浏览器中这些链接可以工作您可以访问类似的网址http

随机推荐

MySQL：使用 ON UPDATE SET NULL 和 ON DELETE SET NULL 时出现错误 150，为什么？

我有这个 DROP TABLE IF EXISTS sf guard user CREATE TABLE sf guard user id INTEGER 11 NOT NULL AUTO INCREMENT username VARCHA
使用 PHP/MySQL 封装数据访问的好方法是什么？

我的大部分经验都在 MSFT 堆栈上但我现在正在从事一个业余项目帮助某人使用基于 LAMP 堆栈构建的廉价托管个人网站我安装附加功能的选项是有限的所以我想知道如何编写数据访问代码而不在 php 文件中嵌入原始查询我喜欢让事情变得简
ES6 React：ES.Next 的 @autobind 只会为每个实例绑定一次方法吗？

有一个lot关于在 ES6 React 中处理绑定的多种方法所写的问题文章但大多数似乎都没有解决中概述的问题反应文档 https facebook github io react docs reusable components ht
我应该在每个路由器导航上重置我的 redux 存储吗？

我正在使用 Angular 来编写我的应用程序并且我使用Redux通过ngrx 商店存储我的应用程序状态一切工作正常但现在我的应用程序变得相当大我得出以下观察结果对于几乎每个页面资源我使用不同的解析器从后端获取正确显示和在此特
PHP 中的可变参数函数和类型提示

快速一有没有办法在 PHP 中强制执行可变参数函数的类型我假设没有但也许我错过了一些东西到目前为止我只是强制使用所需类型的单个必需参数然后迭代检查其余参数 public function myFunction MyClass o
C 中 while 循环内的 switch 语句

有几篇关于 while 循环中 switch 语句的帖子但事实上它们都不是用 C 语言完成的至少从我所看到的来看是这样 C 可以创建布尔表达式我知道这一点但在 C 中不行我有一个包含开关控件的 while 循环但是当我在 sw
在 Ruby on Rails 中，将某些东西安装为 gem 或插件有什么区别？

On http github com collectiveidea delayed job http github com collectiveidea delayed job it says 要安装为 gem 请将以下内容添加到 conf
使用 Python 删除 CSV 文件中的行

我想做的就是删除第三列中值为 0 的行数据示例如下 6 5 5 4 0 320 6 5 5 4 1 320 因此第一行需要删除而第二行则保留到目前为止我所拥有的如下 import csv input open first csv r
虚函数表指针在对象中的位置

据我了解该位置virtual对象中的函数指针表取决于编译器将此指针放置在对象的开头与结尾或反之亦然是否有任何优点缺点虚函数表的存在与编译器相关但所有编译器都如此并且位置也没有强制在我了解详细信息的所有编译器中 vptr 存储在
TabNavigator 是否已弃用？

当我运行模拟器时 react native run ios 我在终端中看到一条消息 TabNavigator 已弃用请使用 createBottomTabNavigator 但是我不认为 TabNavigator 已被弃用并且我不认为
用例图中的包含和扩展有什么区别？

有什么区别include and extend in a 用例图 http en wikipedia org wiki Use case diagram Extend当一个用例向另一个一流用例添加步骤时使用例如假设提取现金是自动柜员
Fortran 中的过程指针

假设我有以下单参数双精度函数的抽象接口 module abstract abstract interface function dp func x double precision intent in x double precision
.NET WinForms 键事件参数对象的 KeyCode 和 KeyData 属性之间有什么区别？

两个关键事件参数类KeyEventArgs and PreviewKeyDownEventArgs每个都有两个属性 KeyCode and KeyData 都是枚举类型的Keys 这两个属性有什么区别它们的价值观是否彼此不同如果是这样
强制 CodeIgniter 发送视图并停止工作

您好我正在使用继承的控制器这些是我的控制器 baseAdminController
类型的对象转换为张量。考虑将元素转换为受支持的类型' aria-label='Keras.backend.reshape：类型错误：无法将类型的对象转换为张量。考虑将元素转换为受支持的类型'> Keras.backend.reshape：类型错误：无法将类型的对象转换为张量。考虑将元素转换为受支持的类型

我正在为我的神经网络设计一个自定义层但我的代码出现错误我想做一个注意力层如论文中所述 SAGAN https arxiv org abs 1805 08318 还有原始tf代码 https github com taki0112 Se
Rust 函数定义返回类型中 -> 的起源是什么？

Rust 使用冒号将标识符与类型分开例如 let x u8 1 但是对于函数返回类型则使用 gt 来代替例子 fn f gt u8 人们可能期望它在这里也使用冒号 fn f u8 虽然使用箭头有一定的优先级例如在 Haskell
使用批处理文件将多个 .csv 文件逐行合并为一个 .csv 文件

我遇到一种情况需要将四个 CSV 文件合并为一个 CSV 文件如果我只想将它们一个接一个地添加这很容易但我需要让它们在 CSV 文件中并排放置我知道所有四个文件都有相同数量的条目在 1000 个条目范围内我一直在研究以下代码
以编程方式调用 Snap/Aero 最大化

有没有办法使用 C 或 C 针对特定窗口窗口 ID 以编程方式调用 Aera 最大化效果例如 or source thebuzzmedia com http www thebuzzmedia com wp content uploads
运行 bash 脚本的 docker 入口点得到“权限被拒绝”

我正在尝试对我的node js 应用程序进行dockerize 当容器构建完成后我希望它运行git clone然后启动节点服务器因此我把这些操作放在一个 sh脚本中并在 ENTRYPOINT 中将脚本作为单个命令运行 FROM ubu
Erlang 是网络爬虫的正确选择吗？

我计划为 NLP 项目编写一个网络爬虫每次以特定的时间间隔读取论坛的线程结构并用新内容解析每个线程通过正则表达式提取新帖子的作者日期和内容然后结果被存储在数据库中爬虫使用的语言和平台必须符合以下条件在多核和 CPU 上轻松扩

Erlang 是网络爬虫的正确选择吗？

Erlang 是网络爬虫的正确选择吗？ 的相关文章

随机推荐

热门标签

Erlang 是网络爬虫的正确选择吗？的相关文章