网络挖掘、抓取或爬行？我应该使用什么工具/库？ [关闭]

2023-11-30

我想抓取一些网页并将其保存为 HTML。比如说，爬入数百个流行网站并简单地保存它们的首页和“关于”页面。

我研究了很多问题，但没有从网络爬行或网络抓取问题中找到答案。

我应该使用什么库或工具来构建解决方案？或者是否有一些现有的工具可以处理这个问题？

当使用 Python 时，您可能会感兴趣机械化 and 美丽汤.

机械化有点模拟浏览器（包括代理选项、伪造浏览器标识、页面重定向等），并允许轻松获取表单、链接……不过，文档有点粗糙/稀疏。

一些示例代码（来自 mechanize 网站）可以给您一个想法：

import mechanize
br = mechanize.Browser()
br.open("http://www.example.com/")
# follow second link with element text matching regular expression
html_response = br.follow_link(text_regex=r"cheese\s*shop", nr=1)
print br.title()
print  html_response

美丽汤允许非常轻松地解析 html 内容（您可以使用 mechanize 获取），并支持正则表达式。

一些示例代码：

from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html_response)

rows = soup.findAll('tr')
for r in rows[2:]:  #ignore first two rows
    cols = r.findAll('td')
    print cols[0].renderContents().strip()    #print content of first column

因此，上面的这 10 行几乎可以复制粘贴准备打印网站上每个表行的第一列的内容。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

python

webcrawler

webscraping

webmining

网络挖掘、抓取或爬行？我应该使用什么工具/库？ [关闭] 的相关文章

Spring Data 与 Spring Data JPA 与 JdbcTemplate

我有信心Spring Data and Spring Data JPA指的是相同的但后来我在 youtube 上观看了一个关于他正在使用JdbcTemplate在那篇教程中所以我在那里感到困惑我想澄清一下两者之间有什么区别Spring
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
更改 Matplotlib 投影轴的背景颜色

我正在尝试使用 Cartopy 创建一个图形该图形需要在未投影的轴上绘制投影轴这是一个尽可能简单的代码版本它将轴上的内容替换为背景颜色 import matplotlib pyplot as plt import cartopy cr
归并排序中的递归：两次递归调用

private void mergesort int low int high line 1 if low lt high line 2 int middle low high 2 line 3 mergesort low middle l
使用 AWS Java SDK 为现有 S3 对象设置 Expires 标头

我正在更新 Amazon S3 存储桶中的现有对象以设置一些元数据我想设置 HTTPExpires每个对象的标头以更好地处理 HTTP 1 0 客户端我们正在使用AWS Java SDK http aws amazon com sdkf
Java直接内存：在自定义类中使用sun.misc.Cleaner

在 Java 中 NIO 直接缓冲区分配的内存通过以下方式释放 sun misc Cleaner实例一些比对象终结更有效的特殊幻像引用这种清洁器机制是否仅针对直接缓冲区子类硬编码在 JVM 中或者是否也可以在自定义组件中使用清洁器例
应用程序关闭时的倒计时问题

我制作了一个 CountDownTimer 代码我希望 CountDownTimer 在完成时重新启动即使应用程序已关闭但它仅在应用程序正在运行或重新启动应用程序时重新启动因此如果我在倒计时为 00 10 分钟秒时关闭应用程序
将 JSON 参数从 java 发布到 sinatra 服务

我有一个 Android 应用程序发布到我的 sinatra 服务早些时候我无法读取 sinatra 服务上的参数但是在我将内容类型设置为 x www form urlencoded 之后我能够看到参数但不完全是我想要的我在
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
如何配置eclipse以保持这种代码格式？

以下代码来自 playframework 2 0 的示例 Display the dashboard public static Result index return ok dashboard render Project findInv
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
Springs 元素“beans”不能具有字符 [children]，因为该类型的内容类型是仅元素

我在 stackoverflow 中搜索了一些页面来解决这个问题确实遵循了一些正确的答案但不起作用我是春天的新人对不起这是我的调度程序 servlet
如何测试 spring-security-oauth2 资源服务器安全性？

随着 Spring Security 4 的发布改进了对测试的支持 http docs spring io spring security site docs 4 0 x reference htmlsingle test我想更新我当前的
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
将2-3-4树转换为红黑树

我正在尝试将 2 3 4 树转换为 java 中的红黑树但我无法弄清楚它我将这两个基本类编写如下以使问题简单明了但不知道从这里到哪里去 public class TwoThreeFour
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error
java8 Collectors.toMap() 限制？

我正在尝试使用java8Collectors toMap on a Stream of ZipEntry 这可能不是最好的想法因为在处理过程中可能会发生异常但我想这应该是可能的我现在收到一个我不明白的编译错误我猜是类型推理引擎这是
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

用于比较文本文件内容的批处理文件

我有两个文本文件其中包含以下数字 File1 00000 11111 File2 00000 11111 22222 我需要一个代码来比较 file2 和 file1 的内容以及不匹配的数字在这种情况下 22222 是 file2 中的
微服务未在所有 Eureka 实例上注册

Spring Boot版本 2 1 6 RELEASE Spring Cloud版本 Greenwich SR1 目标是在集群中设置两个Eureka Server实例并将所有微服务注册到两个实例上以实现HA 目前我正在运行 Ubuntu
在 python 中多重处理写入数组的函数循环

我正在尝试为此循环实现多处理它无法修改数组或者似乎没有正确排序作业在最后一个函数完成之前返回数组 import multiprocessing import numpy def func i array array i i 2 pri
在泛型中使用类型变量

I have 这个问题除了斯威夫特我如何使用Type泛型中的变量我试过这个 func intType gt Int Type return Int self func test var t self intType var arr Ar
无法打开使用dompdf生成的pdf文件

我正在尝试使用 dompdf 从 smarty 模板生成 pdf 文件代码如下 require once dompdf dompdf config inc php dompdf new DOMPDF dompdf gt load html
图表 Excel REST API - Azure AD 2.0 端点 - 是否支持 OneDrive 个人版？

我想使用 Microsoft Graph REST API 访问操作存储在 OneDrive Personal 中的 Excel 工作簿我能够访问操作存储在 OneDrive for Business 中的 Excel 工作簿我能够
如何只下载/读取文件的前 80KB？

我正在为一个有很多 flash 文件的网站制作一个 Greasemonkey 脚本我想对闪存进行哈希处理问题是闪存文件最大为10兆字节这很慢我希望能够只获取前 80KB 进行哈希处理最终结果将是一种将某些包含不需要内容的 Flas
选择具有相同字段名称的 MYSQL 行并添加前缀

我正在尝试进行 mysql 查询来选择多个表并左连接它们但是它们都具有相同的列名称 user 等我想以这种方式重命名所有字段所以我尝试了以下查询 SELECT mod backup accounts AS account mod ba
如何查找单元格的一部分并将其替换为格式化文本

在 Excel 2007 电子表格中我想要查找替换并突出显示单元格中的部分文本不过使用查找替换会重新格式化整个单元格例如如果单元格包含 Pellentesque vel Massa 坐在 amet magna eleifend p
中断 Linux 上线程中的系统调用

我有一个循环运行的 pthread 调用accept 以阻塞的方式有什么办法可以中断另一个线程的调用吗一切都指向向线程发送信号但显然你只能发送一个process一个信号我不能直接杀死线程因为这样会使套接字保持打开状态无论如何这
当我不指定操作数大小时，push 指令将多少字节压入堆栈？

我可以通过这样做将 4 个字节压入堆栈 push DWORD 123 但我发现我可以使用push不指定操作数大小 push 123 在这种情况下有多少字节push指令压入堆栈推送的字节数是否取决于操作数大小因此在我的示例中它将推送 1
如何在 Spark 中强制执行 DataFrame 评估

有时例如为了测试和基准测试我想强制执行 DataFrame 上定义的转换 AFAIK 调用类似的操作count并不能确保所有Columns实际上是计算出来的 show可能只计算所有的子集Rows 参见下面的示例我的解决方案是写Dat
CSS 中的点是什么意思？

有人能解释一下这两个 CSS 选择器的区别吗 work container h3 font size 14px margin top 0px font weight 600 height 27px 上面定义中额外的点是什么 work con
滚动结束后如何调用函数？

我想在滚动结束后立即调用一个函数我尝试过load不同的事情但没有一个完全有效然后我在 SO 中找到了这个解决方案我如何知道我何时停止滚动 Javascript 我仔细研究了第二个答案并尝试了它它有效然后我尝试根据我的目的稍微改变
HTML5 中的 polyfill 的含义是什么？

HTML5 中的 polyfill 的含义是什么我在很多关于 HTML5 的网站上看到这个词例如HTML5 跨浏览器 Polyfills 所以我们在这里收集所有的垫片回退和填充为了在不支持的浏览器中植入 HTML5 功能天生就支持
调用 Codeigniter 中未定义的函数 ibase_connect()

我无法在 firebird 中连接到当地银行由于我在 php ini 中启用了以下扩展但没有得到任何结果扩展名 php interbase dll 扩展名 interbase so 扩展名 php pdo firebird dll 我
Facebook C# SDK、iFrame 应用程序中的 AJAX

我正在使用 Facebook C SDK 为 Facebook 制作一个 iFrame 应用程序我知道用户正在进行身份验证我可以使用 Graph API FaceBookApp Api userid 获取他们的用户名我现在的问题是当
UIImagePickerController 在关闭后重新加载视图？

我创建选择器 UIImagePickerController imagePicker UIImagePickerController alloc init imagePicker sourceType UIImagePickerContro
在 WPF DataGrid 上显示行号的简单方法

我只想在我的最左边的列中显示行号DataGrid 有什么属性可以做到这一点吗请记住这不是我的表的主键当对列进行排序时我不希望这些行号随行移动我基本上想要一个运行计数它甚至不需要有标题一种方法是将它们添加到 DataGrid 的
网络挖掘、抓取或爬行？我应该使用什么工具/库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我想抓取一些网页并将其保存为 HTML 比如说爬入数百个流行网站并简单地保存它们的首页和关于页面我研究了很多问题但没有从网络爬行或网络抓取

网络挖掘、抓取或爬行？我应该使用什么工具/库？ [关闭]

网络挖掘、抓取或爬行？我应该使用什么工具/库？ [关闭] 的相关文章

随机推荐

热门标签