python中html解析和网络爬行有多大区别[关闭]

2024-03-17

我需要从 django 网站中的网站获取一些数据。现在我很困惑是否应该使用 python 解析库或网络爬行库。搜索引擎库也属于同一类别吗

我想知道两者之间有多少区别，如果我想在我的网站中使用这些功能，我应该使用哪个

如果您可以摆脱后台网络爬行，请使用scrapy http://scrapy.org/。如果需要立即拿东西使用html5lib http://code.google.com/p/html5lib/（更稳健）或lxml http://lxml.de/（快点）。如果你打算稍后做，请使用 Awesomerequests http://docs.python-requests.org/en/latest/index.html图书馆。我会避免使用 BeautifulSoup、mechanize、urllib2、httplib。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

django

webcrawler

python中html解析和网络爬行有多大区别[关闭] 的相关文章

Python 切片对象和 __getitem__

python 中是否有内部的东西来处理传递给的参数 getitem 不同并自动转换start stop step构造成切片这是我的意思的演示 class ExampleClass object def getitem self args
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
将 numpy 数组合并为单个 int

numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
如何给URL添加变量？

我正在尝试从网站收集数据我有一个 Excel 文件其中包含该网站的所有不同扩展名 F i www example com example2 我有一个脚本可以成功从网站中提取 HTML 但现在我想为所有扩展自动执行此操作然而当我说 s
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型

随机推荐

如何设置系统范围的umask？

我在一个运行 Linux Debian 和 Ubuntu 的实验室工作用户名和组名由 NIS 和 yp 处理我们有一些公共用户每个人都可以访问来运行实验然后我们每个人都有自己的用户此外还有一个我们都是其中成员的公共组我怎样才能使
如果成功或失败，如何返回 std::copy 的值？

我在用std copy将对象复制到std deque到一个文件代码工作正常但我需要检查复制是否成功因此我需要设置标志否则抛出异常我已经用谷歌搜索但找不到解决方案如何检查是否std copy已成功将值复制到文件中有人可以照亮它吗
Java 放气响应

大家好我想为 tomcat 创建一个过滤器来压缩某些 MIME 类型的所有响应有什么指导方针吗 String ae request getHeader accept encoding if ae null ae indexOf defl
如何在 Node.js 插件中泵送窗口消息？

在 Windows Nodejs 插件中我创建了一个窗口来接收消息 Handle
将相同的运算符专门用于不同的特征

我想通过特征进行专业化来执行以下操作 Array Aa Scalar in a会使用overload I Array Aa Array Bb会使用overload II 在下面的代码中 overload II永远不会习惯有人提到过T1不能
如何等待蓝鸟承诺在多个地点定居？

我遇到的情况是一堆函数需要等待承诺解决因为它是 init 函数 self init new Promise function resolve do stuff take awhile resolve 但是当它正在初始化时异步性质意味
Linq - 获取数组最后一个非零数的索引

是否有一个 Linq 表达式返回数组中最后一个非零值的索引我对扩展不感兴趣只对简单的 linq 表达式感兴趣我正在想象这样的伪代码 int index 0 2 1 LastOrDefaultAt i gt i gt 0 返回值应该是2
如何在 django 中使用 json.dumps 方法加载保存的数据

模型 py class History models Model user models ForeignKey User on delete models SET NULL blank True study models ForeignKe
使用比较器函数进行排序

因此我正在使用一些预先存在的比较器来比较两个元组中的某些值如果第一个大于第二个则返回 true 否则返回 false 这是其中之一的代码 def cmpValue subInfo1 subInfo2 Returns True if va
显式空检查与空合并运算符的编译器评估？

考虑下面的代码它使用了两个slightly不同的检查方法 instance并在尚未设置时分配它 class InstantiationTest private Object instance public void Method1 if
如何在 Android 中设置自定义闹钟铃声

我需要在我的应用程序中设置自定义闹钟铃声谁能告诉我如何设置自定义铃声或 Mp3 作为闹钟任何形式的帮助将不胜感激这也是这个问题的解决方案将音频文件设置为铃声 https stackoverflow com questions 460
UITextView 动画视图后内容偏移不良

我有一个 UITextView 位于视图底部当用户点击它时我需要将视图动画放大 150 像素我在用着 void textViewDidBeginEditing UITextView textView and void textView
R 中的条件计数和分组依据

我想计算每个有多少行type如果他们满足条件x 0 有点像 SQL 中的 group by 这是数据的示例 type x search 0 NULL 0 public 0 search 1 home 0 home 1 search 0 我假
c atoi() 在 Linux 上用于宽字符？

Linux 上是否有与宽字符等效的 c atoi 我可以找到 MS wtoi 的东西但我可以在标准 Linux 库中找到任何东西您可以使用wcstol http www gnu org s libc manual html node P
如果控制台应用程序需要 root 权限，它如何在 OS X 下对自身进行 sudo？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我想知道命令行应用程序是否可以请求根访问权限例如尝试使用sudo 我正在寻找一种解决方案允许编写需要的应用程序sudo如果需要的话可以享受特权
持有 Singleton 引用的活动会泄漏内存吗？

如果我有这样的代码 public class MyActivity extends Activity private SingletonClass singletonInstance Override protected void onCr
Weka：如何在 java 中获取测试实例的预测值？

我已经成功训练了一个分类器 bayesnet 并构建了一个测试集 ARFF 格式该测试集有一个实例有一个缺失值 Evaluation eTest new Evaluation trainingInstance eTest evaluat
Typescript 和 JQuery 编译错误：找不到名称“$”

我正在使用 jquery 测试 typescript 但是当我编译 test ts 文件时它总是给我一个错误指示找不到名称我已经导入了 jquery 并添加了它的定义参考如果我使用import require jquery in
如何使用 XElement 在 C# 中序列化带有 List 的对象？

我有不同类型成员的对象如下所示 public class MyObject public string Str1 string Empty public MyEnums Enum1 E1 MyEnums Enum1 Unknown pub
python中html解析和网络爬行有多大区别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要从 django 网站中的网站获取一些数据现在我很困惑是否应该使用 python 解析库或网络爬行库搜索引擎库也属于同一类别

python中html解析和网络爬行有多大区别[关闭]

python中html解析和网络爬行有多大区别[关闭] 的相关文章

随机推荐

热门标签