网页抓取 - 如何识别网页上的主要内容

2024-05-09

给定一个新闻文章网页（来自任何主要新闻来源，例如时报或彭博社），我想识别该页面上的主要文章内容，并丢弃其他杂项元素，例如广告、菜单、侧边栏、用户评论。

在大多数主要新闻网站上都可以使用的通用方法是什么？

有哪些好的数据挖掘工具或库？（最好是基于Python的）

有很多方法可以做到这一点，但是没有一种方法永远有效。这是最简单的两个：

如果它是一组已知的有限网站：在您的抓取工具中，将每个 url 从正常 url 转换为给定站点的打印 url（不能真正跨站点推广）
使用arc90可读性算法（参考实现在javascript中）http://code.google.com/p/arc90labs-readability/ http://code.google.com/p/arc90labs-readability/。该算法的简短版本是查找其中带有 p 标签的 div。它不适用于某些网站，但通常相当不错。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

htmlparsing

html

网页抓取 - 如何识别网页上的主要内容的相关文章

在 ubuntu 中卸载 python 模块

我必须删除一个名为 django 的 python 模块一种流行的模块因为我安装了错误的版本 1 3 py 2 6 中的 beta 如何卸载这个模块请解释一下因为我只在 Windows 中使用过 python 而从未在 Ubuntu
在Python中，如何通过去掉括号和大括号来打印Json

我想以一种很好的方式打印 Json 我想去掉方括号引号和大括号只使用缩进和行尾来显示 json 的结构例如如果我有一个像这样的 Json A A1 1 A2 2 B B1 B11 B111 1 B112 2 B12 B121 1
pandas DataFrame 中行的高效成对比较

我目前正在处理一个较小的数据集大约 900 万行不幸的是大多数条目都是字符串即使强制类别框架在内存中也只有几 GB 我想做的是将每一行与其他行进行比较并对内容进行直接比较例如给定 A B C D 0 cat blue old
如何使用 Python 在表单中选择选项？

我想知道如何以格式如下的形式选择选项 td align left td
Python：处理图像并保存到文件流

我需要使用 python 处理图像应用过滤器和其他转换然后使用 HTTP 将其提供给用户现在我正在使用 BaseHTTPServer 和 PIL 问题是 PIL 无法直接写入文件流因此我必须写入临时文件然后读取该文件以便将其发
如何停止 PythonShell

如何终止停止 Node js 中 PythonShell 执行的 Python 脚本的执行我在交互模式下运行输出通过 socket io 发送到给定的房间如果没有更多的客户端连接到这个房间我想停止 python 脚本的执行这是我
CreateJs Canvas 形状在 Windows Phone 上丢失坐标

我正在制作一个 Createjs 和 html5 项目在其中绘制一个形状红色圆圈当我单击圆圈时它会发出警报它在所有台式机和 Android 手机上都能正常工作除非我在 Windows Phone 中打开它否则它在普通屏幕上工作正
使用 Popen 打开进程并获取 PID

我正在开发一个漂亮的小功能 def startProcess name path Starts a process in the background and writes a PID file returns integer pid Ch
iPhone 上的全屏视频播放器是否有“onClose”事件？

我在网站上使用 html5 视频播放器当用户开始播放时播放器进入全屏模式并播放视频视频结束后我看到ended事件并通过关闭视频播放器myvideo webkitExitFullScreen 现在当玩家实际获得时我需要另一个事件cl
在 Keras 中使用有状态 LSTM 训练多变量多级数回归问题

我有时间序列P过程每个过程的长度各不相同但都有 5 个变量维度我试图预测测试过程的估计寿命我正在用有状态的方法来解决这个问题LSTM在喀拉斯但我不确定我的训练过程是否正确我将每个序列分成长度的批次30 所以每个序列都是这样的形
配置 Django 和 Google 云存储？

I am not使用应用引擎我有一个在虚拟机上运行的普通 Django 应用程序我想使用 Google Cloud Storage 来提供静态文件以及上传提供媒体文件我有一个水桶如何将 Django 应用程序链接到我的存储桶我
Python：如何“杀死”类实例/对象？

我希望 Roach 类在达到一定量的饥饿时死亡但我不知道如何删除该实例我的术语可能有误但我的意思是窗户上有大量蟑螂我希望特定的蟑螂完全消失我会向您展示代码但它很长我将蟑螂类添加到策划者类蟑螂种群列表中一般来说每个
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
如何在 Jupyter Notebook 中选择 conda 环境

我安装了 Anaconda 5 3 和 Python 3 7 根环境之后我使用 Python 3 6 创建了一个新环境 py36 我激活了新环境activate py36 conda env list表明环境是活跃的但是当我启动 Jup
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
将整数转换为特定格式的十六进制字符串

我是 python 新手有以下问题我需要将整数转换为 6 个字节的十六进制字符串例如 281473900746245 gt xFF xFF xBF xDE x16 x05 十六进制字符串的格式很重要 int 值的长度是可变的格式 0
Docker Python 脚本找不到文件

我已经成功构建了一个 Docker 容器并将应用程序的文件复制到 Dockerfile 中的容器中但是我正在尝试执行引用输入文件在 Docker 构建期间复制到容器中的 Python 脚本我似乎无法弄清楚为什么我的脚本告诉我它无
基于 Web 请求在 Airflow 上运行作业

我想知道是否可以在通过 HTTP 收到请求时执行气流任务我对 Airflow 的调度部分不感兴趣我只是想用它来代替芹菜因此示例操作如下所示用户提交一份表格请求某些报告后端接收请求并向用户发送请求已收到的通知然后后端使用 Ai
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究
处理错误“TypeError: Expected tuple, got str”将 CSV 加载到 pandas 多级和多索引 (pandas)

我正在尝试加载 CSV 文件这个文件 https drive google com file d 13a eVeSzy6HkhffQw32S57U hm5YCj0 view usp sharing 创建一个多索引多级数据帧它有5 五指

随机推荐

从 Activity 调用选项卡式片段方法

我有一项活动由三个片段组成这些片段使用使用 PagerAdapter 的操作栏选项卡我想要做的是从主活动访问活动选项卡式片段中的方法我已经尝试了下面的代码但这只是将片段返回为空所以我猜它无法在选项卡中找到它 NPListFragm
R markdown 引文标识符

R markdown 允许使用 YAML 元数据部分中的参考书目元数据字段指定参考书目文件例如 title Sample Document output html document bibliography bibliography bi
将非算术类型作为参数传递给 cmath 函数是否有效？

给定以下用户定义类型S具有转换功能double struct S operator double return 1 0 以及以下调用cmath http en cppreference com w cpp header cmath使用类型的
导入 Haskell 模块

我是哈斯克尔的新手为什么当我尝试使用时Days from Data Time我收到此错误 Could not find module Data Time It is a member of the hidden package time
使用 keyup 事件仅触发表单验证中文本框的部分规则，并取消其余规则的事件

我的应用程序中有一个表单我正在使用 jQuery 表单验证插件对其进行验证其中一项规则是远程类型用于验证用户名是否不存在我已经能够覆盖 onkeyup 事件因此规则不会为我输入的每个字母发送到服务器我完成的方式如下 var va
CLion 2019.2.1 工具链：未找到 WSL

我通过 Windows 商店安装了 Ubuntu 然后按照此处的 Jetbrains CLion WSL 设置指南进行操作 https www jetbrains com help clion how to use wsl developm
设计 Javascript 前端 <-> C++ 后端通信

在我最近的将来我将不得不制作一个具有 C 后端和 Web 前端的系统要求目前我对此了解不多我认为前端将触发数据传输而不是后端所以不需要类似 Comet 的东西由于在该领域的经验可能很少我非常感谢您对我所做的设计决策的评论
Rails - 使链接与 ajax 一起工作

我有一个链接应该使用 ajax 加载它旁边的部分内容而无需重新加载页面链接在这里这是链接应该转到的控制器 class ProfilesController lt ApplicationController def profile f
反转二进制网络

如何反转二元方程以便找到哪些输入将产生给定的输出 Example Inputs i0 through i8 Outputs o0 through o8 Operators XOR AND 二元方程 1 i0 1 i1 0 i2 1 i3
用于真实 Web 项目的 Scala-JS [已关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案有人用过吗Scala JS在真实的网络项目中但不仅仅适用于普通的JavaScript在隔离环境中替换我想尽可能多地使用 Scala 我希望可
JavaScript - 这个这个

String prototype foo String prototype foo bar function How can you reference the grandparent string console log this par
如何使用 terraform 创建 azure 应用程序注册和客户端密钥

我正在尝试为 Azure 应用程序注册和客户端密钥创建 Terraform 代码对订阅具有读取访问权限的服务主体基本上我正在尝试将 Azuresafe 与 Terraform 集成并尝试确定如何逐步配置 https docs saf
为什么这个 CSS nowrap 不起作用？

我试图阻止 bar top container div 包裹它的内容无论页面有多宽即两个选择应该始终出现在同一行但是当页面宽度太小而无法容纳它们时这不起作用一方面我该如何解决这个问题 Styles bar top containe
不兼容的类型 - 是因为数组已经是指针吗？

在下面的代码中我创建一个基于书籍结构的对象并让它保存多个书籍我设置的是一个数组即定义启动的对象然而每当我去测试我对指针的了解实践有帮助并尝试创建一个指向创建的对象的指针时它都会给我错误 C Users Justin D
如何得到将外力映射到广义力的矩阵？

给定一个多体植物我需要找到将外力 lambda 转换为广义力的矩阵 IE 以下方程中的 Phi 取自 Scott Kuindersma Frank Permenter 和 Russ Tedrake 的稳定动态运动的有效可解二次规划我的
检查 href 中是否存在 jQuery 中的查询字符串

我目前有一段 jQuery 用于附加带有一些位置信息的 URL jQuery a attr href function return this href location 123 abc 我的问题是大多数链接都有一个其中使用上面的就可以
无法匹配任何路线。 URL 段：''：尝试使用子路由和 Ng2 时

I have 以下笨蛋 https plnkr co edit PHaGNtfa0fPBgET4NEpZ p preview 这是行不通的为了让它发挥作用我可以评论 RouterModule forRoot path component
显示带有 jQuery-ui 自动完成功能的微调器

我一直在到处搜索但没有看到有人这样做是否有可能拥有某种带有 jQ uery UI 自动完成功能的旋转器加载器 1 8 获取数据时我的解决方案是使用 ui autocomplete loading CSS 类该类在 ajax GET
AngularUI Router：在调用子状态时将 url 参数传递给“抽象”状态

我想在调用子状态时访问抽象状态内的 url 参数 stateParam 我很想知道如何做到这一点代码在笨蛋也 http plnkr co edit L0TXx3DCBOJmh4XydXbV p preview stateProvider
网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页来自任何主要新闻来源例如时报或彭博社我想识别该页面上的主要文章内容并丢弃其他杂项元素例如广告菜单侧边栏用户评论在大多数主要新闻网站上都可以使用的通用方法是什么有哪些好的数据挖掘工具或库最好是基于Py

网页抓取 - 如何识别网页上的主要内容

网页抓取 - 如何识别网页上的主要内容 的相关文章

随机推荐

热门标签

网页抓取 - 如何识别网页上的主要内容的相关文章