从 difflib 中获取更细粒度的差异（或者通过后处理差异来实现相同目的的方法）

2023-12-11

正在下载this页面并对其进行较小的编辑，更改第一个65在本段中68:

然后我解析两个来源美丽汤并将它们与difflib.

url = 'https://secure.ssa.gov/apps10/reference.nsf/links/02092016062645AM'
response = urllib2.urlopen(url)
content = response.read()  # get response as list of lines

url2 = 'file:///Users/Pyderman/projects/temp/02092016062645AM-modified.html'
response2 = urllib2.urlopen(url2)
content2 = response2.read()  # get response as list of lines
import difflib
d = difflib.Differ()

diffed = d.compare(content, content)

soup = bs4.BeautifulSoup(content, "lxml")
soup2= bs4.BeautifulSoup(content2, "lxml")
diff = d.compare(list(soup.stripped_strings), list(soup2.stripped_strings))
changes = [change for change in diff if change.startswith('-') or  change.startswith('+')]
for change in changes:
    print change

打印更改给出：

- The Achieving a Better Life Experience (ABLE) Act, H.R. 5771, legislation passed on December 19, 2014. It contains a Title II provision that changes the age at which workers compensation/public disability offset ends for disability beneficiaries from age 65 to full retirement age (FRA).  This provision will apply to any individual who attains age 65 on or after December 19, 2015 (the one year anniversary of enactment of this bill).  Two new Universal Text Identifiers (UTIs), UTI WCP060 and WCP061 were created to comply with this change.
+ The Achieving a Better Life Experience (ABLE) Act, H.R. 5771, legislation passed on December 19, 2014. It contains a Title II provision that changes the age at which workers compensation/public disability offset ends for disability beneficiaries from age 68 to full retirement age (FRA).  This provision will apply to any individual who attains age 65 on or after December 19, 2015 (the one year anniversary of enactment of this bill).  Two new Universal Text Identifiers (UTIs), UTI WCP060 and WCP061 were created to comply with this change.

因此，尽管变化很小，但它还是打印了整个段落。我认为它通过整个段落而不是句子来显示差异是一件好事，但是我们可以以某种方式使输出更加精细吗？就目前情况而言，似乎我想强调一下只是改变了文字，我必须对这两个几乎相同的字符串进行一些额外的增量比较。

您可以使用nltk.sent_tokenize()将 soup 字符串拆分成句子：

from nltk import sent_tokenize

sentences = [sentence for string in soup.stripped_strings for sentence in sent_tokenize(string)]
sentences2 = [sentence for string in soup2.stripped_strings for sentence in sent_tokenize(string)]

diff = d.compare(sentences, sentences2)
changes = [change for change in diff if change.startswith('-') or  change.startswith('+')]
for change in changes:
    print(change)

仅打印检测到更改的适当句子：

- It contains a Title II provision that changes the age at which workers compensation/public disability offset ends for disability beneficiaries from age 65 to full retirement age (FRA).
+ It contains a Title II provision that changes the age at which workers compensation/public disability offset ends for disability beneficiaries from age 68 to full retirement age (FRA).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

htmlparsing

lxml

difflib

从 difflib 中获取更细粒度的差异（或者通过后处理差异来实现相同目的的方法）的相关文章

keras 层教程和示例

我正在尝试编码和学习不同的神经网络模型我对输入维度有很多复杂性我正在寻找一些教程显示层的差异以及如何设置每个层的输入和输出 Keras 文档 https keras io layers core 向您展示所有input shape每层
导入错误：无法导入名称“PandasError”

我对在 Mac 上运行的 Python 3x 非常陌生当前使用 python 金融的 senddex 教程尝试运行以下脚本 import datetime as dt import matplotlib pyplot as plt fr
将预训练的手套词嵌入与 scikit-learn 结合使用

我已经使用 keras 来使用预先训练的词嵌入但我不太确定如何在 scikit learn 模型上执行此操作我也需要在 sklearn 中执行此操作因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型这就
Python3 类型错误：replace() 参数 1 必须是 str，而不是 int

我已经尝试了几天让这段代码在 MacOS 上运行但没有成功你能看一下我错过了什么吗运行 python 3 6 我已经上传了整个代码多谢 usr bin env python3 from future import print fun
将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

我的任务是清理慈善机构设计的移动应用程序中的数据在一个部分中用户问答应用程序使用会话由一行表示该部分由重复的问题答案字段对组成其中一个字段代表所提出的问题然后它旁边的字段代表相应的答案每个问题字段和答案列对一起代表一个独特的问
使用记事本打开文本文件作为python中的帮助文件？

我想为我的简单程序的用户提供打开帮助文件的机会以指导他们如何充分利用我的程序理想情况下我希望在 GUI 上有一个蓝色的小帮助链接可以随时单击该链接从而在本机文本编辑器例如记事本中打开 txt 文件有没有一种简单的方法可以做到
可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
从另一个文件覆盖函数中的变量

一总结我不知道如何从另一个文件覆盖函数中的变量 2 示例 2 1 配置 I use logbook http logbook pocoo org and pyfancy https github com ilovecode1 Pyfan
argparse 更改参数的定义

我按如下方式设置参数解析器 parser argparse ArgumentParser parser add argument point help enter a point e g 2 3 4 parser parse args po
参数太少错误，同时未使用参数占位符

我尝试使用 PYODBC 在 Access 数据库中执行 SQL 查询但出现以下错误 pyodbc Error 07002 07002 Microsoft ODBC Microsoft Access 驱动程序参数太少预期为 1 301
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
带有redirect_uri的social-auth-app-django Facebook后端状态

我知道我的问题听起来像是重复的但我到处寻找但没有找到任何解决方案我正在努力为我的 django web 应用程序实现社交登录到目前为止谷歌推特和雅虎登录均按预期工作但facebook总是给出以下错误 URL 被阻止此重定向失败
Django - 该进程无法访问该文件，因为该文件正在被另一个进程使用

我正在尝试在 Windows 10 上运行 Django 我是 Django 的新手我正在使用 Compressor Toolkit 我的问题是我可以运行 manage py 但本地主机说 base html 第 9 行出错该进程无法访
如何列出静态链接的 python 版本中可用的所有 openssl 密码？

在python 2 7 8到2 7 9升级中 ssl模块从使用更改为 DEFAULT CIPHERS DEFAULT aNULL eNULL LOW EXPORT SSLv2 to DEFAULT CIPHERS ECDH AESGCM D
Tkinter 按钮鼠标右键和左键单击有不同的命令

我正在用 Python 制作扫雷游戏并使用 tkinter 库来创建 gui 有没有绑定到 tkinter 按钮两个命令的方法一个是右键单击按钮时的命令另一个是单击左键时的命令通常按钮仅设计用于单击但 tkinter 允许您为
如何避免在matplotlib中调用latex（输出到pgf）

我使用 matplotlib 及其 pgf 后端来生成包含在 LaTeX 投影仪文档中的绘图当我使用未定义的乳胶命令时我遇到了麻烦但对于我的应用程序我不需要 matplotlib 来使用 Latex 生成标签或注释我只想要正确的
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
Google App Engine self.redirect() POST 方法

在 GAE Python 中使用 webApp 框架调用 self redirect some url 通过 GET 方法将用户重定向到该 URL 是否也可以通过带有一些参数的 POST 方法进行重定向如果可以的话怎样做 Than
有没有比 Python 内置 == 运算符更快的方法来测试两个列表是否具有完全相同的元素？

如果我有两个列表每个列表有 800 个元素长并填充整数有没有比使用内置元件更快的方法来比较它们具有完全相同的元件如果没有则短路操作员 a 6 2 3 88 54 486 b 6 2 3 88 54 486 a b gt gt gt
*Python 内的 Kaggle API 文档？

我想写一个python从 Kaggle com 下载公共数据集的脚本 Kaggle API 是用 python 编写的但是我能找到的几乎所有文档和资源都是关于如何在命令行中使用该 API 的而关于如何使用kaggle图书馆内python

随机推荐

如何将滚动条附加到文本小部件？

我试图将滚动条附加到我的文本字段但无法执行此操作这是代码段 self scroller Scrollbar self root self scroller place x 706 y 121 self outputArea Text s
将 pandas groupby 结果与小计转换为相对值

我遇到过一个插入小计的好解决方案进入 pandas groupby 数据框但是现在我想修改结果以显示相对于小计的相对值而不是绝对值这是显示 groupby 的代码 import pandas as pd import numpy a
Firebird 从表中选择字段，其中 Field = current_date

我有一个简单但对我来说无法解决的问题我有这样的要求 Firebird 从表中选择字段其中 Field current date 问题是该字段是一个文本字段保存以下格式的日期 25 04 2014 如果是当前日期我该如何转换这个问题有
Raphael.js attr 函数设置了错误的值

我正在使用 Raphael js 实现拖放系统为此我存储了 mousedown 上的原始 x 和 y 位置如果 mouseup 上发生碰撞我想将位置重置为原始位置这是执行重置的代码 this 指的是此处的 raphael 对象 v
如何使用 graph api 在 Facebook 粉丝页面上为帖子加注星标？

我正在我的粉丝专页上发帖但我想做重点帖子有什么建议么我得在粉丝专页上一一给他们加注星标有什么办法可以做到这一点吗我也阅读了文档但没有示例 http developers facebook com docs reference a
JMeter 预处理变量作为报告文件名的一部分

在我的测试计划中我有 JDBC 预处理器它捕获我试图保存到变量中的单个值然后我想重用这个变量作为摘要报告文件名的一部分我想知道创建该变量是否发生得太晚了因为我总是得到文字值logs session id 1 summary cvs
iOS 11 如何防止旋转？

从 iOS 11 2 开始我注意到 BOOL shouldAutorotate BOOL shouldAutorotateToInterfaceOrientation UIInterfaceOrientationMask supporte
此汇编代码需要解释

这是c代码 void test function int a int b int c int d int flag char buffer 10 flag 31337 buffer 0 A int main test function 1
如何遍历json节点的所有key

我正在尝试从该网站中删除关键值API而且 json 格式似乎不是数组我正在使用 System Text Json Nodes 处理控制台 Net core 6 0 我正在使用的代码是 Dim streamData As Stream No
为什么这么多 JavaScript 脚本要向事物附加随机数？碰撞？

我最近一直在学习 JavaScript 并且看到了许多使用 Math rand 附加到链接的示例 Facebook com 可读性书签这解决了什么问题 Readability 小书签中的示例参数 readability script sr
箱线图：按每个组的子集的平均值对组进行排序

让我们考虑一下这个数据 df data frame score round runif 15 1 10 group paste0 a rep c 1 2 3 each 5 category rep c big big big big sma
Web 浏览器中的后退按钮如何工作？

我在网上搜索了这个问题但一无所获返回按钮的逻辑是什么当我们点击网络浏览器上的后退按钮时会发生什么我真的很想了解更多您的网络浏览器会保留您在该窗口中访问过的网页的堆栈或列表如果您愿意的话假设您的主页是search exampl
我可以在 CSS 媒体查询中使用“OR”吗？

我正在尝试将以下三个媒体查询合并为一个 media only screen and max device width 480px media only screen and webkit min device pixel ratio 2 m
使用 Swift 和 Storyboard 在两个 UIViewController 之间传递数据

我使用下面的代码选择 UITableView 在 UIViewController 之间传递数据 void prepareForSegue UIStoryboardSegue segue sender id sender if segue
查找两个子字符串之间的所有字符串

我有以下字符串作为示例 string cat dog 我想提取所有锁定在和之间的字符串因此输出将是 cat dog 我只知道如何提取第一次出现的情况 import re r re compile m r search string i
为什么从 chrome 派生的 xpath 不起作用

我正在尝试从中抓取数据科学网这是特定页面我要和下面是我用来提取摘要的代码 import lxml import requests url https apps webofknowledge com full record do prod
register_blueprint 不添加到 Flask 应用程序的路由

我创建了一个带有路线的蓝图并使用我的 Flask 应用程序注册了该蓝图但是我在请求路线时收到 404 我的代码有什么问题吗 from flask import Flask Blueprint bp Blueprint test nam
在 t-sql 中获取每隔一行作为结果表

我正在寻找一个返回列表的 t sql 脚本该列表显示 Table1 分组中的每个第二值例如我有以下数据表1 并想要所需的结果列表 Table1 Customer Quantity A 5 A 8 B 3 B 5 B 11 C 7 D
在我的应用程序中全局改变滚动条的宽度

我有一个在触摸屏计算机上运行的 WPF 应用程序我想将应用程序中的所有滚动条更改得更宽有没有办法在全球范围内做到这一点你必须override the default template of scrollViewer增加垂直滚动条的宽度
从 difflib 中获取更细粒度的差异（或者通过后处理差异来实现相同目的的方法）

正在下载this页面并对其进行较小的编辑更改第一个65在本段中68 然后我解析两个来源美丽汤并将它们与difflib url https secure ssa gov apps10 reference nsf links 02092016

从 difflib 中获取更细粒度的差异（或者通过后处理差异来实现相同目的的方法）

从 difflib 中获取更细粒度的差异（或者通过后处理差异来实现相同目的的方法） 的相关文章

随机推荐

热门标签

从 difflib 中获取更细粒度的差异（或者通过后处理差异来实现相同目的的方法）的相关文章