我想使用 python 来比较两个 html 文件:
例子 :
html_1 = """
<p>i love it</p>
"""
html_2 = """
<h2>i love it </p>
"""
diff 文件将如下所示:
diff_html = """
<del><p>i love it</p></dev><ins><h2>i love it</h2></ins>
"""
有这样的 python lib 帮助我做到这一点吗?
lxml http://lxml.de/lxmlhtml.html#html-diff可以做一些类似于你想做的事情。来自文档:
>>> from lxml.html.diff import htmldiff
>>> doc1 = '''<p>Here is some text.</p>'''
>>> doc2 = '''<p>Here is <b>a lot</b> of <i>text</i>.</p>'''
>>> print htmldiff(doc1, doc2)
<p>Here is <ins><b>a lot</b> of <i>text</i>.</ins> <del>some text.</del> </p>
我不知道有任何其他 Python 库可以完成此特定任务,但您可能想查看逐字差异。他们可能会接近您想要的。
一个例子是this one https://github.com/paulgb/simplediff/blob/master/simplediff.py,用 PHP 和 Python 实现(将其另存为diff.py
, then import diff
)
>>> diff.htmlDiff(a,b)
>>> '<del><p>i</del> <ins><h2>i</ins> love <del>it</p></del> <ins>it </p></ins>'
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)