我有一个脚本来替换“href”标签中的单词。不过,我想完全删除 a href,这样您就可以看到没有链接的 Google 一词。
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('<p>Hello <a href="http://google.com">Google</a></p>')
for a in soup.findAll('a'):
a['href'] = a['href'].replace("google", "mysite")
result = str(soup)
您还可以找到放在 href 中的所有单词,并在它们之前和之后放置一个“”。我不知道该怎么做。我想这是在更换之前完成的。
Use del a['href']
相反,就像在普通字典上一样:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('<p>Hello <a href="http://google.com">Google</a></p>')
for a in soup.findAll('a'):
del a['href']
给你:
>>> print str(soup)
<p>Hello <a>Google</a></p>
UPDATE:
如果你想摆脱<a>
标签全部,你可以使用.replaceWithChildren()
method:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('<p>Hello <a href="http://google.com">Google</a></p>')
for a in soup.findAll('a'):
a.replaceWithChildren()
给你:
>>> print str(soup)
<p>Hello Google</p>
...以及您在评论中要求的内容(将标签的文本内容用空格包裹起来),可以通过以下方式实现:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('<p>Hello <a href="http://google.com">Google</a></p>')
for a in soup.findAll('a'):
del a['href']
a.setString(' %s ' % a.text)
给你:
>>> print str(soup)
<p>Hello <a> Google </a></p>
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)