我正在合并 100 个 HTML 页面,所有页面的头部都嵌入了样式元素。使用 BeautifulSoup 提取 style 的内容,但现在只剩下将字符串解析为字典 {selector_str:properties_str} 的任务。查看tinycss,它可以轻松地为我提供选择器“.c0”,但不是属性字符串“{...}”。
这是一个示例字符串
'.c0 { padding: 1px 0px 0px; font-size: 11px } .c1 { margin: 0px; font-size: 11px } .c2 { font-size: 11px } .c3 { font-size: 11px; font-style: italic; font-weight: bold } '
建议?欢迎使用正则表达式。这就是 CSS 的范围。每个页面上的类选择器 .c0 到 .c100(s) 都遵循相同的模式。
像这样的东西吗?
from collections import defaultdict
properties = defaultdict(str)
for item in example_str.split("}"):
item_split = item.split("{")
properties[item_split[0]] = "{" + item_split[1] + "}"
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)