从xml中提取的,文件格式为tsv,和csv差不多,可以转为其他格式
链接:https://pan.baidu.com/s/1lDiuvpbT5qPc_uJJs0cPUQ
提取码:t5i7
import xml.dom.minidom
import csv
import pandas as pd
f = open('Nlpcc2013Train.tsv','a+',encoding='utf-8',newline='')
csv_writer = csv.writer(f)
csv_writer.writerow(['标签','文本'])
dom = xml.dom.minidom.parse('Nlpcc2013/微博情绪样例数据V5-13.xml')
root = dom.documentElement
wb=dom.getElementsByTagName('weibo')
for i in range(len(wb)):
wbi=wb[i]
sens=wbi.getElementsByTagName('sentence')
for j in range(len(sens)):
senj=sens[j]
if senj.firstChild is None:
continue
if senj.hasAttribute('emotion-1-type'):
em=senj.getAttribute('emotion-1-type')
else:
em='none'
text=senj.firstChild.data
csv_writer.writerow([em,text])
f.close()
在这里插入代码片
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)