一、背景
今日做了一个文本分类任务,在更换对应的语料库的时候,处理完的语料报了个如题的错误。究其原因
这里用到了一个split('\t')作为content和label的分割,也就是在语料库中使用\t作为语料库中句子和标签的分隔符。但是在我写下
content,label=line.split('\t')的时候,却提示ValueError: not enough values to unpack (expected 2, got 1),那么很明显,并没有识别到文中的\t,所以也就把label当成了content的一部分。
二、问题分析
文本以及处理的肉眼观感上基本类似了,却依然不对,排除了玄学的可能性,也就是这个tab在我的文本中和原来的语料库的文本中,可能代表的长度不一样。也就是并非是一个\t
三、问题解决
放弃\t,使用#或类似的符号来进行切割(使用前需要搜索语料中是否出现过这个符号)
与此同时,特殊符号的转义等也是可能性较大的原因。
可以在评论区讨论,如果内容有误,欢迎指正