我有一个 csv 文件,其中包含一些文本。我想对这段文本进行标记(拆分为单词列表),但我遇到了如何处理的问题pd.read_csv
解释转义字符。
我的 csv 文件如下所示:
text, number
one line\nother line, 12
代码如下:
df = pd.read_csv('test.csv')
word_tokenize(df.iloc[0,0])
输出是:
['one', 'line\\nother', 'line']
而我想要的是:
['one', 'line', 'other', 'line']
问题是pd.read_csv()
不解释\n
作为换行符但作为两个字符 (\
and n
).
我尝试过设置escapechar
论证'\'
and to '\\'
但两者都只是从字符串中删除斜杠,而不对换行符进行任何解释,即字符串变成on one linenon other line
.
如果我明确设置df.iloc[0,0] = 'one line\nother line'
, word_tokenize
工作得很好,因为\n
这次实际上被解释为换行符。
理想情况下,我会简单地改变方式来做到这一点pd.read_csv()
解释该文件,但其他解决方案也可以。