我有一个制表符分隔的 .txt 文件,我正在尝试将其导入到与文本文件格式相同的 Python 数据框中,如下所示:
ham TAB一直走到裕廊点,太疯狂了。只在布吉斯大世界有自助餐。电影那里有更多的东西...
spam TAB免费参加 2 场每周比赛,赢得 2005 年 5 月 21 日的足总杯决赛 tkts。发送短信 FA 至 87121 接收参赛问题(标准文本率)T&C 适用 08452810075over18's
...
请注意,上面的内容还有很多很多行(大约 5500 行),我想将它们传递到 Python 中,并在从中创建矩阵数组时保持相同的格式。
我目前的代码是:
import pandas as pd
with open("SMSSpamCollection.txt") as f:
reader = csv.reader(f, delimiter = "\t")
d = list(reader)
d = pd.DataFrame(reader)
它稍微做了我需要它做的事情,但我想要一个包含两列的 DataFrame:Y(包含火腿或垃圾邮件)和第二个 X(包含消息)。这时候我得到了一个[5572,2] DataFrame。
这个怎么样:
import pandas as pd
d = pd.read_csv("SMSSpamCollection.txt", sep="\t", names=['Y','X'])
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)