我正在学习 Scikit-Learn 对推文进行一些分类。我有一个 csv,其中一列包含推文,下一列包含 0-11 的班级。我经历了本教程来自 Scikit-Learn 网站 http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#tutorial-setup我想我理解实际的分类是如何完成的,但我不认为我真正理解数据格式。在教程中,材料位于文件夹中的文件中,其中文件夹名称充当分类标签。
就我而言,我应该从 csv 文件加载该数据,显然我需要构建手动输入矢量化器和分类器的数据结构。我应该如何处理这个问题?我认为本教程在这方面有点含糊,因为数据加载是自动完成的,让我对自定义数据的结构和加载一无所知。
通常你会使用pandas.read_csv http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html或者如果你不想依赖 pandasnumpy.load http://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html或者甚至使用标准库将 cvs 加载到列表中。它看起来像这样:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
df = pd.read_csv('example.csv', header=None, sep=',',
names=['tweets', 'class']) # columns names if no header
vect = TfidfVectorizer()
X = vect.fit_transform(df['tweets'])
y = df['class']
一旦你有了你的X
and y
您可以将它们输入分类器。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)