我是张量流和机器学习的新手。我在编写张量流代码时遇到问题,该代码的文本分类类似于我尝试使用 sklearn 库进行的文本分类。我在对数据集进行矢量化并向张量流层提供输入方面面临着重大问题。
我确实记得对标签进行了一次热编码,但前面的张量流层不接受创建的数组。
请注意,我已经阅读了 stackoverflow 上大部分文本分类回答的问题,但它们太具体或需要解决的复杂需求。
我的问题案例太窄,需要非常基本的解决方案。
如果有人能告诉我类似于我的 sklearn 机器学习算法的步骤或张量流代码,那将会有很大帮助。
使用的数据集可在以下位置获得:https://www.kaggle.com/virajgala/classifying-text
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
#Reading the csv dataset
df = pd.read_csv(('/Classifyimg_text.csv'), index_col=False).sample(frac=1)
#Splitting the dataset
train_data, test_data, train_labels, test_labels = train_test_split(df['sentence'], df['label'], test_size=0.2)
#Vectorization and Classification
streamline = Pipeline([('vect', TfidfVectorizer(max_features=int(1e8))),
('clf', SGDClassifier())]).fit(train_data, train_labels)
#Prediction
Output = streamline.predict(["This is my action to classify the text."])