TFIDF 矢量器给出错误

2024-03-16

我正在尝试使用 TFIDF 和 SVM 对某些文件进行文本分类。一次要选择 3 个单词的特征。 我的数据文件已经采用以下格式:天使之眼,每一个都有其自己的。 没有停用词,也不能进行旅鼠或词干提取。 我希望该功能被选择为:天使眼有...... 我编写的代码如下:

import os
import sys
import numpy
from sklearn.svm import LinearSVC
from sklearn.metrics import confusion_matrix
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import metrics
from sklearn.datasets import load_files
from sklearn.cross_validation import train_test_split

dt=load_files('C:/test4',load_content=True)
d= len(dt)
print dt.target_names
X, y = dt.data, dt.target
print y
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
print y_train
vectorizer = CountVectorizer()
z= vectorizer.fit_transform(X_train)
tfidf_vect= TfidfVectorizer(lowercase= True, tokenizer=',', max_df=1.0, min_df=1, max_features=None, norm=u'l2', use_idf=True, smooth_idf=True, sublinear_tf=False)


X_train_tfidf = tfidf_vect.fit_transform(z)

print tfidf_vect.get_feature_names()
svm_classifier = LinearSVC().fit(X_train_tfidf, y_train)

不幸的是,我在“ X_train_tfidf = tfidf_vect.fit_transform(z)”处收到错误: 属性错误:未找到下层。
如果我修改代码来做

tfidf_vect= TfidfVectorizer( tokenizer=',', use_idf=True, smooth_idf=True, sublinear_tf=False)
print "okay2"
#X_train_tfidf = tfidf_transformer.fit_transform(z)
X_train_tfidf = tfidf_vect.fit_transform(X_train)
print X_train_tfidf.getfeature_names()

我收到错误: TypeError: 'str' object is not callable 请有人告诉我我哪里出错了


分词器参数的输入是可调用的。尝试定义一个函数来适当地标记您的数据。如果是逗号分隔的话:

def tokens(x):
return x.split(',')

应该管用。

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect= TfidfVectorizer( tokenizer=tokens ,use_idf=True, smooth_idf=True, sublinear_tf=False)

创建一个由以下分隔的随机字符串,

 a=['cat on the,angel eyes has,blue red angel,one two blue,blue whales eat,hot tin roof']

tfidf_vect.fit_transform(a)
tfidf_vect.get_feature_names()

returns

Out[73]:

[u'angel eyes has',
 u'blue red angel',
 u'blue whales eat',
 u'cat on the',
 u'hot tin roof',
 u'one two blue']
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

TFIDF 矢量器给出错误 的相关文章

随机推荐

  • 与绘制单独的线条相比,绘制图形更快的方法有哪些?

    截至目前 我正在使用拉伸到必要高度的 1px 矩形来绘制调试性能图 但以这种方式绘制大量数据会导致显着的性能损失 目前的逻辑是 收集当前帧的所有时序 将它们放入Queue
  • 选择分组数据的最小数据 - 保留所有列[重复]

    这个问题在这里已经有答案了 我在这里碰壁了 我有一个dataframe 很多行 这是示意性示例 myDf ID c1 c2 myDate A 1 1 01 01 2015 A 2 2 02 02 2014 A 3 3 03 01 2014
  • Scala 中的类型擦除

    我对这里发生的事情感到很困惑 import scala collection immutable object Main extends App sealed trait Node sealed trait Group case class
  • 注册新 net_device 的正确方法是什么?

    我正在尝试注册一个新的net device在linux中 我可以正确分配和注册它并且ifconfig显示它 当我尝试打开界面时 问题出现了 ifconfig my dev up 发生内核冻结 问题仅出现在 x86 计算机上 我无法找出原因
  • 在Factory Boy中,如何连接Faker创建的字符串?

    我想用工厂男孩 http factoryboy readthedocs io en latest index html and 它的支持 http factoryboy readthedocs io en latest realistic
  • jquery 使用智能投票插件进行轮询

    我一生都在努力让这个插件正常工作 但我不理解状态函数 因此重试不会触发 poll 10000 function retry get willfail function response status if status success Do
  • 从字典中查找 n 个最大值

    我正在 Python 项目中工作 我遇到了一个问题 正如我在下面解释的那样 但涉及其他数据 例如 如果我有这个字典 fruitsCount apple 24 orange 20 banana 18 grape 13 kiwi 13 如何返回
  • Java整数超出范围[重复]

    这个问题在这里已经有答案了 我正在学习 Java 正在尝试一些小程序 我对这个有一个问题 Compute the number of cubic inches in 1 cubic mile class Inches public stat
  • 新的 Chrome 更新取消了 wmode=transparent

    最新版本的 Chrome 似乎已经取消了我的 SWF 上的透明背景 在网站上 我使用 Flash 在元素顶部添加透明视频 然而 在最新版本的 Chrome 下 背景现在是黑色的 这个问题已经被问过几次了 但没有得到任何答案 这是我的代码
  • 当 PHP 是您的主要语言时,在 SQL Server 数据库中存储日期/时间的首选格式是什么?

    我正在计划一个需要在 MSSQL 数据库中存储日期 时间的 PHP 应用程序 出于好奇 它是一个日历应用程序 存储此信息的首选格式是什么 MSSQL 有自己的日期时间数据类型 它在数据库本身中运行良好并且可读性很强 然而 没有任何 MSSQ
  • 在 MATLAB 中动态命名结构体变量

    我有几个文件 2011 01 01 txt 2013 01 02 txt 2015 02 01 txt 等 我希望为每个文件创建一个结构变量 以便 值是组成的 machine20110101 size 1 2 3 machine201101
  • JSoup 不适用于 AsyncTask

    我注意到我的应用程序发生了一件有趣的事情 我在 AsyncTask 中使用 Jsoup 之后我的应用程序崩溃了 LogCat 是 12 15 11 16 43 023 I dalvikvm 371 Could not find method
  • 如何调用具有可变数量参数的实现?

    为了简单起见 假设我有一个类似的函数 void myFunc id self SEL cmd id first 在该方法中 我想调用 self 超类的实现 imp 我可以使用以下代码到达该 IMP Class class object ge
  • Python 如何检查迭代器工具链中是否已到达最后一个元素?

    for elt in itertools chain from iterable node if elt is the last element do statement 我如何实现这一目标 您可以通过使用以下命令在 while 循环中手动
  • BFG Repo Cleaner的正确使用方法

    The BFG 回购清理器 https rtyley github io bfg repo cleaner 网站给出了使用该工具清理存储库的示例 如下所示 克隆您的存储库的新副本 git clone mirror git example c
  • 模块化、基于组件的 Sinatra 应用程序的架构

    我正在开发一个 Sinatra 应用程序 其中包含大约 10 个不同的功能组件 我们希望能够将这些组件混合并匹配到应用程序的单独实例中 完全通过 config yaml 文件进行配置 如下所示 components route chunky
  • 同一表中的 MySQL 计数,包括零计数值

    我有这个带有数据的表结构 INSERT INTO test id email id user ref name VALUES 1 email protected cdn cgi l email protection NULL Mike 2
  • Ember.js 渲染大型列表而不锁定浏览器

    当需要在客户端渲染大量项目时 我对 Ember js 有哪些选择 分页是一种减少渲染时间的明显方法 但是还有其他技巧可以让您渲染一个大的项目列表 而不会在 JavaScript 执行时出现明显的浏览器冻结吗 ember 列表视图 https
  • CakePHP 和子查询

    如何使用 cake 语法编写 SQL 子查询 我知道如何编写简单的查询 但无法处理子查询 这是原始查询 SELECT Assumption id Referee id Referee first name Referee second na
  • TFIDF 矢量器给出错误

    我正在尝试使用 TFIDF 和 SVM 对某些文件进行文本分类 一次要选择 3 个单词的特征 我的数据文件已经采用以下格式 天使之眼 每一个都有其自己的 没有停用词 也不能进行旅鼠或词干提取 我希望该功能被选择为 天使眼有 我编写的代码如下