TFIDF 矢量器给出错误

2024-03-16

我正在尝试使用 TFIDF 和 SVM 对某些文件进行文本分类。一次要选择 3 个单词的特征。我的数据文件已经采用以下格式：天使之眼，每一个都有其自己的。没有停用词，也不能进行旅鼠或词干提取。我希望该功能被选择为：天使眼有...... 我编写的代码如下：

import os
import sys
import numpy
from sklearn.svm import LinearSVC
from sklearn.metrics import confusion_matrix
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import metrics
from sklearn.datasets import load_files
from sklearn.cross_validation import train_test_split

dt=load_files('C:/test4',load_content=True)
d= len(dt)
print dt.target_names
X, y = dt.data, dt.target
print y
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
print y_train
vectorizer = CountVectorizer()
z= vectorizer.fit_transform(X_train)
tfidf_vect= TfidfVectorizer(lowercase= True, tokenizer=',', max_df=1.0, min_df=1, max_features=None, norm=u'l2', use_idf=True, smooth_idf=True, sublinear_tf=False)


X_train_tfidf = tfidf_vect.fit_transform(z)

print tfidf_vect.get_feature_names()
svm_classifier = LinearSVC().fit(X_train_tfidf, y_train)

不幸的是，我在“ X_train_tfidf = tfidf_vect.fit_transform(z)”处收到错误：属性错误：未找到下层。
如果我修改代码来做

tfidf_vect= TfidfVectorizer( tokenizer=',', use_idf=True, smooth_idf=True, sublinear_tf=False)
print "okay2"
#X_train_tfidf = tfidf_transformer.fit_transform(z)
X_train_tfidf = tfidf_vect.fit_transform(X_train)
print X_train_tfidf.getfeature_names()

我收到错误： TypeError: 'str' object is not callable 请有人告诉我我哪里出错了

分词器参数的输入是可调用的。尝试定义一个函数来适当地标记您的数据。如果是逗号分隔的话：

def tokens(x):
return x.split(',')

应该管用。

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect= TfidfVectorizer( tokenizer=tokens ,use_idf=True, smooth_idf=True, sublinear_tf=False)

创建一个由以下分隔的随机字符串,

 a=['cat on the,angel eyes has,blue red angel,one two blue,blue whales eat,hot tin roof']

tfidf_vect.fit_transform(a)
tfidf_vect.get_feature_names()

returns

Out[73]:

[u'angel eyes has',
 u'blue red angel',
 u'blue whales eat',
 u'cat on the',
 u'hot tin roof',
 u'one two blue']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

tfidf

TFIDF 矢量器给出错误的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

与绘制单独的线条相比，绘制图形更快的方法有哪些？

截至目前我正在使用拉伸到必要高度的 1px 矩形来绘制调试性能图但以这种方式绘制大量数据会导致显着的性能损失目前的逻辑是收集当前帧的所有时序将它们放入Queue
选择分组数据的最小数据 - 保留所有列[重复]

这个问题在这里已经有答案了我在这里碰壁了我有一个dataframe 很多行这是示意性示例 myDf ID c1 c2 myDate A 1 1 01 01 2015 A 2 2 02 02 2014 A 3 3 03 01 2014
Scala 中的类型擦除

我对这里发生的事情感到很困惑 import scala collection immutable object Main extends App sealed trait Node sealed trait Group case class
注册新 net_device 的正确方法是什么？

我正在尝试注册一个新的net device在linux中我可以正确分配和注册它并且ifconfig显示它当我尝试打开界面时问题出现了 ifconfig my dev up 发生内核冻结问题仅出现在 x86 计算机上我无法找出原因
在Factory Boy中，如何连接Faker创建的字符串？

我想用工厂男孩 http factoryboy readthedocs io en latest index html and 它的支持 http factoryboy readthedocs io en latest realistic
jquery 使用智能投票插件进行轮询

我一生都在努力让这个插件正常工作但我不理解状态函数因此重试不会触发 poll 10000 function retry get willfail function response status if status success Do
从字典中查找 n 个最大值

我正在 Python 项目中工作我遇到了一个问题正如我在下面解释的那样但涉及其他数据例如如果我有这个字典 fruitsCount apple 24 orange 20 banana 18 grape 13 kiwi 13 如何返回
Java整数超出范围[重复]

这个问题在这里已经有答案了我正在学习 Java 正在尝试一些小程序我对这个有一个问题 Compute the number of cubic inches in 1 cubic mile class Inches public stat
新的 Chrome 更新取消了 wmode=transparent

最新版本的 Chrome 似乎已经取消了我的 SWF 上的透明背景在网站上我使用 Flash 在元素顶部添加透明视频然而在最新版本的 Chrome 下背景现在是黑色的这个问题已经被问过几次了但没有得到任何答案这是我的代码
当 PHP 是您的主要语言时，在 SQL Server 数据库中存储日期/时间的首选格式是什么？

我正在计划一个需要在 MSSQL 数据库中存储日期时间的 PHP 应用程序出于好奇它是一个日历应用程序存储此信息的首选格式是什么 MSSQL 有自己的日期时间数据类型它在数据库本身中运行良好并且可读性很强然而没有任何 MSSQ
在 MATLAB 中动态命名结构体变量

我有几个文件 2011 01 01 txt 2013 01 02 txt 2015 02 01 txt 等我希望为每个文件创建一个结构变量以便值是组成的 machine20110101 size 1 2 3 machine201101
JSoup 不适用于 AsyncTask

我注意到我的应用程序发生了一件有趣的事情我在 AsyncTask 中使用 Jsoup 之后我的应用程序崩溃了 LogCat 是 12 15 11 16 43 023 I dalvikvm 371 Could not find method
如何调用具有可变数量参数的实现？

为了简单起见假设我有一个类似的函数 void myFunc id self SEL cmd id first 在该方法中我想调用 self 超类的实现 imp 我可以使用以下代码到达该 IMP Class class object ge
Python 如何检查迭代器工具链中是否已到达最后一个元素？

for elt in itertools chain from iterable node if elt is the last element do statement 我如何实现这一目标您可以通过使用以下命令在 while 循环中手动
BFG Repo Cleaner的正确使用方法

The BFG 回购清理器 https rtyley github io bfg repo cleaner 网站给出了使用该工具清理存储库的示例如下所示克隆您的存储库的新副本 git clone mirror git example c
模块化、基于组件的 Sinatra 应用程序的架构

我正在开发一个 Sinatra 应用程序其中包含大约 10 个不同的功能组件我们希望能够将这些组件混合并匹配到应用程序的单独实例中完全通过 config yaml 文件进行配置如下所示 components route chunky
同一表中的 MySQL 计数，包括零计数值

我有这个带有数据的表结构 INSERT INTO test id email id user ref name VALUES 1 email protected cdn cgi l email protection NULL Mike 2
Ember.js 渲染大型列表而不锁定浏览器

当需要在客户端渲染大量项目时我对 Ember js 有哪些选择分页是一种减少渲染时间的明显方法但是还有其他技巧可以让您渲染一个大的项目列表而不会在 JavaScript 执行时出现明显的浏览器冻结吗 ember 列表视图 https
CakePHP 和子查询

如何使用 cake 语法编写 SQL 子查询我知道如何编写简单的查询但无法处理子查询这是原始查询 SELECT Assumption id Referee id Referee first name Referee second na
TFIDF 矢量器给出错误

我正在尝试使用 TFIDF 和 SVM 对某些文件进行文本分类一次要选择 3 个单词的特征我的数据文件已经采用以下格式天使之眼每一个都有其自己的没有停用词也不能进行旅鼠或词干提取我希望该功能被选择为天使眼有我编写的代码如下

TFIDF 矢量器给出错误

TFIDF 矢量器给出错误 的相关文章

随机推荐

热门标签

TFIDF 矢量器给出错误的相关文章