是否可以对任何文本分类应用 PCA？

2024-03-29

我正在尝试用 python 进行分类。我正在对网页使用朴素贝叶斯多项式NB分类器（将数据从网络检索到文本，稍后我对此文本进行分类：网络分类）。

现在，我尝试对这些数据应用 PCA，但 python 给出了一些错误。

我的朴素贝叶斯分类代码：

from sklearn import PCA
from sklearn import RandomizedPCA
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
vectorizer = CountVectorizer()
classifer = MultinomialNB(alpha=.01)

x_train = vectorizer.fit_transform(temizdata)
classifer.fit(x_train, y_train)

这个朴素贝叶斯分类给出了输出：

>>> x_train
<43x4429 sparse matrix of type '<class 'numpy.int64'>'
    with 6302 stored elements in Compressed Sparse Row format>

>>> print(x_train)
(0, 2966)   1
(0, 1974)   1
(0, 3296)   1
..
..
(42, 1629)  1
(42, 2833)  1
(42, 876)   1

比我尝试对我的数据应用 PCA (temizdata) :

>>> v_temizdata = vectorizer.fit_transform(temizdata)
>>> pca_t = PCA.fit_transform(v_temizdata)
>>> pca_t = PCA().fit_transform(v_temizdata)

但这会引发以下错误：

raise TypeError('传递了一个稀疏矩阵，但是密集' TypeError: A 稀疏矩阵已通过，但需要密集数据。使用 X.toarray() 转换为密集 numpy 数组。

我将矩阵转换为密集矩阵或 numpy 数组。然后我尝试对新的密集矩阵进行分类，但出现错误。

我的主要目的是测试 PCA 对文本分类的效果。

转换为密集数组：

v_temizdatatodense = v_temizdata.todense()
pca_t = PCA().fit_transform(v_temizdatatodense)

最后尝试分类：

classifer.fit(pca_t,y_train)

最终分类错误：

引发 ValueError("输入 X 必须为非负数") ValueError: 输入 X 必须是非负数

一方面我的数据（temizdata) 只放在朴素贝叶斯中，另一边temizdata首先放入PCA（用于减少输入）然后进行分类。 __

而不是转换一个sparse矩阵到dense（这是不鼓励的），我会使用 scikit-learnTruncatedSVD http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html，这是一种类似 PCA 的降维算法（默认使用随机 SVD），适用于稀疏数据：

svd = TruncatedSVD(n_components=5, random_state=42)
data = svd.fit_transform(data)

并且，引用自TruncatedSVD文档：

特别是，截断的 SVD 适用于由 sklearn.feature_extraction.text 中的向量化器返回的术语计数/tf-idf 矩阵。在这种情况下，它被称为潜在语义分析（LSA）。

这正是您的用例。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

PCA

naivebayes

是否可以对任何文本分类应用 PCA？的相关文章

在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
pandas Wide_to_long 后缀参数

我对在 pandas 中使用 Wide to long 时的参数有疑问有一个参数叫suffix我不明白在文档中它说后缀 str 默认 d 捕获所需后缀的正则表达式 d 捕获数字后缀没有数字的后缀可以用否定字符类 D 指定您还可以进
使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
ca 证书 Mac OS X

我需要在emacs 上安装offlineimap 和mu4e 问题是配置当我运行 Offlineimap 时我得到 OfflineIMAP 6 5 5 Licensed under the GNU GPL v2 v2 or any la
如何使用 Python 裁剪图像中的矩形

谁能给我关于如何裁剪两个矩形框并保存它的建议我已经尝试过这段代码但效果不佳 import cv2 import numpy as np Run the code with the image name keep pressing spa
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
Tensorflow 不分配完整的 GPU 内存

Tensorflow 默认分配所有 GPU 内存但我的新设置实际上只有 9588 MiB 11264 MiB 我预计大约 11 000MiB 就像我的旧设置一样张量流信息在这里 from tensorflow python client
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
PyArmor - 打包为一个可执行文件

当我执行此命令时您好使用 PyArmor pyarmor pack main py 它将它打包到一个名为的文件夹中dist里面包含我的 exe 以及许多 Python 扩展文件据我所知 PyArmor 使用 PyInstaller 来
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er

随机推荐

公式提供属性默认值的最佳方式是什么？

Chef 有一个非常详尽也许太多的食谱方案来提供属性的默认值我认为 Puppet 对类参数做了类似的事情默认值通常进入params pp 有了盐我就看到了在字典支柱查找中指定默认值 the grains filter by将默
Hive 安装问题：Hive Metastore 数据库未初始化

我尝试在树莓派 2 上安装 Hive 我通过解压缩压缩的 Hive 包安装 Hive 并在我创建的 hduser 用户组下手动配置 HADOOP HOME 和 HIVE HOME 运行 hive 时出现以下错误消息蜂巢错误 Statu
如何将文本环绕在右下角的 div 周围？

每次我尝试用 CSS 做一些看似简单的事情时它都不起作用我有一个包含 460x160 图像的内容 div 我想要做的就是将图像放置在右下角并将文本环绕在其周围 div img src text text text text text
检查Tensorflow是否在GPU上运行

I have read many questions and guides on how to understand if Tensorflow is running on GPU but I am still quite confused
现代 x86 CPU 使用什么缓存一致性解决方案？

我对缓存一致性系统在现代多核 CPU 中的功能有些困惑我已经看到基于侦听的协议例如基于 MESIF MOESI 侦听的协议已在 Intel 和 AMD 处理器中使用另一方面基于目录的协议对于多核来说似乎更加高效因为它们不广播而是
Objective-C va_list 和选择器

是否可以使用 selector and performSelector 或类似使用变量参数列表的方法我正在编写一个可以分配委托来覆盖默认行为的类在存在委托选择方法的情况下对该类的实例进行的调用将被转发到相同的相应委托方法其中一些方
javax.security.auth.login.LoginException：安全异常

我正在尝试使用 GlassFish v3 1 2 和 JSF 2 1 以及 primeFaces 3 4 2 设置容器管理的安全性值 HexValue 与数据库匹配但出现以下异常我尝试了 Base64 编码器但结果相同计算出的值和
程序启动时随机键入后，main.m 第 14 行中的 EXE BAD ACCESS 出现错误？

当我在 Xcode 4 1 和 iOS SDK 4 3 中的全新基于视图的应用程序项目中通过键盘随机键入时出现了这个奇怪的崩溃 EXE BAD ACCESS 错误当我创建基于视图的应用程序项目后按运行时出现一个空白屏幕当我开始按键盘
为什么数组的类型推导优先考虑指向第一个的指针而不是对数组的引用？

int v 1 auto p1 v auto p2 v auto p3 v p1属于类型int 同样适用于p3 特别是在这个微不足道的样本中我发现p2 int 1 更有用因为它固有的数组语义例如我可以申请sizeof on p2给予与
Eclipse Google -App -Engine“不会增强”

第一次日食无法摆脱这个错误已经尝试了谷歌上所有建议的修复方法持久类 com blahb blahblah master UserToken 类似乎没有得到增强您可能需要重新运行增强器并检查输出中的错误数据库中没有表但操作需要它
如何在引导日期选择器中更改日期格式（dd-mmm-yyyy）

Script Textbox
导出导入的模块

我有两个 javascript 模块如下所示 inner mod js export function myFunc mod js import as inner from inner mod 我想出口myFunc from mod js
Typescript 用循环动态创建数组

我正在创建一个模拟类用于为我的 Angular2 TypeScript 项目生成示例数据我仍然是编程初学者并且对有关 TypeScript 的可用信息感到困惑我的问题我想创建 100 个项目并将它们保存在一个数组中这 100 个
如何创建表单类的新实例，然后将其作为 acDialog 框打开（暂停其他代码）？

Problem 我有一个复杂的搜索表单需要多次同时打开以允许用户同时进行多个搜索我发现可以使用以下命令打开表单的实例因为它是一个类 Option Compare Database Option Explicit Array to
Plotly R - 错误“`line.width`当前不支持多个值。”

当我运行以下命令时 interactive plot lt plot ly data vep wes aff rare summary x n y mean af type scatter mode markers hoverinfo te
为什么 Android 不使用更多的枚举？

我开始非常喜欢在代码中使用 C 和 Java 枚举原因如下它们比整数字符串或布尔标志集更加类型安全它们会产生更具可读性的代码将枚举设置为无效值比 int 或字符串更困难它们可以轻松发现变量或参数的允许值我读到的所有内容都表明它
分支/更改未合并，尽管 Gerrit 声称，它是

每次我都看到merged关于我在 Gerrit 中的变化的状态我确实git pull origin 我可以清楚地看到我的更改分支实际上尚未合并到 master 中请检查我的 Gerrit 工作流程并告诉我我做错了什么或缺少什么在
用于清除 Git Bash 屏幕（包括输出缓冲区）的命令

Git 中是否有任何命令可以清除屏幕例如在window命令行中执行了很多代码后如果输入cls 那么它会清除之前的所有代码所以我想要 Git 中相同类型的功能所以任何人都可以告诉我命令名称实际上你正在寻找一个Unix用户环境命令 c
Firefox 中 Window.getCompulatedStyle 未实现接口 Element 错误

我想将一些数据附加到 HTML 元素因此我使用了以下代码 bookListDiv append data HTMLString 一切都正常但是我想在显示此元素时添加淡入动画因此我将其修改为 data HTMLString hide a
是否可以对任何文本分类应用 PCA？

我正在尝试用 python 进行分类我正在对网页使用朴素贝叶斯多项式NB分类器将数据从网络检索到文本稍后我对此文本进行分类网络分类现在我尝试对这些数据应用 PCA 但 python 给出了一些错误我的朴素贝叶斯分类代码 fro

是否可以对任何文本分类应用 PCA？

是否可以对任何文本分类应用 PCA？ 的相关文章

随机推荐

热门标签

是否可以对任何文本分类应用 PCA？的相关文章