如何使用 TfIdfVectorizer 通过 SciKitLearn 对文档进行分类？

2024-07-01

以下示例展示了如何使用 Sklearn 20 新闻组数据训练分类器。

>>> from sklearn.feature_extraction.text import TfidfVectorizer 
>>> categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space']
>>> newsgroups_train = fetch_20newsgroups(subset='train', ... categories=categories) 
>>> vectorizer = TfidfVectorizer() >>> vectors = vectorizer.fit_transform(newsgroups_train.data) 
>>> vectors.shape (2034, 34118)

但是，我有自己想要使用的标记语料库。

在获得我自己的数据的 tfidfvector 后，我会训练这样的分类器吗？

classif_nb = nltk.NaiveBayesClassifier.train(vectorizer)

回顾一下：我如何使用我自己的语料库而不是 20newsgroups，但以与此处使用的方式相同的方式？如何使用我的 TFIDFVectorizer 语料库来训练分类器？

Thanks!

解决评论中的问题；在某些分类任务中使用 tfidf 表示的整个基本过程您应该：

You fit将向量化器添加到您的训练数据并将其保存在某个变量中，我们称之为tfidf
You 转换通过 data = tfidf.transform(...) 训练数据（没有标签，只有文本）
You fit使用 some_classifier.fit( data, labels ) 的模型（分类器），其中标签与数据中文档的顺序相同
在测试过程中，您对新数据使用 tfidf.transform( ... ) ，并检查预言你的模型的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

scikitlearn

如何使用 TfIdfVectorizer 通过 SciKitLearn 对文档进行分类？的相关文章

如何在 Python 中执行等效的 Excel INDEX MATCH

我有一个问题关于如何执行相当于使用 Excel 中的 INDEX MATCH 函数返回值并在 Python 中应用它的操作作为一名对大型数据集执行数据分析和操作的 Excel 用户为了提高效率我已转向 Python 我试图做的是根据
Scrapy在使用crawlerprocess运行时抛出错误

我用 python 编写了一个脚本使用 scrapy 来收集网站上不同帖子的名称及其链接当我从命令行执行脚本时它可以完美地工作现在我的意图是使用运行脚本CrawlerProcess 我在不同的地方寻找类似的问题但我找不到任何直接
多处理冻结计算机

我通过使用多处理提高了执行时间但我不确定 PC 的行为是否正确它会冻结系统直到所有进程完成我使用的是 Windows 7 和 Python 2 7 也许我做错了这就是我所做的 def do big calculation sub
从 pexpect 中提取 stderr

我的问题很简单我可以吗 expect 使用 pexpect 查看 stderr 上的某些输出它似乎pexpect spawn 只能用于期望 stdout 上的输出乌托邦的例子 import pexpect child pexpect
二维数组 matplotlib 的颜色图

所以我认为这会非常简单但我一直很难在一个易于理解的示例中找到我正在寻找的内容基本上我想制作相图所以假设我有一个二维数组我怎样才能让 matplotlib 将其转换为我可以附加标题轴和图例彩条的图我正在寻找一种极其简单的基本
Pytorch不支持one-hot向量？

我对 Pytorch 如何处理 one hot 向量感到非常困惑在这个tutorial https pytorch org tutorials beginner blitz cifar10 tutorial html 神经网络将生成一个
scikit learn中partial_fit遇到的错误

在 scikit learn 中使用partial fit 函数进行训练时即使训练后的模型行为正确并给出正确的输出我也会在程序未终止的情况下收到以下错误这怎么可能以及这样做的后果是什么这是值得担心的事情吗 usr lib pyth
使用python docx合并word文档

我有几个单词文件每个文件都有特定的内容我想要一个片段来展示或帮助我弄清楚如何在使用 Python 时将单词文件合并到一个文件中docx图书馆例如在 pywin32 库中我执行了以下操作 rng self doc Range 0 0
从周数获取日期

请问我的代码有什么问题 import datetime d 2013 W26 r datetime datetime strptime d Y W W print r 显示 2013 01 01 00 00 00 谢谢周数不足以生成日期
使用 Fabric 检查路径是否存在

我正在运行此代码来检查此目录是否存在于远程计算机上但此代码正在检查本地计算机上的目录如何验证远程计算机上的目录 rom fabric api import run sudo env import os env hosts remote
与 Pandas DataFrame 列表列的比较

我有一个像这样的数据框 df col1 col2 a 1 2 b 3 4 c 3 9 我想根据匹配的输入数组获取行因此如果我有数组 1 2 我可以获得 col1 col2 a 1 2 当我尝试使用此公式执行此操作时它不起作用 df lo
任何方法来跟踪Python中的最后5个数据点

所以我有一个包含多个数字的数组随着我的脚本运行越来越多的数字被附加到该数组中但是我对所有数字并不感兴趣而只想跟踪最后 5 个数字目前我只是将所有数字存储在数组中然而这个数组变得非常大并且充满了不必要的信息我考虑过创建一个
使用后禁用按钮

最近我决定重写我的不和谐机器人并添加按钮到目前为止我遇到的主要问题是我无法禁用按钮就在被按下之后人们被告知是关于button disabled True实际上它会禁用该按钮但它只是将其发送为禁用状态因此永远无法按下它我想要的是能够
在 Django 中保存文件之前更改文件名

我有下一个代码在 django admin 中上传时重命名我的文件在 models py 中 def get file path instance filename ext filename split 1 filename s s uu
Matplotlib 中的月份定位器

我有这样的情节我想更改 12 个位置的刻度以这种格式指示相应的月份 Jan Feb Mar 当我使用 MonthLocator 函数时刻度线从图中消失 ax plt gca ax set xlim 0 365 ax xaxis set
相当于 C++ 中用于缓冲读取的 python 生成器

Guido Van Rossum 在此展示了 Python 的简单性article http neopythonic blogspot com 2008 10 sorting million 32 bit integers in 2mb h
XPath 错误：[contains(text()="something")]' 不是有效的 XPath 表达式

在观看了关于 XPath 的非常基本的教程之后我第一次使用 selenium 构建一个应用程序该应用程序包含卡的奖金计算器我写了这段代码 from selenium webdriver import Chrome from webdr
使用 Python API 创建文件后如何立即从 Google Vault 导出下载文件？

使用 Python API 我创建了一个导出如何使用相同的授权服务下载导出中的 zip 文件创建导出时我可以看到 cloudStorageSink 的 bucketName 和 objectNames 但是我找不到任何有关如何使用创建
通过串口从python向Arduino发送数据

如果在串行端口上读取字符 s 我试图让 Arduino 触发继电器该字符 s 是由 python 根据从屏幕读取的图像发送的我的问题是arduino似乎无法从串行端口读取因为它从不执行if条件我的猜测是两者之间存在某种死锁这就是为
OpenCV中如何在点之间画线？

我有一个元组数组 a 375 193 364 113 277 20 271 16 52 106 133 266 289 296 372 282 OpenCV中如何在点之间画线这是我的代码不起作用 for index item in enu

随机推荐

如何在 SQL Bigquery 中计算另一个事件之前特定事件的数量？

我有一个包含日期事件和用户的表有一个名为 A 的事件我想找出 Sql Bigquery 中事件 A 之前和之后特定事件发生的次数例如 User Date Events 123 2018 02 13 X Y A 123 2018 02
将 compose 示例项目导入到 android studio 版本 4.2

我正在尝试导入编写示例项目 https github com android compose samples 但我面临这个错误 Invalid injected android support version 202 7660 26 42
片段替换现有片段

我有 MainActivity 它包含 ListFragment 和框架布局我可以在项目单击时更改列表上的片段我在更换现有产品时遇到问题Fragment1与新的Fragment2 单击按钮时Fragment1 Fragment2应该取代
如何在 Spark 2.1 中保存分区的 parquet 文件？

我正在尝试测试如何使用 Spark 2 1 在 HDFS 2 7 中写入数据我的数据是一个简单的虚拟值序列输出应按属性进行分区 id and key Simple case class to cast the data case cla
嵌入式控制台日志优化

不久前我曾发过一篇文章this https stackoverflow com questions 25204389 how to get unique values at preprocessing across files关于SO的问题
CMake 忽略自定义目标的返回

我已将此自定义目标添加到我的CMakeList txt file 系统 Windows 7 TDMGCC MinGW32 和来自 GitHub 的最新 Ninja ADD CUSTOM TARGET unittest run COMMAND
C#：迭代数据表：Rows、Select() 或 AsEnumerable()

foreach DataRow row in myDataTable Select foreach DataRow row in myDataTable AsEnumerable foreach DataRow row in myDataT
使用脚本取消设置 PDF 字体

我正在使用 xhtml2pdf 库自动创建 PDF 几个月前我有过这个问题 https stackoverflow com questions 25203219 xhtml2pdf doesnt embed helvetica 库嵌入了我没
udf 没有可用于字符串类型的 TypeTag

我不明白火花的行为我创建一个 udf 它返回一个如下所示的整数 import org apache spark sql SQLContext import org apache spark SparkConf SparkContext o
使用正则表达式搜索 github 存储库 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想使用正则表达式搜索我公司的github源网站无论如何这可能吗 AFAIK 你需要自己设置 Github有自己的搜索语法 http
为什么将静态类内初始化成员传递给采用 const 引用的函数需要该成员有定义？

这是基于最初提出的问题here https stackoverflow com questions 14547370 confusion about in class initialization of static data member
Objective-C 创建只有一个实例的类的正确方法

我正在尝试实现一个类该类的子类NSObject直接在使用该实例的应用程序运行的整个过程中只能有一个实例可用目前我有这种方法 MyClass h interface MyClass NSObject MyClass instance e
ASP .Net MVC 路由：仅包含字符串 ID 的 URL

非常简单的问题但我找不到答案我有默认的 controller action id 模式在我的全局 asax 我还需要一些东西会给我类似的东西www example com microsoft or www example com app
Microsoft.IdentityModel.Clients.ActiveDirectory.UserCredential 不采用 2 个参数？

我在代码中使用 ADAL 我想要使用的一件事是使用不同的凭据因此我可以在控制台程序中针对 Azure AD 授权不同的用户 Microsoft IdentityModel Clients ActiveDirectory UserCred
Kotlin 协程的现有 3 函数回调

我有一个带有具体示例的一般性问题我想在拍照时使用 Kotlin 协程魔法而不是 Android 中的回调地狱 manager openCamera cameraId object CameraDevice StateCallback ov
传递到 Flask 的可能路线列表？

我正在学习 Flask 有一个关于动态路由的问题是否可以传入接受的路由列表我注意到any转换器具有潜力但很难找到使用中的示例基本上我有不同的端点组它们应该在它们之间触发相同的操作这就是我的意思 cities New York L
导航标题颜色更改问题

当我弹出控制器时我面临的导航标题颜色没有改变请找到下面的代码 ProfilescreenVC swift override func viewWillAppear animated Bool super viewWillAppear a
Google CSE REST API：v1 是否已弃用，是否有 v2？

作为 google CSE API 的许多用户我最近收到一封来自 Google Custom Search 的电子邮件询问我请迁移到 Custom Search Element API 2 0 我检查了文档 https develop
C# 泛型方法，new() 构造函数约束中的类型参数

有没有办法创建一个使用的通用方法new 要求类具有特定类型的构造函数属性的约束例如我有以下代码 public T MyGenericMethod
如何使用 TfIdfVectorizer 通过 SciKitLearn 对文档进行分类？

以下示例展示了如何使用 Sklearn 20 新闻组数据训练分类器 gt gt gt from sklearn feature extraction text import TfidfVectorizer gt gt gt categori

如何使用 TfIdfVectorizer 通过 SciKitLearn 对文档进行分类？

如何使用 TfIdfVectorizer 通过 SciKitLearn 对文档进行分类？ 的相关文章

随机推荐

如何使用 TfIdfVectorizer 通过 SciKitLearn 对文档进行分类？的相关文章