用于分类的 Python 向量化[重复]

2024-04-14

我目前正在尝试构建一个包含大约 80 个类别的文本分类模型（文档分类）。当我使用随机森林构建和训练模型时（将文本矢量化为 TF-IDF 矩阵后），该模型运行良好。然而，当我引入新数据时，我用来构建 RF 的相同单词不一定与训练集相同。这是一个问题，因为我的训练集中的特征数量与测试集中的特征数量不同（因此训练集的维度小于测试集的维度）。

####### Convert bag of words to TFIDF matrix
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(data)
print tfidf_matrix.shape
## number of features = 421


####### Train Random Forest Model
clf = RandomForestClassifier(max_depth=None,min_samples_split=1, random_state=1,n_jobs=-1)

####### k-fold cross validation
scores = cross_val_score(clf, tfidf_matrix.toarray(),labels,cv=7,n_jobs=-1)
print scores.mean()


### this is the new data matrix for unseen data
new_tfidf = tfidf_vectorizer.fit_transform(new_X)
### number of features = 619


clf.fit(tfidf_matrix.toarray(),labels)
clf.predict(new_tfidf.toarray())

我该如何创建一个用于分类的工作 RF 模型，该模型将包含训练中未见过的新功能（单词）？

不要打电话fit_transform只对看不见的数据transform！这将使字典远离训练集。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

vectorization

RandomForest

用于分类的 Python 向量化[重复] 的相关文章

如何指定聚类的距离函数？

我想对给定距离的点进行聚类奇怪的是似乎 scipy 和 sklearn 聚类方法都不允许指定距离函数例如在sklearn cluster AgglomerativeClustering 我唯一可以做的就是输入一个亲和力矩阵这将非常
2d 图像点和 3d 网格之间的交点

Given 网格源相机我有内在和外在参数图像坐标 2d Output 3D 点是从相机中心发出的光线穿过图像平面上的 2d 点与网格的交点我试图找到网格上的 3d 点 This is the process From Multip
Flask中使用的路由装饰器是如何工作的

我熟悉 Python 装饰器的基础知识但是我不明白这个用于 Flask 路由的特定装饰器是如何工作的以下是 Flask 网站上的代码片段 from flask import Flask escape request app Flask
Python re无限执行

我正在尝试执行这段代码 import re pattern r w w s re compiled re compile pattern results re compiled search COPRO HORIZON 2000 HOR p
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
为什么这个 if 语句会导致语法错误

我正在尝试设置一个 elif 语句如果用户按下 Enter 键代码将继续但是我不断遇到语法错误 GTIN 0 while True try GTIN int input input your gtin 8 number if len
检索 geodjango 多边形对象的边界框

如何在 geodjango 中获取 MultiPolygon 对象的边界框在 API 中找不到任何内容http geodjango org docs geos html http geodjango org docs geos html
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
寻找完美的正方形

我有这个Python代码 def sqrt x ans 0 if x gt 0 while ans ans lt x ans ans 1 if ans ans x print x is not a perfect square return
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe

随机推荐

Python正则表达式替换

嘿我正在尝试找出一个正则表达式来执行以下操作这是我的字符串 Place 08 09 2010 15 531 2 909 650 我需要用逗号分隔该字符串尽管由于数字数据字段中使用了逗号但分割无法正常工作所以我想在运行分割字符串之前
处理和解决“网络使用过多（后台）”的正确方法

问题背景当前我们面临网络使用过多背景来自 Android Vital 报告最后30天是0 04 但我们只是好于 9 过去 30 天 0 04 基准优于 9 由于仅好于9 看起来像是一件可怕的事情我们决定认真研究这个问题该应
如何在 x86_64 上准确地衡量未对齐访问速度？

In 一个答案 https stackoverflow com questions 45116212 are packed structs portable 45116730 45116730 我已经说过在很长一段时间内未对齐访问的速度
如何始终返回index.html Tomcat

我有一个在 Tomcat 上运行的 Angular 应用程序但由于我已经实现了路由如果我手动访问一个 url 我会得到一个404未找到另外当发生错误时它是一个基本的服务器页面而不是我的错误 url 页面如何配置 Tomcat
引用表达式早期部分的匹配项的正则表达式

我正在寻找一个正则表达式它将标识一个序列其中文本中的整数指定表达式末尾的尾随字母数该具体示例适用于识别堆积格式的遗传数据中的插入和删除例如如果我正在搜索的文本是 AtT 3ACGTTT 1AaTTa 我需要匹配插入和删除在本例中
如何在客户端启动桌面应用程序

在我的网页中我必须在客户端计算机上启动桌面应用程序如果已安装知道我该怎么做吗如果应用程序是 MS Office 或 Adob e Reader 我知道如何启动它们但我要启动的应用程序是自定义应用程序您无法在互联网上找到它我如何
如何使注册的符号不显示下划线？

我遇到了问题无法显示带有下划线的单词的一部分和没有下划线的单词的一部分我希望已注册符号没有下划线 HTML h3 Basecamp span class sup reg span h3 CSS h3 font size 21px c
Rails：如果变量存在，则为输入字段设置一个值

当 id 传递到控制器中的新操作时我尝试为两个文本字段输入设置一个值当前的代码可以工作但我想知道是否可以缩短代码当前代码 View div class custom input div
GStreamer 上的“列入黑名单”是什么意思？

我正在尝试交叉编译 GStreamer 版本是1 2 3 主机PC的操作系统是x86 linux 目标系统的操作系统是MIPSEL linux操作系统我成功为目标设备编译了 gstreamer 和插件和gst launch 1 0可以被
如何在 OnResponse 函数之外使用 Retrofit 响应？

我想获取改造响应列表并在 OnResponse 函数之外使用它但是当我尝试这样做时我总是得到一个空对象这是我的源代码 ApiInterface apiService ApiClient getClient create ApiInte
为什么 Visual Studio Code 不断更改工作目录？

我正在尝试使用 VS Code 来完成 Flask Web 开发一书我可以从命令行运行简单的 hello world 示例但我想使用 VS 代码进行调试等我修改 launch json 文件来构建 Flask 配置 name Fla
企业库4数据配置标签

我正在使用企业库来访问数据当我运行应用程序时在 CreateDatabase 语句中我收到此异常 Microsoft Practices ObjectBuilder2 BuildFailedException 未被用户代码处理 Mess
在 Android 中从一个 Activity 移动到另一个 Activity

我想从一项活动转移到另一项活动使用虚拟设备当我单击按钮移动时我的模拟器会显示一个对话框unfortunately SMS1 has stopped working SMS1 是我的应用程序名称有人可以帮助我纠正我的代码吗 MainA
& 符号使我无法使用 jQuery 加载 XML

我在 XML 文档中显示描述然后使用 jQuery 将其加载到应用程序中当我尝试使用时它会破坏代码的加载我也尝试过 38 它也不起作用是否有解决方法可以让我在 XML 中包含符号编辑结构是
ResultSet.getTimestamp("日期") 与 ResultSet.getTimestamp("日期", Calendar.getInstance(tz))

java util Date java util Timetamp似乎给许多人带来了极大的困惑 StackOverflow 中有很多问题不幸的是我的问题有点扭曲有 2 个 JDBC api 他们应该如何表现 RDBMS 之间是否存在一致
如何保存单选按钮状态

我正在开发Android应用程序其中我打开自己的自定义对话框当我选择单选按钮时我使用单选按钮毫无疑问它被选中并工作但是当我再次打开对话框时所有单选按钮都被取消选择我想保存上一个按钮的状态 enter code here pri
Android AlertDialog 标题字体

我正在尝试更改字体android support v7 app AlertDialog标题文本方法一 TextView title TextView dialog findViewById android R id title retur
Redux 应用程序中每个减速器调用上深度复制状态有哪些缺点？

进行深度复制是否有任何副作用state每次调用reducer函数时在Redux应用程序中的appReducer上我这么问是因为不可变的更新模式 https redux js org recipes structuring reducer
区分鼠标和键盘触发onclick

我需要找到一种方法来确定链接是否已通过鼠标单击或按键激活 a href Save a 这个想法是如果他们使用鼠标点击链接那么他们可以继续使用鼠标来选择下一步要做什么但是如果他们在页面上切换并切换到保存链接那么我将打开下一行进行
用于分类的 Python 向量化[重复]

这个问题在这里已经有答案了我目前正在尝试构建一个包含大约 80 个类别的文本分类模型文档分类当我使用随机森林构建和训练模型时将文本矢量化为 TF IDF 矩阵后该模型运行良好然而当我引入新数据时我用来构建 RF 的相同单词不

用于分类的 Python 向量化[重复]

用于分类的 Python 向量化[重复] 的相关文章

随机推荐

热门标签