如何在Python中使用保存模型进行预测

2024-04-11

我正在 python 中进行文本分类，我想在生产环境中使用它来对新文档进行预测。我正在使用 TfidfVectorizer 来构建 bagofWord。

我在做：

X_train = vectorizer.fit_transform(clean_documents_for_train, classLabel).toarray()

然后我进行交叉验证并使用 SVM 构建模型。之后我保存模型。

为了对我的测试数据进行预测，我将该模型加载到另一个脚本我有相同的 TfidfVectorizer，并且我知道我无法对测试数据进行 fit_transform 。我要做：

X_test = vectorizer.transform(clean_test_documents, classLabel).toarray()

但这是不可能的，因为我必须先适应。我知道有办法。我可以加载我的训练数据并执行fit_transform就像我在构建模型期间所做的那样，但是我的训练数据非常大，每次我想要预测时我都无法做到这一点。所以我的问题是：

有没有办法可以在我的测试数据上使用 TfidfVectorizer 并执行预测？
还有其他方法可以进行预测吗？

矢量化器是模型的一部分。当你保存训练好的SVM模型时，你还需要保存相应的向量化器。

为了使这更方便，您可以使用Pipeline http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html构造一个“适合”对象，表示将原始输入转换为预测输出所需的步骤。在这种情况下，管道由 Tf-Idf 提取器和 SVM 分类器组成：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import svm
from sklearn.pipeline import Pipeline

vectorizer = TfidfVectorizer()
clf = svm.SVC()
tfidf_svm = Pipeline([('tfidf', vectorizer), ('svc', clf)])

documents, y = load_training_data()
tfidf_svm.fit(documents, y)

这样，只需要保存一个对象：

from sklearn.externals import joblib
joblib.dump(tfidf_svm, 'model.pkl')

要将模型应用于测试文档，请加载经过训练的管道并简单地使用其predict使用原始文档作为输入照常运行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在Python中使用保存模型进行预测的相关文章

scipy 的 curve_fit 函数的尺寸问题

我对 python 中的曲线拟合以及一般的 python 都很陌生目前我正在尝试使用 scipy 中的 curve fit 模块来拟合 4 个光谱峰简而言之我的文本文件中有两列数据所以我的第一步是将数据导入到两个数组中一个包含
列出类的所有实例

我编写了一个 Python 模块其中有几个类继承自一个名为MasterBlock 我想在脚本中导入此模块创建这些类的多个实例然后获取该类的所有子级的所有现有实例的列表MasterBlock班级我找到了一些解决方案vars Block
带图例的 Seaborn 聚类图行颜色

我找到了以下解决方案来将行颜色图例添加到 Seaborn 聚类图中如何在 Seaborn 中的热图轴上表达类 https stackoverflow com questions 27988846 how to express classe
装饰器错误：NoneType 对象不可调用

我写了一个这样的函数装饰器 def tsfunc func def wrappedFunc print s called func name return func return wrappedFunc tsfunc def foo pas
ValueError: n_splits=10 不能大于每个类中的成员数

我正在尝试运行以下代码 from sklearn model selection import StratifiedKFold X hey join now hello join today join us now not today jo
如何下载 NLTK 数据？

更新的答案 NLTK 适用于 2 7 我有3 2 我卸载了3 2并安装了2 7 现在可以了我已经安装了 NLTK 并尝试下载 NLTK 数据我所做的是按照该网站上的说明进行操作 http www nltk org data html h
如何解决 Python 'Pyzbar' 库的导入错误？

我刚刚开始熟悉 Pyzbar 库但是当使用decode方法我得到一个错误这是代码 import cv2 import numpy as np import pyzbar code image cv2 imread C Users Ace
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
在提供给 sklearn 管道中的分类器之前获取所选特征的名称和数量

我在用sel SelectFromModel ExtraTreesClassifier 10 threshold mean 选择我的数据集中最重要的特征然后我想将这些选定的特征提供给我的 keras 分类器但是我的基于 keras 的神
如何使用 python 将 .docx 文件转换为 html？

import mammoth f open D filename docx rb document mammoth convert to html f 当我运行此代码时我无法获取 html 文件请帮助我获取它当我转换为 html 文件
Google Cloud SDK 安装失败 UnicodeDecodeError：“ascii”编解码器

我在安装时遇到以下错误谷歌云SDK https cloud google com sdk docs 在我的 Windows 10 计算机上 ERROR gcloud failed to load ascii codec can t deco
Google App Engine 上的错误 Python 2.7 - 无法使用 CGI 处理程序启用线程安全

我尝试从 Python 2 5 迁移到 Python 2 7 但每次都会遇到相同的错误我在 Python 2 5 中使用 app yaml 文件和一个脚本 main py 做了一个非常简单的测试它工作得很好该脚本只是一个 Hello
Matplotlib导入错误ft2font

我在 64 位 Mac 上的 Canopy 下安装了 Python 2 7 6 Ipython 版本为 2 1 0 这是一个非常奇怪的问题我不确定这是否是路径文件问题每当我导入 matplotlib pyplot 不仅仅是 matplo
如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

我开发了一个用于多标签分类的文本模型这OneVsRest分类器 http scikit learn org stable modules generated sklearn multiclass OneVsRestClassifier h
默认可变参数的惯用方式

在 python 中如果直接将可变类型设置为默认参数则会出现众所周知的边缘情况 def foo x return x y foo y append 1 print foo 通常的解决方法是将参数默认为None然后将其放入体内然而有
需要 python 接口将机器移动到另一个文件夹

我正在尝试寻找代码支持python为了在数据中心的文件夹之间移动机器但没有成功我看到pysphere您可以在克隆阶段定义文件夹而不是在机器克隆之后定义文件夹 This https jackiechen org 2011 11 01 mo
Python 在 anaconda 中找不到 h2o 包

当我尝试导入 h2o 时我被告知该包不存在当我尝试安装它时它告诉我它已经存在我尝试将其从计算机中删除并重新安装但没有成功此时我能想到的只是一些环境变量 C Users Lanier Anaconda2 C Users Lanie
无法安装时间模块

我试过了pip install time and sudo H pip install time 但我不断收到错误找不到满足要求时间的版本从版本未找到时间匹配的发行版我正在 PyCharm 中工作但真正没有意义的是我可以在 Py
如何加快列表理解速度

以下是我的清单 col red yellow blue red green yellow pink orange brown pink brown 我的目标是消除每个列表中出现一次的项目这是我的代码 eliminate w for w i
获取pandas数据框列中值的长度

我试图获取下面提到的数据框中每个 zipCd 值的长度当我运行下面的代码时每条记录都得到 958 我期待得到更像 4 的东西有人看出问题是什么吗 Code zipDfCopy zipCd str len Data print zipD

随机推荐

无法在jsf页面中执行Javascript

我是jsf新手我一直在尝试用 commandbutton 做一个简单的 Javascript 函数我尝试了很多次但甚至无法发出警报消息这是我的代码的一部分请任何人指导我并告诉我出了什么问题以及我应该做什么才能让它运行
如何在 UINavigationBar 中设置自定义字体？

如何在 UINavigationBar 中设置自定义字体我需要 tahoma 字体 void viewDidLoad self title My text 完全有可能只是做起来有点棘手一旦你找到了你需要的字体 iOS 已经附带的替代品
PHP 中使用 @ 运算符抑制错误

您认为在您可能正在处理错误的情况下使用运算符来抑制 PHP 中的错误警告是否有效如果是这样你会在什么情况下使用它欢迎使用代码示例编辑回复者注意我不想关闭错误报告但是例如常见的做法是使用 fopen file 然后检
向 Apache Pdfbox 添加字体？

有没有办法将其他字体样式添加到 Apache Pdfbox 中我们目前正在尝试解决在我们的系统中打印 PDF 的问题目前正在使用PDF渲染器 https java net projects pdf renderer 我一直在寻找各种替代
使用 AVFoundation 播放 wav 声音文件

我正在使用 AVFoundation 播放 wav 文件但我无法让它播放也没有出现错误或警告 XCode 是 4 2 设备是 iOS 5 IBAction playSelectedAlarm id sender UIButton but
在 Firefox Web 扩展中使用数据库

我想在我的 Firefox Web 扩展中使用一些数据库我已经找到了this https developer mozilla org en US docs Mozilla Add ons WebExtensions API storage
在 d3 中动态创建图例

我在用d3 scale quantize 和colorBrewer获得色阶 var extent d3 extent collection features function d return d properties mean var c
释放处理失败异常

我刚刚在一个相当简单的小程序上遇到了以下该死的 MDA 异常 SafeHandle 或 CriticalHandle 类型 Microsoft Win32 SafeHandles SafeCapiHashHandle 未能正确释放手柄值为
java.lang.reflect.InaccessibleObjectException：无法使字段私有最终 java.util.Comparator java.util.TreeMap.comparator 可访问：模块

这是我的第一个黄瓜项目我在设置所有内容时遵循了教程一切似乎都是一样的但出于某种原因我得到了这个 java lang ExceptionInInitializerError 导致 java lang reflect Inaccessib
使用 C# 从图像中提取子图像

我有一个位图对象我需要提取子图像并通过传递包含子图像坐标的矩形对象将其保留为位图对象是否有一个 C 库能够做到这一点或者 Aforge 能够提取子图像 Thanks Bitmap 类有一个Clone http msdn microso
在 R 中解析 JSON：词法错误 - json 文本中的无效字符

我在 R 中有一个文件 my file 如下所示 NAME Address Parse 1 name1 372 StreetNumber river StreetName St StreetType S StreetDirection to
Reactstrap DropdownMenu底部溢出问题

我已经搜索过reactstrap文档但不幸的是它只提供DropdownMenu right财产我想要实现的是以某种方式自动对齐底部的下拉菜单使其不会溢出 import UncontrolledButtonDropdown Dropdow
raw_input 应该只接受单个字符[重复]

这个问题在这里已经有答案了可能的重复 Python 从用户处读取单个字符 https stackoverflow com questions 510357 python read a single character from the u
Visual Studio Code 自定义语言 IntelliSense 和转到符号

我正在为 Visual Studio Code 中的自定义语言编写扩展语法检测通过 tmLanguage 文件运行良好我试图弄清楚如何添加智能感知并转到符号支持但我无法找到清晰的文档或参考文件来进行工作当我打开一个文件并选择自定义语
Magento 一个订单可使用多个优惠券代码，无需延期

我已经工作了 3 天试图在一个订单中应用多个优惠券代码我知道有可用的模块但我不想投资购买模块我想要一些自定义代码以便我可以在单个订单中应用多个优惠券代码要添加 2 个优惠券代码我所做的是这样的 1 在 sales flat q
如何让程序在ssh退出后继续运行？ [复制]

这个问题在这里已经有答案了可能的重复防止后台进程在关闭 SSH 客户端后停止 https stackoverflow com questions 285015 linux prevent a background process fro
如何获取在 TreeView 控件中选择的所有父节点（直到根节点）？

如果我有一个 TreeView myTreeview 如何获取所选节点的所有父节点父节点父节点的父节点等的列表我建议您创建一组自己的树助手例如下一个是针对您的问题的 public static class TreeHelpers
在 Python 中标记一个保留分隔符的字符串

有没有相当于str split在Python中也返回分隔符在处理一些标记后我需要保留输出的空白布局 Example gt gt gt s tthis is an example gt gt gt print s split this i
使用 XML 命名空间前缀和指定 xmlns="blah" 作为属性之间的区别

以下 xml 片段在命名空间方面有何区别如果有 Form1
如何在Python中使用保存模型进行预测

我正在 python 中进行文本分类我想在生产环境中使用它来对新文档进行预测我正在使用 TfidfVectorizer 来构建 bagofWord 我在做 X train vectorizer fit transform clean d

如何在Python中使用保存模型进行预测

如何在Python中使用保存模型进行预测 的相关文章

随机推荐

热门标签

如何在Python中使用保存模型进行预测的相关文章