加载sklearn模型后无法进行预测

2023-12-23

我使用 Scikit-Learn 创建了一个 ML 模型并保存了它。现在，当我加载模型时，我在转换和预测方面遇到了麻烦。我在 DataFrame 中有 4 个功能。前两个特征是文本特征，另外两个特征是数字特征。结果列为 1 或 0。

为了训练我的模型，我使用了ColumnTransformer and CountVectorizer用于文本特征的转换和矢量化。我指定了要转换/矢量化的列的名称。（文本 1 和文本 2 列）。数字列不需要矢量化，因此remainder='passthrough'正在解决这个问题。

有效的部分代码：

features = df.iloc[:, :-1]
results = df.iloc[:, -1]

transformerVectoriser = ColumnTransformer(transformers=[('vector word 1', CountVectorizer(analyzer='word', ngram_range=(1, 1), max_features = 12000, stop_words = 'english'), 'text1'),
                                                       ('vector phrase 3', CountVectorizer(analyzer='word', ngram_range=(3, 3), max_features = 2500, stop_words = 'english'), 'text2')],
                                                      remainder='passthrough') # Default is to drop untransformed columns, passthrough == leave columns as they are

x_train, x_test, y_train, y_test = train_test_split(features, results, test_size=0.3, random_state=0)

x_train = transformerVectoriser.fit_transform(x_train)
x_test = transformerVectoriser.transform(x_test)


model = clf.fit(x_train, y_train)
y_pred = model.predict(x_test)

filename = 'ml_model.sav'
pickle.dump(model, open(filename, 'wb'))

filename = 'ml_transformer.sav'
pickle.dump(transformerVectoriser, open(filename, 'wb'))

但是当我想加载模型并进行预测时，我收到错误：

# LOADING MODEL
model = pickle.load(open('ml_model.sav','rb'))
vectorizer = pickle.load(open('ml_transformer.sav','rb'))

# MAKING PREDICTION
data_for_prediction = vectorizer.transform([data_for_prediction]) #ERROR
print(model.predict_proba(data_for_prediction))

我收到错误：

ValueError: Specifying the columns using strings is only supported for pandas DataFrames

当我训练我的模型时，我使用了Pandasdataframe，当我想进行预测时，我只是将值放入列表中。所以data_for_prediction是列表，看起来像这样：

["text that should be vectorized with vectorizer that i created", "More texts that should be vectorized", 4, 7]

我认为这就是错误，因为我在使用 ColumnTransformer 时使用了列名，但现在当我想要进行预测时，向量化器不知道要向量化什么。我的最终模型和矢量化器应该在 API 中使用，而 api 应该只接受 JSON，所以我不想将 JSON 转换为 DataFrame 并将其传递给模型。有没有办法在不使用 pandas 的情况下修复此错误dataframe在我最后的 Flask 应用程序中。

训练数据是一个包含以下列的数据框：

x_train.columns

功能vectorizer.transform()想要相同格式的数据，所以假设

data_f_p = ["text that should be vectorized", 4,7,0]

对应于相同的四列x_train你可以把它变成一个数据框

data_f_p = pd.DataFrame([data_f_p], columns=x_train.columns)
data_f_p = vectorizer.transform(data_f_p)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

加载sklearn模型后无法进行预测的相关文章

如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
具有定制损失函数的随机森林

我是机器学习领域的初学者对于一个项目我必须在随机森林分类中使用自定义损失函数到目前为止我一直使用 scikit 通过 scikit 实现这一点的建议会更有帮助损失函数分类树中的基尼杂质和熵在 scikit 的 tree pyx
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

如何通过索引将项目添加到 Laravel Eloquent Collection 中？

我尝试了以下方法但它不起作用 index 2 collection gt put index item4 例如如果 collection 看起来像这样 collection item1 item2 item3 我想结束 collecti
Gradle 在 bin 目录中创建重复的启动脚本

我正在尝试通过 gradle 创建多个启动脚本文件但不知何故一个特定的启动脚本文件正在重复 startScripts enabled false run enabled false def createScript project ma
Java 泛型放在 Map>

有没有办法以类型安全的方式进行以下实现 public void myMethod Map
如何比较 Svelte 3 中的 Prop 变化

Svelte 3 中是否有一种机制可以在渲染之前比较组件内的 prop 更改类似于反应从Props获取DerivedState https reactjs org docs react component html static get
车把模板中 href 标签中的 Ember 插值

我正在尝试建立一个到谷歌地图的简单链接并将动态地址插入到 href 字段中我已经尝试过下面的代码以及大量其他乱七八糟的东西但没有运气如何在车把 href 字段中插入动态 ember 字符串我正在使用 ember 导轨和车把如果我
将二进制路径添加到 emacs $PATH

我尝试了以下方法 setenv PATH concat getenv PATH mybin setq exec path append exec path mybin 但这从来没有奏效我试过M 并键入二进制名称之一并且在使用二进制名称进
Select2：init后如何设置数据？

我需要在初始化 select2 后设置一个数据数组所以我想做这样的事情 var select select select2 select data id 1 text value1 id 1 text value1 但我收到以下错误当附
连接字符串和实体框架的问题

我有一个数据库 sql 2008 mdf 文件一个带有 edmx 文件的类库项目是使用向导创建的所以连接字符串也是由向导制作的该项目位于 teamfoundation 服务器上我可以在编码时使用所有向导创建的对象但是当我运行程序
DisplayFormat 未应用于十进制值

我有一个模型属性我正在尝试使用 EditorFor 模板进行渲染并且我正在尝试使用 DisplayFormat 属性应用格式然而它根本不起作用它完全被忽略了这是我的模板 model System Decimal Html Tex
IoC：如何动态创建对象

我无法理解如何在需要动态创建对象的场景中使用 IoC 假设我有这样的课程 abstract class Field public Field ICommandStack commandStack abstract class Entity
使用 python 的树莓派旋转编码器脚本

我有一个设置其中有一个电机以每秒约 1 转的速度转动直径 5 厘米的轴我需要在预定的转数后停止电机现在假设是 10 转我使用的传感器机制只是一个磁铁和簧片开关以下脚本可以很好地记录每次触发开关的情况 import RPi GPIO
Android SQLite 数据库损坏

这个链接准确地描述了我的问题 http old nabble com Android database corruption td28044218 html a28044218 http old nabble com Android dat
如何在postgresql中使用设置种子选择可重复的随机数？

我想要实现的是为流程选择一个控制组为此我使用 random 为了调试一致性我希望能够以可重复的方式设置随机数意思是一旦它为用户 123 分配随机数 0 001 我就运行查询在不同的时间我删除以前的数据调用相同的查询并再次
如何从应用程序设置 Azure (webapp) 接收数据到我的 webjob

我用 C 创建了一个 Azure WebJob 我在 Azure 上有一个 Web 应用程序我将 WebJob 添加到了我的订阅中一切都很好但在应用程序设置中我添加了一个新条目例如
C 比较两个位图的最快方法

有两个字符数组形式的位图数组有数百万条记录使用 C 来比较它们的最快方法是什么我可以想象在 for 循环中一次使用按位运算符异或 1 个字节关于位图的重要一点算法运行的 1 到 10 次中位图可能会有所不同大多数时候它们都是一
async void 方法每次调用时都会创建一个新线程吗？

我有以下场景 async void DoStuff button1 Click s p gt DoStuff 我不确定当我打电话时会发生什么async void方法而第一次调用仍然不完整该调用是否会在每次调用时创建一个新线程还是会销毁
将 jar 库导入 android-studio

android studio 0 2 7 Fedora 18 Hello 我正在尝试将 jtwitter jar 添加到我的项目中首先我尝试执行以下操作 1 Drag the jtwitter jar into the root dire
使用 Wagtail 页面或 Django 模型的指南？

例如我想使用wagtail建立一个电子商务网站其中一个组件是订单我认为 order 不应该是 wagtail Page 而是简单的 Django 模型见下面的代码 from django db import models from
如何计算两个国家到国家、国家到城市、城市到城市之间的距离？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 如何计算两个国家到国家国家到城市
加载sklearn模型后无法进行预测

我使用 Scikit Learn 创建了一个 ML 模型并保存了它现在当我加载模型时我在转换和预测方面遇到了麻烦我在 DataFrame 中有 4 个功能前两个特征是文本特征另外两个特征是数字特征结果列为 1 或 0 为了训练

加载sklearn模型后无法进行预测

加载sklearn模型后无法进行预测 的相关文章

随机推荐

热门标签

加载sklearn模型后无法进行预测的相关文章