在不同的数据集上运行经过训练的机器学习模型

2024-04-16

我是机器学习的新手，正在尝试在另一个相同格式的数据集上运行一个简单的分类模型，该模型是我使用 pickle 训练和保存的。我有以下 python 代码。

Code

#Training set
features = pd.read_csv('../Data/Train_sop_Computed.csv')
#Testing set
testFeatures = pd.read_csv('../Data/Test_sop_Computed.csv')

print(colored('\nThe shape of our features is:','green'), features.shape)
print(colored('\nThe shape of our Test features is:','green'), testFeatures.shape)

features = pd.get_dummies(features)
testFeatures = pd.get_dummies(testFeatures)

features.iloc[:,5:].head(5)
testFeatures.iloc[:,5].head(5)

labels = np.array(features['Truth'])
testlabels = np.array(testFeatures['Truth'])

features= features.drop('Truth', axis = 1)
testFeatures = testFeatures.drop('Truth', axis = 1)

feature_list = list(features.columns)
testFeature_list = list(testFeatures.columns)

def add_missing_dummy_columns(d, columns):
    missing_cols = set(columns) - set(d.columns)
    for c in missing_cols:
        d[c] = 0


def fix_columns(d, columns):
    add_missing_dummy_columns(d, columns)

    # make sure we have all the columns we need
    assert (set(columns) - set(d.columns) == set())

    extra_cols = set(d.columns) - set(columns)
    if extra_cols: print("extra columns:", extra_cols)

    d = d[columns]
    return d


testFeatures = fix_columns(testFeatures, features.columns)

features = np.array(features)
testFeatures = np.array(testFeatures)

train_samples = 100

X_train, X_test, y_train, y_test = model_selection.train_test_split(features, labels, test_size = 0.25, random_state = 42)
testX_train, textX_test, testy_train, testy_test = model_selection.train_test_split(testFeatures, testlabels, test_size= 0.25, random_state = 42)

print(colored('\n        TRAINING SET','yellow'))
print(colored('\nTraining Features Shape:','magenta'), X_train.shape)
print(colored('Training Labels Shape:','magenta'), X_test.shape)
print(colored('Testing Features Shape:','magenta'), y_train.shape)
print(colored('Testing Labels Shape:','magenta'), y_test.shape)

print(colored('\n        TESTING SETS','yellow'))
print(colored('\nTraining Features Shape:','magenta'), testX_train.shape)
print(colored('Training Labels Shape:','magenta'), textX_test.shape)
print(colored('Testing Features Shape:','magenta'), testy_train.shape)
print(colored('Testing Labels Shape:','magenta'), testy_test.shape)

from sklearn.metrics import precision_recall_fscore_support

import pickle

loaded_model_RFC = pickle.load(open('../other/SOPmodel_RFC', 'rb'))
result_RFC = loaded_model_RFC.score(textX_test, testy_test)
print(colored('Random Forest Classifier: ','magenta'),result_RFC)

loaded_model_SVC = pickle.load(open('../other/SOPmodel_SVC', 'rb'))
result_SVC = loaded_model_SVC.score(textX_test, testy_test)
print(colored('Support Vector Classifier: ','magenta'),result_SVC)

loaded_model_GPC = pickle.load(open('../other/SOPmodel_Gaussian', 'rb'))
result_GPC = loaded_model_GPC.score(textX_test, testy_test)
print(colored('Gaussian Process Classifier: ','magenta'),result_GPC)

loaded_model_SGD = pickle.load(open('../other/SOPmodel_SGD', 'rb'))
result_SGD = loaded_model_SGD.score(textX_test, testy_test)
print(colored('Stocastic Gradient Descent: ','magenta'),result_SGD)

我能够获得测试集的结果。

但我面临的问题是我需要在整个系统上运行模型Test_sop_Computed.csv数据集。但它仅在我分割的测试数据集上运行。如果有人能够就如何在整个数据集上运行加载的模型提供任何建议，我将不胜感激。我知道下面这行代码出错了。

testX_train, textX_test, testy_train, testy_test = model_selection.train_test_split(testFeatures, testlabels, test_size= 0.25, random_state = 42)

训练数据集和测试数据集都有Subject, Predicate, Object, Computed and Truth以及具有的功能Truth是预测的类别。测试数据集具有实际值Truth列，我使用它testFeatures = testFeatures.drop('Truth', axis = 1)并打算使用分类器的各种加载模型来预测这一点Truth as 0 or 1对于整个数据集，然后将预测作为数组获取。

到目前为止我已经做到了。但我认为我也在分割我的测试数据集。有没有办法通过整个测试数据集，即使它在另一个文件中？

该测试数据集的格式与训练集相同。我检查了两者的形状，得到以下结果。

确认特征和形状

Shape of the Train features is: (1860, 5)
Shape of the Test features is: (1386, 5)

         TRAINING SET

Training Features Shape: (1395, 1045)
Training Labels Shape: (465, 1045)
Testing Features Shape: (1395,)
Testing Labels Shape: (465,)

          TEST SETS

Training Features Shape: (1039, 1045)
Training Labels Shape: (347, 1045)
Testing Features Shape: (1039,)
Testing Labels Shape: (347,)

任何这方面的建议都将受到高度赞赏。

你的问题有点不清楚，但据我了解，你想在上面运行你的模型测试X_train and on 测试X_测试（这只是测试功能分为两个子数据集）。

所以，你可以在上面运行你的模型测试X_train就像你做的一样测试X_测试, e.g. :

result_RFC_train = loaded_model_RFC.score(textX_train, testy_train)

或者您可以删除以下行：

testX_train, textX_test, testy_train, testy_test = model_selection.train_test_split(testFeatures, testlabels, test_size= 0.25, random_state = 42)

因此，您只需不要拆分数据并在完整数据集上运行它：

result_RFC_train = loaded_model_RFC.score(testFeatures, testlabels)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在不同的数据集上运行经过训练的机器学习模型的相关文章

scipy 将一个稀疏矩阵的所有行附加到另一个稀疏矩阵

我有一个 numpy 矩阵想在其中附加另一个矩阵这两个矩阵的形状为 m1 shape 2777 5902 m2 shape 695 5902 我想将 m2 附加到 m1 以便新矩阵的形状为 m new shape 3472 5902 当
为什么删除临时文件时出现WindowsError？

我创建了一个临时文件向创建的文件添加了一些数据已保存然后尝试将其删除但我越来越WindowsError 编辑后我已关闭该文件如何检查哪个其他进程正在访问该文件 C Documents and Settings Administra
Kivy - 有所有颜色名称的列表吗？

在 Kivy 中小部件 color属性允许输入其值作为字符串颜色名称也例如在 kv file Label color red 是否有所有可能的颜色名称的列表就在这里来自Kivy 的文档 https kivy org doc sta
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
sklearn 中的 pca.inverse_transform

将我的数据拟合后 X 我的数据 pca PCA n components 1 pca fit X X pca pca fit transform X 现在 X pca 具有一维当我根据定义执行逆变换时它不是应该返回原始数据即 X 二维
没有名为 StringIO 的模块

我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
Django send_mail SMTPSenderRefused 530 与 gmail

一段时间以来我一直在尝试使用 Django 从我正在开发的网站接收电子邮件现在我还没有部署它并且我正在使用Django开发服务器我不知道这是否会影响它这是我的 settings py 配置 EMAIL BACKEND djang
Python新式类和__subclasses__函数

有人可以向我解释为什么这有效在 Python 2 5 中 class Foo object pass class Bar Foo pass print Foo subclasses 但这不是 class Foo pass class Ba
在 Windows 上使用 apache mod_wsgi 运行 Flask 应用程序时导入冲突

我允许您询问我在 Windows 上使用您的 mod wsgi portage 托管 Flask 应用程序时遇到的问题我有两个烧瓶应用程序由于导入冲突只有一个可以同时存在 IE 如果请求申请 1 我有回复然后如果我请求应用程序 2
pytest：同一接口的不同实现的可重用测试

想象一下我已经实现了一个名为的实用程序可能是一个类 Bar在一个模块中foo 并为其编写了以下测试测试 foo py from foo import Bar as Implementation from pytest import ma
使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
使用“默认”环境变量启动新的子进程

我正在编写一个构建脚本来解析依赖的共享库及其共享库等这些共享库在正常情况下是不存在的PATH环境变量为了使构建过程正常工作让编译器找到这些库 PATH已更改为包含这些库的目录构建过程是这样的加载器脚本更改 PATH gt 基于
返回表示每组内最大值的索引的一系列数字位置

考虑一下这个系列 np random seed 3 1415 s pd Series np random rand 100 pd MultiIndex from product list ABDCE list abcde One Two T
Anaconda 无法导入 ssl 但 Python 可以

Anaconda 3 Jupyter笔记本无法导入ssl 但使用Atom终端导入ssl没有问题我尝试在 Jupyter 笔记本中导入 ssl 但出现以下错误 C ProgramData Anaconda3 lib ssl py in
Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
TKinter 中的禁用/启用按钮

我正在尝试制作一个像开关一样的按钮所以如果我单击禁用按钮它将禁用按钮有效如果我再次按下它它将再次启用它我尝试了 if else 之类的东西但没有成功这是一个例子 from tkinter import fenster Tk
将上下文管理器的动态可迭代链接到单个 with 语句

我有一堆想要链接的上下文管理器第一眼看上去 contextlib nested看起来是一个合适的解决方案但是此方法在文档中被标记为已弃用该文档还指出最新的with声明直接允许这样做自 2 7 版起已弃用 with 语句现在支持此

随机推荐

长文本在 ICS 上会转到下一行，但在 GB 及以下版本上不会

我第一次注意到这一点是在 AlertDialogs 中将整个消息放在第一行即使我指定了新行 n 在 ICS 上它显示正确的方式但对于我的生活我无法让它在 GB 上工作最近我又遇到了我看不出它在 ICS 上运行良好但在 GB 及以下
使用连续内存并具有保留功能的映射和集合

我使用了几张地图和套件缺乏连续内存以及大量的分配解除是性能瓶颈我需要一个主要与 STL 兼容的映射和集合类它可以将连续的内存块用于内部对象或多个块它还需要有一个reserve函数以便我可以预先分配预期的大小在我自己编写之前
如何在循环期间的任意时刻检查按键按下情况？

我正在尝试制作一个倒数到 0 然后开始向上计数的计时器我正在使用时间和键盘模块这keyboard https pypi org project keyboard来自 PyPi 的模块一切都按预期进行我可以按一个按钮关闭程序但它只在
C# Linq where 子句作为变量

我正在尝试创建一个 LINQ 语句其中 where 子句来自变量例如 string whereClause address zip 23456 var x from something in someList where whereCl
如何使可变参数模板类方法将函数指针作为参数，并使用从函数模板派生的类型？

抱歉标题很拗口我正在研究一个类似于所讨论的数组类here https stackoverflow com questions 26766617 我想定义一个映射函数它接受用户定义的函数并将其应用于数组的每个元素出于类型检查的目的
表单标签的 CSS 样式

据我所知一个
Java、HashMap 和使用字符串作为键 - 字符串值是否会存储两次？

如果我有一个如下所示的 HashMap HashMap
Viewpager 延迟加载数据

ViewPager有一个公共函数setOffscreenPageLimit http developer android com reference android support v4 view ViewPager html setOff
MVC 3 列表的不引人注目的验证

Question 我创建了一个服务器端属性级别验证属性但我没有将其应用于单个字段而是将其应用于列表这使我能够从整体上验证模型我现在需要知道如何使用 MVC 3 中内置的不显眼的客户端验证将其转换为工作我当前的代码如下来说明我的问题
div背景图片+jquery的幻灯片

我在标题处有一个大的 div 元素 div 中有很多文本内容和一些框我有一个大的 img 作为这个 div 的背景现在我需要为这个 div 的背景制作一个幻灯片如何为 div 的背景图像制作幻灯片我研究了很多但找不到任何东西多谢
Bash if 语句中何时需要方括号？

通常我在 if 语句中使用方括号 if name Bob then 但是当我检查是否grep成功了我不使用方括号 if grep q text file then 什么时候需要方括号if陈述方括号是同义词test命令一个if语句检查
分层代码优先 EF 绑定到 WPF Treeview...不可能

在过去我不得不求助于使用数据集和数据表因为使用绑定来做到这一点仍然让我困惑顶层我在 VB 2012 中创建了一系列类对它们进行了注释并使用 Code First 在 EF6 中创建了 EF 模型这个想法是表示路由器配置配置的
随机值生成 JavaScript

我有一些代码用于将数组中的随机值存储到变量中如下所示 Quest value1 value2 value3 value4 var random Math floor Math random Quest length var questio
将控制台窗口添加到 ASP.NET Core 应用程序

我有一个 ASP NET Core 2 0 应用程序在 NET Core 2 0 中的 Windows 上运行命令行 C Program Files dotnet dotnet exe 执行 C Users zippy documents
如何在 mysql 查询中将行放在顶部。

您好我的 SQL 表中有 100 条记录我想按名称对它们进行 ASC 排序但我需要在所有记录 nr 43 之上添加一条记录有没有办法我可以先拉出这个记录 43 然后再按名称按 ASC 顺序排列其他所有内容技巧是在一个查询中完成它
SSL 会话票证与会话 ID

为了提高不保留短连接的 SSL 握手性能有两个广为人知的独立功能 TLS 会话 ID TLS 会话票证如果有很多短连接会话就性能开销而言哪种机制更可取并且应该使用我知道服务器需要缓存会话 ID 并且在负载平衡的情况下会话票证也
不在 In SQL 语句中？

我在Excel中有一组大约5000个ID 在表中我有大约30000个ID 如果我在SQL语句中使用 In 条件我将从Excel中拥有的ID中获得大约4300个ID 但是如果我将 Not In 与 Excel id 一起使用我已经获得了大
node.js axios 下载文件流和 writeFile

我想下载一个 pdf 文件axios并保存在磁盘服务器端上fs writeFile 我努力了 axios get https xxx my pdf responseType blob then response gt fs writeF
四元数到欧拉角算法 - 如何转换为“Y = Up”和旋手性之间的转换？

我有一个在四元数和欧拉角之间转换的算法 public static Vector3 ToEulerAngles this Quaternion q Store the Euler angles in radians Vector3 pitc
在不同的数据集上运行经过训练的机器学习模型

我是机器学习的新手正在尝试在另一个相同格式的数据集上运行一个简单的分类模型该模型是我使用 pickle 训练和保存的我有以下 python 代码 Code Training set features pd read csv Data

在不同的数据集上运行经过训练的机器学习模型

在不同的数据集上运行经过训练的机器学习模型 的相关文章

随机推荐

热门标签

在不同的数据集上运行经过训练的机器学习模型的相关文章