SciKit One-class SVM 分类器训练时间随着训练数据的大小呈指数增长

2023-11-29

我正在使用 Python SciKit OneClass SVM 分类器来检测文本行中的异常值。首先使用词袋和 TF-IDF 将文本转换为数字特征。

当我训练（拟合）在计算机上运行的分类器时，时间似乎随着训练集中的项目数量呈指数增长：

训练数据的项目数和训练时间： 10K：1 秒、15K：2 秒、20K：8 秒、25k：12 秒、30K：16 秒、45K：44 秒。

我可以做些什么来减少训练所需的时间，并避免当训练数据大小增加到几十万项时训练时间变得太长？

scikit 的 SVM 是一个高级实现，所以你能做的就这么多，就速度而言，从他们的网站来看，“SVM 不直接提供概率估计，这些是使用昂贵的五倍交叉验证来计算的”。

您可以根据可用 RAM 增加内核大小参数，但这种增加并没有多大帮助。

您可以尝试更改内核，尽管您的型号可能不正确。

以下是来自的一些建议http://scikit-learn.org/stable/modules/svm.html#tips-on-practical-use：扩展您的数据。

否则，不要使用 scikit 并使用神经网络自行实现。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

SVM

SciKit One-class SVM 分类器训练时间随着训练数据的大小呈指数增长的相关文章

在 sympy 绘图中，如何获得具有固定纵横比的绘图？

如果我用这个片段画一个圆 from sympy import x y symbols x y p1 plot implicit Eq x 2 y 2 1 aspect ratio 1 1 我会得到一个像这样的图形窗口现在长宽比不是我所期望
matplotlib get_color 用于子图

我正在按照这里的教程进行操作 https matplotlib org gallery ticks and spines multiple yaxis with spines html https matplotlib org galler
Django 和 AWS 简单电子邮件服务 [重复]

这个问题在这里已经有答案了我正在尝试启动并运行 django 站点并且正在尝试启用 django 的标准密码重置服务我的网站由 AWS EC2 托管因此我想将 AWS SES 用于我的电子邮件服务但是我无法使 smtp 连接正常
为什么 np.linalg.norm(..., axis=1) 比写出向量范数公式慢？

标准化矩阵的行X对于单位长度我通常使用 X np linalg norm X axis 1 keepdims True 在尝试优化算法的此操作时我非常惊讶地发现在我的机器上写出标准化的速度大约快了 40 X np sqrt X 0 2
Pandas cut 方法不包括下限

我正在尝试对包含 0 到 100 范围内的年龄的数据帧列进行分箱当我尝试使用垃圾箱来包含零年龄时它不起作用这是一个使用包含我的数据范围的列表的演示 pd cut pd Series range 101 0 24 49 74 100 范
Python中非常大的整数的math.pow是错误的[重复]

这个问题在这里已经有答案了我试图通过计算一个整数的非常大的幂来打印一个非常大的数字尽管我的代码是正确的但我没有观察到所需的输出一般来说 Python解释器可以打印系统内存支持的非常大的整数考虑到这个假设下面是我正在运行的代码 a
PRAW 出现 SSLError？

我正在尝试开始使用 PRAW 但在使用 login 时遇到问题我有以下代码 import praw r praw Reddit This is a test bot r login myRedditUsername password 我收
如何让 Discord 机器人显示“机器人正在输入...”状态？

所以如果我有一个像这样的长命令 bot command pass context True async def longCommand ctx typing status sleep 10 bot say Done 不幸的是在文档或此处没
在 Pyinstaller、语音识别和 Pyttsx3 中使用“-w”时，PySimpleGUI 中出现“OSError：[WinError 6] 句柄无效”

所以我用 PySimpleGUI 创建了一个程序然后用 Pyinstaller 从它创建了 exe 文件这是我的命令 pyinstaller hidden import pyttsx3 drivers hidden import pyt
使用 mechanize 和 beautiful soup 在 python 中进行原始 HTML 与 DOM 抓取

我正在尝试编写一个程序作为示例该程序将从该网页上刮掉最高价格 http www kayak com flights JFK PAR 2012 06 01 2012 07 01 1adults http www kayak com fli
Django 单元测试数据库没有被拆除？

我编写了一些单元测试来测试我的 Django 应用程序特别是一个测试套件中包含大量代码setUp 功能所述代码的目的是为数据库创建测试数据是的我了解固定装置并且选择在这种情况下不使用它们当我运行单元测试套件时运行的第一个测试通
Python textwrap.wrap 导致 \n 问题

所以我只是重新格式化了一堆代码以合并textwrap wrap 却发现我所有的 n都消失了这是一个例子 from textwrap import wrap def wrapAndPrint msg width 25 wrap msg to
提取二值图像中的最中心区域

我正在处理二进制图像之前使用此代码来查找二进制图像中的最大区域 Use the hue value to convert to binary thresh 20 thresh thresh img cv2 threshold h thre
使用字体模块的 Tkinter 代码无法从命令行运行？

我有使用 tkinter 的代码我可以从 IDLE 运行得很好但会引发异常AttributeError module object has no attribute font 当它从命令行运行时其他 tkinter 程序工作正常但任
Python 宏：用例？

如果 Python 有一个类似于 Lisp Scheme 的宏工具比如元Python https code google com p metapython 你会如何使用它如果您是一名 Lisp Scheme 程序员您会使用宏来做什么
无法从源 pylance 解析导入烧瓶

我正在学习 Python 课程的一部分是使用 Flask 设置网络服务器我按照 Flask 安装文档执行了步骤由于某种原因 flask 模块带有下划线如下所示当我将鼠标悬停时我会得到如下附加信息无法从源 pylance 解析导入
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
Django 表单中的只读字段

如何在 Django 表单中将字段设置为只读我知道如何禁用某个字段但这不是我想要的任何帮助将不胜感激您可以使用可选的attrs定义时的参数Field 以机智 somefield forms CharField widget for
Pandas 将时间序列数据重新采样为 15 分钟和 45 分钟 - 使用多索引或列

我有一些时间序列数据作为 Pandas 数据框它从每小时过去 15 分钟和过去 45 分钟时间间隔为 30 分钟的观察开始然后将频率更改为每分钟我想对数据进行重新采样以便整个数据帧的频率为每 30 分钟一次 15 点和 45 点
Django Python - LDAP 身份验证

我目前正在研究 Django Python 我的目标是从 Ldap 目录对用户进行身份验证我确实有 python 代码来访问 ldap 目录并检索信息 Code import ldap try l ldap open ldap forum

随机推荐

查找联系人组的帐户性质？

我正在开发一个应用程序其中需要找到联系人组的性质即是谷歌组电话组还是SIM组如何找到它请建议我该怎么做提前致谢下面的代码打印联系人姓名和类型我还没有优化它它会打印多条记录但我想你会知道该怎么做 package com e
在表结构上添加一个where-对象？

用 label 重命名标题我想过滤最后一个 SpaceLeft 但它不能正常工作例如 Get WmiObject win32 logicaldisk ComputerName sfuslt167 Filter drivetype 3 F
如何使用 CSS 使绝对 div 水平居中？

我有一个 div 并希望它水平居中尽管我给了它margin 0 auto 它不是居中的 container position absolute top 15px z index 2 width 40 max width 960px min
如何使用 GameKit 在 iPhone 蓝牙中区分主机和客户端

我使用 GameKit 框架制作了一款多人游戏其中 2 个 iPhone iPod 可以通过蓝牙相互连接并玩我正在考虑一种方法来选择哪个设备可以先播放因此合理的解决方案是选择连接的主机 GKSession 中是否有服务器和客户端他
在 Create React App 实用程序中启用 CORS

我需要使用CORSReact 中的节点模块使用以下命令创建create react app公用事业由于它是一个实用程序我无法在内部进行调整和注入CORS进入预配置的EXPRESS module 我们怎样才能做到这一点如果你需要这个来进
Nil 不能赋值给 ()->() 类型？

这是一个类中的函数可让您进行双击和单击手势它在 Swift 2 3 中工作正常但转换到 Swift 3 后会抛出一些错误我一生都无法理解弄清楚我评论了它们发生的地方 UIShortTapGestureRecognizer swi
public_html上面存储和读取图片

我正在尝试保护我的 PHP 图像上传脚本我必须跨越的最后一个障碍是使用户无法直接执行图像但服务器仍然可以在网页中提供它们我尝试更改文件夹的所有权和权限但无济于事因此我尝试存储 public html 上面的图像并将它们显示在存储在
Phonegap HTML5 / Android 应用程序 - Iframe 高度问题

我们构建了一个 HTML5 应用程序可以动态加载 iFrame 来显示外部内容这个解决方案一直运行良好直到 android 4 0 发布这似乎改变了 iframe 渲染的工作方式它似乎无法再检测高度它显示一个小的可滚动框其中包
多个 CMake 目标的 target_compile_definitions？

I ve been told做诸如设置之类的事情是不好的做法CFLAGS直接在 CMake 中相反我应该使用target compile definitions 命令好的但是如果我想对多个独立目标使用相似相同的定义怎么办我
在 C# 中格式化 Excel 中多行的最快方法

我有一个巨大的数据集我想将其写入 Excel 并且需要根据业务逻辑对行执行条件格式设置因此对于数据插入部分我使用数据数组来填充 Excel 并且工作速度非常快但是在格式化行时我发现性能严重下降仅进行格式化就几乎花费了一倍以上
我是否需要最新版本的 Xcode 才能将应用程序提交到应用程序商店？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我目前在 Snow Leopard 10 6 6 上运行 Xcode 版本 3 2 5 这意味着我可以在模拟器上运行 iOS 4 2 及以上版本的应用程序如果我使用过时版本的 Xc
使用 IRdisplayl::display_html 在 Jupyter 笔记本中显示观星仪输出时出错

m lt capture output stargazer lm enroll lm grades lm score digits 3 header FALSE type html se rob se title Linear Panel
如何为网络应用程序创建 exe？

我使用 Visual studio 2012 ASP Net 4 5 C 和 Web 服务开发了一个 Web 应用程序两者都放在一个解决方案中我需要将我的解决方案转换为 EXE 文件为我的 Web 应用程序创建 EXE 我真正需要的是
如何显式地从某些特征调用函数？

我想知道如何从特征调用函数前提是有多个特征具有相同的函数名称问题出在33行或者tr1 tr v 我该如何表达我想要调用的特质 struct V2D x i32 y i32 impl V2D fn new x i32 y i32 gt V
如何在Python中让用户输入真/假？

我是蟒蛇新手我想让程序询问 is Johnny hungry True or false 用户输入 True然后打印是 Johnny needs to eat 用户输入错误然后打印 Johnny is full 我知道添加一个我输入的 i
合并哈希数组中的重复项

我有一个 ruby 中的哈希数组 name one tags xxx name two tags yyy name one tags zzz 我正在寻找任何干净的红宝石解决方案这将使它能够简单地合并该数组中的所有重复项通过合并我的意思是
防止/捕获“IllegalArgumentException：参数必须是此视图的后代”错误

我有一个 ListView 里面有一些可聚焦的组件主要是EditTexts 是的我知道这并不完全推荐但总的来说几乎一切都工作正常并且焦点集中在它必须去的地方我必须编码一些调整不管怎样我的问题是当用手指滚动列表然后突然使用轨
为什么 url 在浏览器中有效但不能使用 requests get 方法

在测试时我刚刚发现这 url http wi312 rockdizfile com d uclf2kr7fp4r2ge47pcuihdpky2chcsjur5nrds2hx53f26qgxnrktew Kimbra 20 20Love
迁移 App Engine 使用 Google Cloud Load Balancer 导致约 1 小时的停机时间

Overview 我在 App Engine 上有一个具有自定义域和 Google 提供的 SSL 证书的实例但现在我需要在其前面放置一个 Google Cloud Load Balancer 我按照此处的说明进行操作进行了调整以针对
SciKit One-class SVM 分类器训练时间随着训练数据的大小呈指数增长

我正在使用 Python SciKit OneClass SVM 分类器来检测文本行中的异常值首先使用词袋和 TF IDF 将文本转换为数字特征当我训练拟合在计算机上运行的分类器时时间似乎随着训练集中的项目数量呈指数增长训练数据

SciKit One-class SVM 分类器训练时间随着训练数据的大小呈指数增长

SciKit One-class SVM 分类器训练时间随着训练数据的大小呈指数增长 的相关文章

随机推荐

热门标签

SciKit One-class SVM 分类器训练时间随着训练数据的大小呈指数增长的相关文章