scikit-learn 适合大数据任务吗？

2024-06-19

我正在研究一项涉及使用机器学习技术的 TREC 任务，其中数据集由超过 5 TB 的 Web 文档组成，计划从中提取词袋向量。scikit-learn有一组不错的功能似乎可以满足我的需求，但我不知道它是否能够很好地扩展以处理大数据。例如，是HashingVectorizer能够处理 5 TB 的文档，并行化是否可行？此外，大规模机器学习任务有哪些替代方案？

HashingVectorizer例如，如果您迭代地将数据分块为适合内存的 10k 或 100k 文档批次，则该方法会起作用。

然后，您可以将批量转换后的文档传递给支持以下内容的线性分类器：partial_fit方法（例如SGDClassifier or PassiveAggressiveClassifier），然后迭代新批次。

当您监控部分训练的模型的准确性时，您可以开始在保留的验证集（例如 10k 个文档）上对模型进行评分，而无需等待查看所有样本。

您还可以在数据分区上的多台计算机上并行执行此操作，然后对结果进行平均coef_ and intercept_属性以获得所有数据集的最终线性模型。

我在 2013 年 3 月在 PyData 上发表的演讲中讨论了这一点：http://vimeo.com/63269736 http://vimeo.com/63269736

这里面还有示例代码使用 IPython.parallel 瘫痪 scikit-learn 的教程 https://nbviewer.org/github/ogrisel/parallel_ml_tutorial/blob/master/rendered_notebooks/08%20-%20Large%20Scale%20Text%20Classification%20for%20Sentiment%20Analysis.ipynb取自：https://github.com/ogrisel/parallel_ml_tutorial https://github.com/ogrisel/parallel_ml_tutorial

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scikit-learn 适合大数据任务吗？的相关文章

如何修复 Apache mod_wsgi 的 Python 版本不匹配问题？

我收到此错误 Thu Jul 12 14 31 36 2012 error python init Python version mismatch expected 2 6 7 found 2 6 8 当尝试启动 Apache 服务器时在
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词

随机推荐

使用 Hive 计算文本变量的单词频率

我有一个变量每一行都是一个句子例子 Row1 Hey how are you Rwo2 Hey Who is there 我希望输出是按单词分组的计数 Example Hey 2 How 1 are 1 我正在使用 split a bi
在 React 应用程序中简单连接到 mongodb

我使用 create react app 创建了简单的反应应用程序这个应用程序包含表单验证和引导程序没有什么花哨的东西能像魅力一样发挥作用我还注册了 mongo 以获得免费集群以便我可以发送一些数据所以我有这个网址 mongod
&（与符号）和 && 或 | 之间的区别（管道）和||在 Objective-C 中？

我想知道Objective C是否关心我是写还是我相信一个与号会或应该导致如果左侧已经为假则右侧将不会被评估这适用于 Objective C 吗 Yes 这些运算符在 C 和 Objective C 中的功能相同就像在 C 中一
Grep 批量 ping

寻找一种更好的方法来做到这一点而不是我习惯的手动方法因为这是一个我必须定期经历的过程我有一系列要 ping 的 IP 从10 0 1 15 to 10 0 50 15 第三个八位位组指的是物理位置最后一个八位位组指的是该位置处的
使用 docker for windows 工具箱切换到 Windows 容器

我已经在 Windows 7 64 位操作系统上安装了 docker for windows toolbox 我无法使用 docker 菜单切换到 Windows 容器因为 docker 图标在系统托盘中不可用 Docker 服务也不可用
如何将配置文件添加到 Eclipse 中的默认 Maven 目标？

我在 Eclipse 中使用 Maven 来构建和部署代码选择时 Context Menu gt Run As 几个Maven目标如下据我所知如果我想创建自定义构建配置我会单击运行配置来创建自定义配置然而似乎没有办法修改菜单
如何使用 django Rest 框架通过直通模型序列化 ManyToManyField

我有一个 Recipe 模型其中包含 IngredientType 对象的 M2M 字段该字段又名成分列表通过 Ingredient 对象使用臭名昭著的 through 模型该对象将额外的数据添加到我的 IngredientTyp
Informix 中的组索引

我有一张桌子叫hitlist 有 3 列 int id long hitlisted date long deleted date 我将根据这些列查询该表 histlisted date frequent hitlisted date de
如何编写 PMPI 库来包装 MPI 函数

我正在尝试编写 PMPI 库但不确定正确的步骤库和链接的新手我编写了一个包装 MPI Send 函数的基本文件假设它是一个名为 lib c 的文件我应该执行哪些步骤以便当我使用 MPI Send 运行 c 代码时我的包装器代码
如何在不使用 viewWillDisappear 的情况下使 NSTimer 无效/取消初始化？

var faderTimer NSTimer override func viewDidLoad super viewDidLoad self faderTimer NSTimer scheduledTimerWithTimeInterva
在运行时动态创建核心数据模型

是否可以在运行时从服务器上的一组实体生成核心数据模型例如SharePoint 列表或 SQL MySQL Parse 我正在尝试采用动态路线因为 SharePoint 列表 SQL Parse 中的字段可能会在将来随时添加这意味着应用
Bash - 在与当前终端分开的另一个终端中启动命令的新实例

我有一个简单的 bash 脚本 test sh 设置如下 bin bash args if args 0 check capture then watch n 1 ls lag home user capture0 watch n 1 ls
PHP设置全局环境变量的方法

我已阅读问题答案here https stackoverflow com questions 13568191 how to get system environment variables into php while running
如何提供 Angular 2 dist 文件夹index.html

我正在使用这个 Angular 4 种子应用程序 https github com 2sic app tutorial angular4 hello dnn https github com 2sic app tutorial angula
升级到 1.8.1 后 Django 管理中断

我从 1 7 3 升级到 1 8 1 但我的管理员无法工作并且站点无法加载因为它在解析路径时失败例外 Enable django contrib auth context processors auth in your TEMPLAT
Python 的 StringIO 不能很好地处理 `with` 语句

我需要存根tempfile and StringIO看起来很完美只是这一切都因疏忽而失败 In 1 from StringIO import StringIO In 2 with StringIO foo as f f read gt A
透明平开窗

我有一点JWindow上面有一个标志用户可以将东西拖到上面我主要在 OS X 上开发我的应用程序为了获得我使用的透明窗口 setBackground new Color 0 0 0 0 在 Mac 上这工作得很好但在 Window
是否可以将 Swifts 自动数值桥接复制到 (U)Int8/16/32/64 类型的 Foundation (NSNumber)？

Question 是否可以将 Swifts 数值桥接复制到 Foundation sNSNumber参考类型例如Int32 UInt32 Int64 and UInt64类型具体来说复制下面介绍的自动按分配桥接这种解决方案的预期用法
为什么在 Braintree 中，使用生产（实时）帐户 api 凭证中的直接表单，贝宝按钮不可见

当我使用沙箱帐户作为 Braintree 的直接形式时卡字段和贝宝按钮是可见的但在生产帐户 API 凭据上 paypal 按钮不可见 Full disclosure I work at Braintree If you have any
scikit-learn 适合大数据任务吗？

我正在研究一项涉及使用机器学习技术的 TREC 任务其中数据集由超过 5 TB 的 Web 文档组成计划从中提取词袋向量 scikit learn有一组不错的功能似乎可以满足我的需求但我不知道它是否能够很好地扩展以处理大数据例如是

scikit-learn 适合大数据任务吗？

scikit-learn 适合大数据任务吗？ 的相关文章

随机推荐

热门标签

scikit-learn 适合大数据任务吗？的相关文章