scikit-learn 适合大数据任务吗?

2024-06-19

我正在研究一项涉及使用机器学习技术的 TREC 任务,其中数据集由超过 5 TB 的 Web 文档组成,计划从中提取词袋向量。scikit-learn有一组不错的功能似乎可以满足我的需求,但我不知道它是否能够很好地扩展以处理大数据。例如,是HashingVectorizer能够处理 5 TB 的文档,并行化是否可行?此外,大规模机器学习任务有哪些替代方案?


HashingVectorizer例如,如果您迭代地将数据分块为适合内存的 10k 或 100k 文档批次,则该方法会起作用。

然后,您可以将批量转换后的文档传递给支持以下内容的线性分类器:partial_fit方法(例如SGDClassifier or PassiveAggressiveClassifier),然后迭代新批次。

当您监控部分训练的模型的准确性时,您可以开始在保留的验证集(例如 10k 个文档)上对模型进行评分,而无需等待查看所有样本。

您还可以在数据分区上的多台计算机上并行执行此操作,然后对结果进行平均coef_ and intercept_属性以获得所有数据集的最终线性模型。

我在 2013 年 3 月在 PyData 上发表的演讲中讨论了这一点:http://vimeo.com/63269736 http://vimeo.com/63269736

这里面还有示例代码使用 IPython.parallel 瘫痪 scikit-learn 的教程 https://nbviewer.org/github/ogrisel/parallel_ml_tutorial/blob/master/rendered_notebooks/08%20-%20Large%20Scale%20Text%20Classification%20for%20Sentiment%20Analysis.ipynb取自:https://github.com/ogrisel/parallel_ml_tutorial https://github.com/ogrisel/parallel_ml_tutorial

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

scikit-learn 适合大数据任务吗? 的相关文章

随机推荐