datamining

计算聚类的 F 度量

谁能帮我计算一下F measure的总和吗我知道如何计算召回率和精度但不知道对于给定的算法如何计算一个 F 测量值举个例子假设我的算法创建m集群但我知道有n相同数据的聚类由另一个基准算法创建我找到了一份 pdf 但它没有用因

clusteranalysis datamining precisionrecall

R：tuneRF 函数的行为不明确（randomForest 包）

我对这句话的含义感到不舒服stepFactor的参数tuneRF http www inside r org packages cran randomForest docs tuneRF函数用于调整mtry进一步使用的参数randomFor

r Optimization machinelearning datamining RandomForest

HMM 如何用于手写识别？

这个问题与传统的手写识别有点不同我有一个包含数千个以下内容的数据集对于一个绘制的角色我有几个连续的 x y 按下笔的坐标所以这是一个顺序时间问题我希望能够根据这些数据对手写字符进行分类并且希望实现 HMM 来实现学习目的

machinelearning datamining hiddenmarkovmodels handwritingrecognition

网页抓取、屏幕抓取、数据挖掘技巧？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi

Java screenscraping htmlparsing datamining webscraping

Matlab - 多维数据的PCA分析与重构

我有一个大型多维数据集 132 维我是数据挖掘的初学者我想使用 Matlab 来应用主成分分析不过我看到网上有很多功能解释但我不明白它们应该如何应用基本上我想应用 PCA 并从我的数据中获取特征向量及其相应的特征值在此步骤之

MATLAB datamining PCA

如何提取文本中使用的关键字？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的

Text Indexing keyword datamining

使用 R TM 包查找 2 和 3 个单词短语

我正在尝试找到一个代码该代码实际上可以在 R 文本挖掘包中找到最常用的两个和三个单词短语也许还有另一个我不知道的包我一直在尝试使用标记器但似乎没有运气如果您过去处理过类似的情况您可以发布经过测试且实际有效的代码吗太感谢了您可

r datamining textmining

TFIDF 计算混淆

我在网上找到了以下计算TFIDF的代码 https github com timtrueman tf idf blob master tf idf py 我在函数 def idf word documentList 中添加了 1 这样我就不

python datamining textprocessing informationretrieval tfidf

网络挖掘-分类算法

我的高级项目是确定网页的主导类别我抓取了 dmoz 现在我正在尝试构建arff 之后我将使用一些特征提取方法和分类算法您知道哪种特征提取方法与用于网络挖掘的任何分类算法表现良好吗 u分类 http www uclassify com u

Algorithm datamining Mining

R 中的时间序列突破/变化/干扰检测：strucchange、changepoint、BreakoutDetection、bfast 等

我希望这成为 R 中各种时间序列突破变化干扰检测方法的路标我的问题是描述以下每个包的动机和方法差异也就是说什么时候使用一种方法比另一种方法更有意义相似差异等有问题的包结构变化 http cran r project org

r TimeSeries datamining

如何在 Python 上使用 PMML 文件和 Augustus 对线性模型进行评分

我是 python PMML 和 augustus 的新手所以这个问题有点新手我有一个 PMML 文件我想在每次新的数据迭代后从中评分我必须使用 Python 和 Augustus 来完成这个练习我读过各种文章其中一些值得一提

python r xsd datamining pmml

R arules ：从规则中提取 lhs 项

我想从 arules 生成的规则中提取 lhs 项目例如 a b c gt d 我希望能够提取a b c并将其放入字符向量中以便我可以根据这些项目进行迭代和进一步处理目前我可以考虑解析这组规则将其转换为数据帧然后使用字符操作正

r datamining arules

DBSCAN 算法可以创建少于 minPts 的簇吗？

我刚刚编写了 DBSCAN 算法我想知道 DBSCAN 算法是否可以允许集群中的点数少于所使用的 minPts 参数我一直在使用http people cs nctu edu tw rsliang dbscan testdatagen

machinelearning datamining clusteranalysis DBSCAN

梯度下降和牛顿梯度下降有什么区别？

我明白梯度下降的作用基本上它试图通过缓慢地沿着曲线移动来走向局部最优解我想了解普通梯度下降法和牛顿法之间的实际区别是什么我从维基百科上读到了这样一句话牛顿方法使用曲率信息来采取更直接的路线这直观上意味着什么在局部最小值或最大

R：如何从日期中删除当天？ [复制]

这个问题在这里已经有答案了我在 df 列中有一堆日期格式如下 dd mm yyyy 我希望它看起来像这样 01 2020 mm yyyy 如何从所有日期中删除这一天 Use format指定您想要的日期格式 date lt as Dat

r datamining

混淆矩阵和列联表有什么区别？

我正在编写一段代码来评估我的聚类算法我发现每种评估方法都需要来自m n类似矩阵A aij where aij是属于类成员的数据点的数量ci和簇的元素kj 但似乎有两个这种类型的矩阵数据挖掘简介 Pang Ning Tan 等一个是混淆矩

matrix clusteranalysis datamining difference

JavaScript 和科学处理？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案 Matlab R 和 Python 功能强大但对于我想做的一些数据挖掘工作来说要么成本高昂要么速度缓慢我正在考虑使用 Javascript

javascript datamining scientificcomputing

如何分析稀疏邻接矩阵？

我正在研究稀疏邻接矩阵其中大多数单元格为零有些单元格为零两个单元格之间的每个关系都有一个可能很长的多项式描述并且手动分析它们非常耗时我的老师建议使用纯代数方法格罗布纳基地 http pastebin com jwVMxbM2但在继

Math matrix datamining Analysis Polynomials

什么是 Java 数据挖掘，JDM？

我正在看JDM 这只是一个与其他进行实际数据挖掘的工具交互的 API 吗或者这是一组包含实际数据挖掘算法的包啊奇迹互联网 http en wikipedia org wiki Java Data Mining Java 数据挖掘 JD

Java API datamining

您使用什么数据挖掘工具？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi

opensource datamining