datamining

什么是 Java 数据挖掘，JDM？

我正在看JDM 这只是一个与其他进行实际数据挖掘的工具交互的 API 吗或者这是一组包含实际数据挖掘算法的包啊奇迹互联网 http en wikipedia org wiki Java Data Mining Java 数据挖掘 JD

Java API datamining

您使用什么数据挖掘工具？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi

opensource datamining

在scikit-learn中，DBSCAN可以使用稀疏矩阵吗？

当我运行 scikit 的 dbscan 算法时出现内存错误我的数据约为20000 10000 它是一个二进制矩阵也许这样的矩阵不适合使用DBSCAN 我是机器学习的初学者我只是想找到一种不需要初始簇号的聚类方法不管怎样我发现了

machinelearning scikitlearn clusteranalysis datamining DBSCAN

文本文件的信息增益计算？

我正在尝试使用信息增益 PCA 和遗传算法进行文本分类但表演完之后预处理词干提取停用词删除 TFIDF 在文档中我很困惑如何继续进行信息获取部分 my out file包含word在那里TFIDF value like 字 TFID

Java datamining informationretrieval textmining

就数据挖掘和可视化工具支持而言，日志事件的最佳 XML 格式是什么？

我们希望能够从 Java 应用程序创建日志文件该文件适合稍后通过工具进行处理以帮助调查错误并收集性能统计数据目前我们使用传统的日志内容可能会或可能不会被展平为文本形式并附加到日志文件中但这最适合人类读取的少量信息经过仔细考虑

Java logging Visualization datamining errorlogging

如何使用Weka预测结果

我是 Weka 新手对该工具感到困惑我有一个关于水果价格和相关属性的数据集我正在尝试使用数据集预测具体的水果价格由于我是 Weka 新手我不知道如何完成这项任务请帮助我或指导我了解有关如何进行预测以及此任务的最佳方法或算法是什么

Dataset datamining Classification Weka Prediction

Weka 的主成分分析

我刚刚在训练集上计算了 PCA Weka 返回了新属性及其选择和计算方式现在我想使用这些数据构建一个模型然后在测试集上使用该模型不知道有没有办法根据新的属性类型自动修改测试集您是否需要主成分进行分析或仅将其输入分类器如果不是只

datamining Weka PCA

Sql server 和 R、数据挖掘

我正在使用 Microsoft SQL Management Studio 2016 使用使我可以将 R 脚本添加到 SQL 代码中的功能我的目标是实现一个 aPriori 算法过程它以我喜欢的方式放置数据即一个包含 x 第一个对象

sqlserver r datamining

kmean 需要三角不等式吗？

我想知道对于 kmeans 中使用的距离度量是否需要三角不等式 k 均值是designed for 欧几里得距离正好满足三角不等式使用其他距离函数是有风险的因为它可能会停止收敛然而原因是not三角不等式但是平均值可能不会最小化距离

machinelearning clusteranalysis Distance datamining kmeans

如何在 Weka 中计算聚类评估的准确性

我们如何使用 Weka 计算集群的准确性我可以使用这个公式 Accuracy A tp tn Total samples 但我如何知道Weka工具中实验输出的真阳性假阳性真阴性和假阴性是什么 Weka中有几种不同的聚类模式使用训练集

machinelearning Weka datamining Evaluation unsupervisedlearning

在 K 均值算法 (MATLAB) 中使用绝对皮尔逊相关性作为距离

我需要使用相关距离进行一些聚类但我需要绝对皮尔逊距离而不是使用定义为 d 1 r 的内置距离相关在我的应用程序中反相关数据应该获得相同的集群 ID 现在当使用 kmeans 函数时我得到的质心高度反相关我希望通过组合它们来

MATLAB clusteranalysis datamining kmeans

使用 ctree 显示每个节点的体积，在 R 中绘图

任何人都可以告诉我如何在每个节点中添加体积而不是最终的节点体积 t lt ctree is return a b c plot t type simple 我的树看起来像我如何修改该图使其在每个圆形节点上显示 N 而不仅仅是黑色或最终

r model datamining

如何获取所有终端节点 - r 中的权重和响应预测“ctree”

这是我可以用来列出所有终端节点的权重的方法但是如何添加一些代码来获取响应预测以及每个终端节点 ID 的权重说我希望我的输出看起来像这样以下是我迄今为止获得的重量 nodes airct unique where airct 谢谢二叉

r datamining Decisiontree

余弦距离作为 k 均值的向量距离函数

我有一个 N 个顶点的图其中每个顶点代表一个地方我还有向量每个用户一个 N 个系数中的每一个其中系数的值是在相应地点花费的持续时间以秒为单位如果没有访问该地点则为 0 例如对于图表向量 v1 100 50 0 30 0 意味

clusteranalysis datamining Distance kmeans cosinesimilarity

快速 (< n^2) 聚类算法

我有 100 万个 5 维点需要将它们分组为 k 个簇其中 k 但我需要运行时间远低于 n 2 n log n 左右应该没问题我进行此聚类的原因是为了避免计算所有 n 个点的距离矩阵这需要 n 2 时间或多个小时而是我只想计算聚

Algorithm machinelearning clusteranalysis datamining kmeans

如何在 K - 均值算法中优化 K [重复]

这个问题在这里已经有答案了可能的重复使用 k 均值聚类时如何确定 k https stackoverflow com questions 1793532 how do i determine k when using k means c

datamining kmeans

如何使用 Scipy 处理巨大的稀疏矩阵构造？

因此我正在处理维基百科转储来计算大约 5 700 000 个页面的页面排名这些文件经过预处理因此不是 XML 格式它们取自http haselgrove id au wikipedia htm http haselgrove id

scipy datamining sparsematrix informationretrieval PageRank

使用 Gensim 提取短语时出错

我正在尝试使用 Gensim 中的短语来获取句子中的二元组如下所示 from gensim models import Phrases from gensim models phrases import Phraser documents

python datamining textmining Word2Vec gensim

mlpy - 动态时间扭曲取决于 x？

I am trying to get the distance between these two arrays shown below by DTW 我正在使用Pythonmlpy提供的套餐 dist cost path mlpy dtw

python Algorithm machinelearning patternmatching datamining