Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
什么是 Java 数据挖掘,JDM?
我正在看JDM 这只是一个与其他进行实际数据挖掘的工具交互的 API 吗 或者这是一组包含实际数据挖掘算法的包 啊 奇迹互联网 http en wikipedia org wiki Java Data Mining Java 数据挖掘 JD
Java
API
datamining
您使用什么数据挖掘工具? [关闭]
就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
opensource
datamining
在scikit-learn中,DBSCAN可以使用稀疏矩阵吗?
当我运行 scikit 的 dbscan 算法时 出现内存错误 我的数据约为20000 10000 它是一个二进制矩阵 也许这样的矩阵不适合使用DBSCAN 我是机器学习的初学者 我只是想找到一种不需要初始簇号的聚类方法 不管怎样 我发现了
machinelearning
scikitlearn
clusteranalysis
datamining
DBSCAN
文本文件的信息增益计算?
我正在尝试 使用信息增益 PCA 和遗传算法进行文本分类 但表演完之后预处理 词干提取 停用词删除 TFIDF 在文档中我很困惑如何继续进行信息获取部分 my out file包含word在那里TFIDF value like 字 TFID
Java
datamining
informationretrieval
textmining
就数据挖掘和可视化工具支持而言,日志事件的最佳 XML 格式是什么?
我们希望能够从 Java 应用程序创建日志文件 该文件适合稍后通过工具进行处理 以帮助调查错误并收集性能统计数据 目前 我们使用传统的 日志内容 可能会或可能不会被展平为文本形式并附加到日志文件中 但这最适合人类读取的少量信息 经过仔细考虑
Java
logging
Visualization
datamining
errorlogging
如何使用Weka预测结果
我是 Weka 新手 对该工具感到困惑 我有一个关于水果价格和相关属性的数据集 我正在尝试使用数据集预测具体的水果价格 由于我是 Weka 新手 我不知道如何完成这项任务 请帮助我或指导我了解有关如何进行预测以及此任务的最佳方法或算法是什么
Dataset
datamining
Classification
Weka
Prediction
Weka 的主成分分析
我刚刚在训练集上计算了 PCA Weka 返回了新属性及其选择和计算方式 现在 我想使用这些数据构建一个模型 然后在测试集上使用该模型 不知道有没有办法根据新的属性类型自动修改测试集 您是否需要主成分进行分析或仅将其输入分类器 如果不是 只
datamining
Weka
PCA
Sql server 和 R、数据挖掘
我正在使用 Microsoft SQL Management Studio 2016 使用使我可以将 R 脚本添加到 SQL 代码中的功能 我的目标是实现一个 aPriori 算法过程 它以我喜欢的方式放置数据 即一个包含 x 第一个对象
sqlserver
r
datamining
kmean 需要三角不等式吗?
我想知道对于 kmeans 中使用的距离度量是否需要三角不等式 k 均值是designed for 欧几里得距离 正好满足三角不等式 使用其他距离函数是有风险的 因为它可能会停止收敛 然而原因是not三角不等式 但是平均值可能不会最小化距离
machinelearning
clusteranalysis
Distance
datamining
kmeans
如何在 Weka 中计算聚类评估的准确性
我们如何使用 Weka 计算集群的准确性 我可以使用这个公式 Accuracy A tp tn Total samples 但我如何知道Weka工具中实验输出的真阳性 假阳性 真阴性和假阴性是什么 Weka中有几种不同的聚类模式 使用训练集
machinelearning
Weka
datamining
Evaluation
unsupervisedlearning
在 K 均值算法 (MATLAB) 中使用绝对皮尔逊相关性作为距离
我需要使用相关距离进行一些聚类 但我需要绝对皮尔逊距离 而不是使用定义为 d 1 r 的内置 距离 相关 在我的应用程序中 反相关数据应该获得相同的集群 ID 现在 当使用 kmeans 函数时 我得到的质心高度反相关 我希望通过组合它们来
MATLAB
clusteranalysis
datamining
kmeans
使用 ctree 显示每个节点的体积,在 R 中绘图
任何人都可以告诉我如何在每个节点中添加体积 而不是最终的节点体积 t lt ctree is return a b c plot t type simple 我的树看起来像 我如何修改该图 使其在每个圆形节点上显示 N 而不仅仅是黑色或最终
r
model
datamining
如何获取所有终端节点 - r 中的权重和响应预测“ctree”
这是我可以用来列出所有终端节点的权重的方法 但是如何添加一些代码来获取响应预测以及每个终端节点 ID 的权重 说我希望我的输出看起来像这样 以下是我迄今为止获得的重量 nodes airct unique where airct 谢谢 二叉
r
datamining
Decisiontree
余弦距离作为 k 均值的向量距离函数
我有一个 N 个顶点的图 其中每个顶点代表一个地方 我还有向量 每个用户一个 N 个系数中的每一个 其中系数的值是在相应地点花费的持续时间 以秒为单位 如果没有访问该地点则为 0 例如 对于图表 向量 v1 100 50 0 30 0 意味
clusteranalysis
datamining
Distance
kmeans
cosinesimilarity
快速 (< n^2) 聚类算法
我有 100 万个 5 维点 需要将它们分组为 k 个簇 其中 k 但 我需要运行时间远低于 n 2 n log n 左右应该没问题 我进行此聚类的原因是为了避免计算所有 n 个点的距离矩阵 这需要 n 2 时间或多个小时 而是我只想计算聚
Algorithm
machinelearning
clusteranalysis
datamining
kmeans
如何在 K - 均值算法中优化 K [重复]
这个问题在这里已经有答案了 可能的重复 使用 k 均值聚类时如何确定 k https stackoverflow com questions 1793532 how do i determine k when using k means c
datamining
kmeans
如何使用 Scipy 处理巨大的稀疏矩阵构造?
因此 我正在处理维基百科转储来计算大约 5 700 000 个页面的页面排名 这些文件经过预处理 因此不是 XML 格式 它们取自http haselgrove id au wikipedia htm http haselgrove id
scipy
datamining
sparsematrix
informationretrieval
PageRank
使用 Gensim 提取短语时出错
我正在尝试使用 Gensim 中的短语来获取句子中的二元组 如下所示 from gensim models import Phrases from gensim models phrases import Phraser documents
python
datamining
textmining
Word2Vec
gensim
mlpy - 动态时间扭曲取决于 x?
I am trying to get the distance between these two arrays shown below by DTW 我正在使用Pythonmlpy提供的套餐 dist cost path mlpy dtw
python
Algorithm
machinelearning
patternmatching
datamining
«
1
2
3
»