如何读取 Mahout 聚类输出

2023-12-19

我已经对 Mahout 教程中的合成控制数据运行了 k 均值聚类算法，并且想知道是否有人可以解释如何解释输出。我运行 clusterdump 并收到如下所示的输出（被截断以节省空间）：

CL-592{n=57 c=30.726, 29.813...] r=[3.528, 3.597...]}
Weight : [props - optional]: Point:
1.0 : [distance=27.453962995925863]: [24.672, 35.261, 30.486...]
1.0 : [distance=27.675053294846002]: [25.592, 29.951, 34.188...]
1.0 : [distance=28.97727289419493]: [30.696, 32.667, 34.223...]
1.0 : [distance=21.999685652862784]: [32.702, 35.219, 30.143...]
...
CL-598{n=50 c=[29.611, 29.769...] r=[3.166, 3.561...]}
Weight : [props - optional]:  Point:
1.0 : [distance=27.266203490250472]: [27.679, 33.506, 23.594...]
1.0 : [distance=28.749781351838173]: [34.727, 28.325, 30.331...]
1.0 : [distance=32.635136046420186]: [27.758, 33.859, 29.879...]
1.0 : [distance=29.328974057024624]: [29.356, 26.793, 25.575...]

有人可以向我解释一下如何阅读这个吗？据我了解，CL-__是一个簇ID，后面是n=簇中的点数，c=质心作为向量，r=半径作为向量，然后是簇中的每个点。它是否正确？此外，我如何知道哪个聚类点与哪个输入点匹配？即，这些点是否被描述为键值对，其中键是点的某种 ID，值是向量？如果没有，我可以通过某种方式将其设置为这样吗？

我相信你对数据的解释是正确的（我只与 Mahout 合作了约 3 周，所以更有经验的人可能应该对此进行权衡）。

至于将点链接回创建它们的输入，我已经使用过NamedVector，其中名称是向量的键。当您读取生成的点文件之一时（clusteredPoints）您可以将每一行（点向量）转换回NamedVector并使用检索名称.getName().

更新以回复评论

当您最初将数据读入 Mahout 时，将其转换为向量集合，然后将其写入文件（points）以供稍后的聚类算法使用。 Mahout 给你几个Vector您可以使用的类型，但它们也使您可以访问Vector包装类称为NamedVector这将使您能够识别每个向量。

例如，您可以创建每个NamedVector如下：

NamedVector nVec = new NamedVector(
    new SequentialAccessSparseVector(vectorDimensions), 
    vectorName
    );

然后你写下你的集合NamedVectors提交类似以下内容的文件：

SequenceFile.Writer writer = new SequenceFile.Writer(...);
VectorWritable writable = new VectorWritable();

// the next two lines will be in a loop, but I'm omitting it for clarity
writable.set(nVec);
writer.append(new Text(nVec.getName()), nVec);

您现在可以使用此文件作为其中一种聚类算法的输入。

使用点文件运行一种聚类算法后，它将生成完后还有点文件，但它将位于名为的目录中clusteredPoints.

然后，您可以读取此点文件并提取与每个向量关联的名称。它看起来像这样：

IntWritable clusterId = new IntWritable();
WeightedPropertyVectorWritable vector = new WeightedPropertyVectorWritable();

while (reader.next(clusterId, vector))
{
    NamedVector nVec = (NamedVector)vector.getVector();
    // you now have access to the original name using nVec.getName()
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mahout

如何读取 Mahout 聚类输出的相关文章

具有非常大矩阵的 K 均值

我必须在一个非常大的矩阵大约 300 000x100 000 个值超过 100Gb 上执行 k 均值聚类我想知道我是否可以使用 R 软件或 weka 来执行此操作我的计算机是一台多处理器具有 8GB 内存和数百 GB 可用空间我
如何使用 Mahout 的sequencefile API 代码？

Mahout 中有一个用于创建序列文件的命令如下所示bin mahout seqdirectory c UTF 8 i
Mahout 的推荐评估器如何工作

谁能告诉我 mahout 的 RecommenderIRStatsEvaluator 是如何工作的更具体地说它如何随机分割训练和测试数据以及结果与哪些数据进行比较根据我的理解你需要某种理想预期的结果你需要将其与推荐算法的实际结果
如何读取 Mahout 聚类输出

我已经对 Mahout 教程中的合成控制数据运行了 k 均值聚类算法并且想知道是否有人可以解释如何解释输出我运行 clusterdump 并收到如下所示的输出被截断以节省空间 CL 592 n 57 c 30 726 29 813 r
如何使用存储为 CSV 的矢量数据在 mahout 中执行 k 均值聚类？

我有一个包含数据向量的文件其中每行包含一个以逗号分隔的值列表我想知道如何使用 mahout 对这些数据执行 k 均值聚类 wiki 中提供的示例提到了创建sequenceFiles 但除此之外我不确定是否需要进行某种类型的转换才能获取
在 eclipse 中使用 mahout 而不使用 Maven

我真的不想使用maven 因为它看起来很麻烦有没有办法只下载 mahout 并在我的 eclipse 项目中使用它我从使用 Maven 得到的只是构建路径错误和数百万条警告我一直在寻找一种方法来做到这一点但人们似乎一直都在使用 Ma
如何为 hadoop 2.0 编译/使用 mahout？

最新版本的 Mahout 0 9 仅基于 hadoop 1 x 构建 mvn 干净安装如何为 hadoop 2 0 x 编译 mahout 因为当我运行命令时 hadoop jar mahout examples 0 9 SNAPSHOT
在 Mahout 0.8 中运行 cvb

当前的 Mahout 0 8 SNAPSHOT 包括用于主题建模的折叠变分贝叶斯 cvb 版本并删除了潜在狄利克雷分析 lda 方法因为 cvb 可以更好地并行化不幸的是只有文档lda https cwiki apache org
Hadoop 2.2.0 与 Mahout 0.8 兼容吗？

我的 hadoop 集群版本 2 2 0 与 mahout 0 8 一起运行它兼容吗因为每当我运行这个命令时 bin mahout recommenditembased input mydata dat usersFile user d
用户与当前数据匹配

我有一个包含两种不同类型的用户导师和学员的数据库我希望第二组学员能够搜索第一组导师中与其个人资料匹配的人导师和学员都可以随时进入并更改其个人资料中的项目目前我使用 Apache Mahout 进行用户匹配 recom
Mahout 堆空间不足

我正在使用 Mahout 在一组推文上运行 NaiveBayes 两个文件一个 100 MB 一个 300 MB 我将 JAVA HEAP MAX 更改为 JAVA HEAP MAX Xmx2000m 之前是 1000 但即便如此 mah
如何构建/运行这个简单的 Mahout 程序而不出现异常？

我想运行我在 Mahout In Action 中找到的这段代码 package org help import java io IOException import java util ArrayList import java util
如何在 Mahout 0.9 中实现 SlopeOne 推荐器？

我是 Mahout 新手正在尝试使用 0 5 版本的 Mahout in Action 早期的例子之一要求使用斜率一推荐器 Mahout 0 9 中还包含此推荐器吗我查看了文档但找不到它也许它已经改名了感谢您的帮助 Mahout
ruby on Rails 的 Mahout 插件

我想在 Ruby on Rails 项目中使用 Apache Mahout 来实现推荐和协作过滤特别是我的要求是建议相关标签推荐相关文章根据用户的喜好提示他评论文章根据用户的地理位置和其他元信息向他推荐类似的用户如果任何其他解
使用 XMLInputFormat 在 hadoop 中解析 xml 时不执行我的 hadoop 映射器类

我是 hadoop 新手使用 Hadoop 2 6 0 版本并尝试解析复杂的 XML 经过一段时间的搜索我了解到对于 XML 解析我们需要编写自定义的 InputFormat 即 mahout 的 XMLInputFormat 我也
聚类——稀疏向量和稠密向量

对于聚类 Mahout 输入需要采用向量形式有两种类型的向量实现一种是稀疏向量另一种是密集向量两者有什么区别稀疏和密集的使用场景从概念上讲稀疏向量中的大多数值都为零而在稠密向量中则不是对于稠密矩阵和稀疏矩阵也是如此条款s
从命令行（CLASSPATH）运行 Mahout

在Windows下使用Maven成功编译了Mahout 我正在尝试从命令行运行示例之一但我不明白我做错了什么看起来像是 CLASSPATH 问题假设我想运行 GroupLensRecommenderEvaluatorRunner 示例
针对 Mahout 推荐器使用多个加权数据模型

我有一个基于用户相似性的布尔偏好推荐器我的数据集本质上包含关系其中 ItemId 是用户决定阅读的文章我想添加第二个数据模型其中 ItemId 是对特定主题的订阅我能想到的唯一方法是将两者合并在一起偏移订阅 ID 这样它们就不会
在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException

我正在学习 Mahout 并阅读 Mahout in Action 当我尝试运行第 7 章 Simple KMeans Clustering java 中的示例代码时弹出了一个异常线程 main 中的异常 java io IOExcep
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h

随机推荐

如何在关闭弹出窗口时重新加载父页面？

我在主页上有一个链接按钮条款和条件当使用单击它时会使用此代码显示弹出窗口 Dim myScript As String myScript ScriptManager RegisterStartupScript Me Me GetTyp
如何用“-”或“_”替换URL“ ”？

在YII中如果用于 url 的标题中有空格则默认情况下空格会被号替换像这样的事情 www domain com event view id DJ 罗巴格鲁姆我想做的是我想用破折号或下划线替换号像这样的事情 www
如何解决重复的gradle依赖问题

我尝试用 robolectric 测试我的代码问题是它有重复的参考文献例如 java lang RuntimeException java lang RuntimeException Duplicate class org apach
Flask-restful (python) 无法解析表单数据中的发布数据

我在用Python Flask Restful提出邮寄请求我用邮递员 Chrome 测试我的 api 我将 ContentType 设置为应用程序 json在邮递员的标题部分而且我只能以原始值的形式获取参数当我更改为表单数据时我收到
等待由外部配置程序“pd.csi.storage.gke.io”创建或由系统管理员手动创建卷。 Windows 迷你库

我创建了一个 PVC 然后尝试扩大卷声明的大小卷扩展设置为 true 如下 minikube kubectl get sc NAME PROVISIONER RECLAIMPOLICY VOLUMEBINDINGMODE ALLOWVOL
使用 dpl 在 heroku 上部署不适用于新的 Farady 版本

我在 gitlab 上的 CI CD 使用 dpl 在 heroku 上部署代码它一直像魅力一样工作直到新版本的法拉第我猜这就是原因被获取这是我的 gitlab CI 终端工作时昨天的内容 dpl provider herok
是否可以在没有 Terracotta Enterprise Suite 的情况下使用 Ehcache 实现分布式缓存？

我尝试寻找如何为应用程序实现分布式缓存 Ehcache 已经在我的项目中用于缓存这就是为什么我搜索如何使用它来解决这个问题但不幸的是这似乎需要 Terracotta Enterprise Suite 而且它是商业的不是吗是否有另一
startUsingNetworkFeature 和 requestRouteToHost 在 6.0 中已贬值替代此

用于发送彩信的就绪设备在 Kitkat 中工作正常但在 Pro KitKat 版本中工作正常开始使用网络功能已折旧 final int result mConnMgr startUsingNetworkFeature Connectivi
与 Service Worker 一起存储 REST 请求以同步它们

我正在考虑使用服务人员将我的应用程序离线我已经通过缓存资源获得了令人满意的结果但我还必须检查 onfetch 是否连接到互联网如果没有存储请求并将其推送到同步我知道未来的 onsync 将对此有所帮助但我需要即使是临时解
如何使用 BeautifulSoup 访问命名空间 XML 元素？

我有一个 XML 文档其内容如下
使用 jar 文件和资源创建 exe

有没有办法创建一个包含资源文件夹的 exe 文件我正在寻找类似 mac 的应用程序捆绑包之类的东西我还希望能够写入和读取资源文件夹中的文件如果您使用其中的资源构建 jar 那么您可以使用launch4j http launch4j s
将 word2vec bin 文件转换为文本

来自word2vec https code google com p word2vec 网站我可以下载 GoogleNews vectors male300 bin gz bin 文件大约 3 4GB 是一种对我来说没有用的二进制格式托
为什么 std::sort 和partial_sort 需要随机访问迭代器？

我想知道为什么 c 标准要求这样做std sort应该只采用随机访问迭代器我没有看到优势因为两者标准排序 http www cplusplus com reference algorithm sort and std 列表排序 ht
如何调用 Start-Job，它依赖于与调用 Start-Job 的函数位于同一 powershell 模块中的函数？

我正在单个模块中编写一些 powershell 来与 AWS API 对话我写了一个函数 Get CloudFormation 它返回 CloudFormation 的状态我写了另一个函数 Delete CloudFormation 在
未为加载的控件生成 ASP.NET 客户端 ID

我在 updatepanel 中有一个 UserControl AddressInfoGroup 它通过 loadControl 方法动态加载用户控件 AddressInfo 我在同一页面上还有另外两个这样的控件它们都可以正常工作当 A
为什么 32 位整数的左移位“<<”在使用超过 32 次时不能按预期工作？

当我编写以下程序并使用 GNU C 编译器时输出为1我认为这是由于编译器执行的旋转操作造成的 include
带有 PDF 的新标签 - 下载按钮在 Chrome 上不起作用

当用户单击按钮时我向服务器发送请求然后服务器发回 pdf base64 然后我在新选项卡中打开它但下载按钮来自Chrome预览不起作用当我单击它时没有任何操作它在 Firefox 上运行良好 Chrome预览下载按钮定义变量if
Oracles 'alter system set local_listener' 到底做了什么

为什么我很好奇我在安装 Oracle Express 数据库时总是遇到问题因为我从来没有第一次就成功过安装 Oracle Express 后下次启动计算机时我始终收到常见错误 https stackoverflow com ques
LINQ to XML：上下移动节点的最有效方法是什么

我需要在某些节点之前和之后移动同级节点这是我正在使用的代码
如何读取 Mahout 聚类输出

我已经对 Mahout 教程中的合成控制数据运行了 k 均值聚类算法并且想知道是否有人可以解释如何解释输出我运行 clusterdump 并收到如下所示的输出被截断以节省空间 CL 592 n 57 c 30 726 29 813 r

如何读取 Mahout 聚类输出

如何读取 Mahout 聚类输出 的相关文章

随机推荐

热门标签

如何读取 Mahout 聚类输出的相关文章