在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException

2024-04-30

我正在学习 Mahout 并阅读“Mahout in Action”。

当我尝试运行第 7 章 Simple KMeans Clustering.java 中的示例代码时，弹出了一个异常：

线程“main”中的异常 java.io.IOException：错误的值类：0.0：null 不是类 org.apache.mahout.clustering.WeightedPropertyVectorWritable at org.apache.hadoop.io.SequenceFile$Reader.next(SequenceFile.java:第 1874 章

我在 mahout-0.5 上成功执行了这段代码，但在 mahout-0.6 上我看到了这个异常。即使我将目录名称从 cluster-0 更改为 cluster-0-final，我仍然面临这个异常。

    KMeansDriver.run(conf, vectors, new Path(canopyCentroids, "clusters-0-final"), clusterOutput, new TanimotoDistanceMeasure(), 0.01, 20, true, false);//First, I changed this path.

    SequenceFile.Reader reader = new SequenceFile.Reader(fs,  new Path("output/clusters/clusteredPoints/part-m-00000"), conf);//I double checked this folder and filename.

    IntWritable key = new IntWritable();
    WeightedVectorWritable value = new WeightedVectorWritable();
    int i=0;
    while(reader.next(key, value)) {
        System.out.println(value.toString() + " belongs to cluster " + key.toString());
        i++;
    }
    System.out.println(i);
    reader.close();

有人对这个例外有任何想法吗？我已经尝试解决这个问题很长时间了，但没有任何想法。而且互联网上的来源很少。

提前致谢

为了使这个例子在 Mahout 0.6 中工作，添加

import org.apache.mahout.clustering.WeightedPropertyVectorWritable;

到进口并替换行：

 WeightedVectorWritable value = new WeightedVectorWritable();

WeightedPropertyVectorWritable value = new WeightedPropertyVectorWritable();

发生这种情况是因为 Mahout 0.6 代码将聚类输出值写入新类型 WeightedPropertyVectorWritable 中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mahout

kmeans

在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException 的相关文章

如何使用 Mahout 的sequencefile API 代码？

Mahout 中有一个用于创建序列文件的命令如下所示bin mahout seqdirectory c UTF 8 i
K-Medoids / K-Means 算法。两个或多个簇代表之间距离相等的数据点

我一直在研究和学习基于分区的聚类算法例如 K means 和 K Medoids 我了解到与 K 均值相比 K 中心点对异常值的鲁棒性更强然而我很好奇如果在分配数据点期间两个或多个簇代表在数据点上具有相同的距离会发生什么您将把
Mahout row相似度

我正在尝试计算维基百科文档之间的行相似度我有 tf idf 向量的格式Key class class org apache hadoop io Text Value Class class org apache mahout math V
使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本

我使用 python scikit learn 库在 5000 多个样本上安装了 k 均值算法我想要将最接近聚类中心的 50 个样本作为输出我该如何执行这个任务 If km是 k means 模型到j数组中每个点的第一个质心X is
快速 (< n^2) 聚类算法

我有 100 万个 5 维点需要将它们分组为 k 个簇其中 k 但我需要运行时间远低于 n 2 n log n 左右应该没问题我进行此聚类的原因是为了避免计算所有 n 个点的距离矩阵这需要 n 2 时间或多个小时而是我只想计算聚
Hadoop 2.2.0 与 Mahout 0.8 兼容吗？

我的 hadoop 集群版本 2 2 0 与 mahout 0 8 一起运行它兼容吗因为每当我运行这个命令时 bin mahout recommenditembased input mydata dat usersFile user d
余弦距离作为 k 均值的向量距离函数

我有一个 N 个顶点的图其中每个顶点代表一个地方我还有向量每个用户一个 N 个系数中的每一个其中系数的值是在相应地点花费的持续时间以秒为单位如果没有访问该地点则为 0 例如对于图表向量 v1 100 50 0 30 0 意味
scikit-learn k-means：预测方法的真正作用是什么？

当我使用 scikit learn 的 k means 实现时我通常只调用fit 方法这足以获得聚类中心和标签这predict 方法用于计算标签甚至fit predict 方法是为了方便起见但如果我只能使用fit 目的是什么pre
Mahout 堆空间不足

我正在使用 Mahout 在一组推文上运行 NaiveBayes 两个文件一个 100 MB 一个 300 MB 我将 JAVA HEAP MAX 更改为 JAVA HEAP MAX Xmx2000m 之前是 1000 但即便如此 mah
R - “princomp”只能与比变量更多的单位一起使用

我正在使用 R 软件 R Commander 对我的数据进行聚类我的数据有一个较小的子集包含 200 行和大约 800 列尝试 kmeans 聚类并在图表上绘制时出现以下错误 princomp 只能与比变量更多的单位一起使用然后我创
如何在 Mahout 0.9 中实现 SlopeOne 推荐器？

我是 Mahout 新手正在尝试使用 0 5 版本的 Mahout in Action 早期的例子之一要求使用斜率一推荐器 Mahout 0 9 中还包含此推荐器吗我查看了文档但找不到它也许它已经改名了感谢您的帮助 Mahout
K-means：初始中心不明显

我正在使用通航套餐 https cran r project org web packages GA GA pdf我的目标是找到 k 均值聚类算法的最佳初始质心位置我的数据是 TF IDF 分数中单词的稀疏矩阵可下载here https
SKLearn KMeans 收敛警告[重复]

这个问题在这里已经有答案了我在一维数据集上使用 SKLearn 的 KMeans 聚类我遇到的错误是当我运行代码时我得到一个ConvergenceWarning ConvergenceWarning Number of distin
为什么 Maven 尝试将我的代码编译为 -source 1.3？

我收到这个错误mvn e package在 Ubuntu 12 04 中 ERROR Failed to execute goal org apache maven plugins maven compiler plugin 2 0 2 c
Python scikit-learn KMeans 在计算轮廓分数时被杀死 (9)

我目前正在研究一个图像数据集 250 000 张图像因此与特征向量一样多每个图像都由 132 个特征组成并尝试使用 sklearn 提供的 KMeans 函数我在 Mac OS X 10 10 Python 2 7 和 sklear
针对 Mahout 推荐器使用多个加权数据模型

我有一个基于用户相似性的布尔偏好推荐器我的数据集本质上包含关系其中 ItemId 是用户决定阅读的文章我想添加第二个数据模型其中 ItemId 是对特定主题的订阅我能想到的唯一方法是将两者合并在一起偏移订阅 ID 这样它们就不会
Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间

我正在尝试从大文本文档集合 TF IDF 向量在 MLLib 上运行 KMeans 文档通过 Lucene 英语分析器发送稀疏向量由 HashingTF transform 函数创建无论我使用的并行程度如何通过合并函数 KMea
从彩色背景中提取黑色对象

人眼很容易辨别black来自其他颜色但是计算机呢我在普通的A4纸上打印了一些色块由于组成彩色图像有青色品红色和黄色三种墨水所以我设置每个块的颜色C 20 C 30 C 40 C 50 以及其余两种颜色是 0 这是我的源图像的第一列
如何设置K-means openCV c++的初始中心

我正在尝试使用 OpenCv 和 Kmeans 对图像进行分割我刚刚实现的代码如下 include opencv2 objdetect objdetect hpp include opencv2 highgui highgui hpp i
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina

随机推荐

Direct2D：将 ID2D1Image 转换为 ID2D1Bitmap

我正在开发一个需要修改屏幕上已有内容的程序所以我只有一个ID2D1Bitmap我使用创建的pRenderTarget gt CopyFromRenderTarget 我想做的是将效果应用于该位图效果仅返回ID2D1Image 但我需要有
三星手机中无法启用闪光灯

我试图在三星手机中启用闪光灯但它没有打开这是我的代码 Camera mycam Camera open Parameters p mycam getParameters p setFlashMode Parameters FLASH M
如何从 Databricks Notebook 中调用 Cluster API 并启动集群？

目前我们正在使用一堆笔记本来处理 azure databricks 中的数据主要使用 python pyspark 我们想要实现的是确保我们的集群在开始数据处理之前启动预热因此我们正在探索从 databricks 笔记本内访问 C
有没有办法在 ggplot 中绘制 pandas 系列？

我正在尝试 pandas 和非 matplotlib 绘图好的建议是here http pandas pydata org pandas docs stable ecosystem html 这个问题涉及到yhat 的 ggplot ht
javax.validator 与 spring 组件

我将 javax validation 与 Spring 一起使用在我的测试常规中我明确创建了验证器 import javax validation Validation import javax validation Valida
Python sqlalchemy 尝试使用 .to_sql 将 pandas 数据帧写入 SQL Server

我有一个Python代码通过它我得到了一个pandas数据框 df 我正在尝试将此数据框写入 Microsoft SQL 服务器我尝试通过以下代码进行连接但出现错误 import pyodbc from sqlalchemy impo
TcpClient 与服务器通信以在 C# 中保持活动连接？

我有这个 TcpClient 代码工作正常它连接到 Linux 系统上的 perl 服务器并接收服务器发送给它的任何内容效果很好 public static void Main foreach ProtocolConnection t
如何使用 JRuby 创建 Java 小程序？

我想使用 JRuby 创建一个 Java 小程序也就是说我想创建一个 Java 小程序其中包含由 JRuby 运行的 Ruby 代码来完成所有 GUI 操作我正在寻找一个简单的示例来说明如何开始查看这些链接来自我们代码库的 JR
使用 ddply 排除某些列中的重复值

我有一个具有以下结构的数据框 gt dftest element seqnames start end width strand tx id tx name 1 1 chr19 58858172 58864865 6694 36769 NM
Spring Reactive Webclient 的请求级背压？

这类似于akka http请求级反压怎么做 https stackoverflow com questions 46738696 how to do akka http request level backpressure但对于 Sprin
如果字段重复则删除行

如果第一个字段重复则寻找 awk 或 sed 单行代码以从输出中删除行我见过的删除重复行的示例是 awk a 0 a 0 尝试使用它作为基础但没有运气我认为将 0 更改为 1 可以解决问题但似乎不起作用 awk if a 1 0
Kubernetes 中的暂停镜像有什么用？

看来在 Windows 上 Kubernetes 启动了一个pause创建的每个 Pod 的图像这个暂停图像的目的是什么我在哪里可以找到更多有关它的文档 The pause容器是保存 Pod 网络命名空间的容器 Kubernetes 创
数据点序列化

我怎样才能只序列化数据点我想将数据点保存到文件中 Serializable class CIE public List
git 无法检测重命名

一个分支 refactoringBranch 进行了完整的目录重组文件被混乱地移动但内容被保留我尝试合并 git merge no ff Xrename threshold 15 Xpatience Xignore space cha
一个持久卷是否可以被多个持久卷声明消耗？

假设一个 PV 可以被多个 PVC 消耗并且每个 pod 实例需要一个 PVC 绑定这样的假设是否正确我这么问是因为我创建了一个 PV 然后创建了一个具有不同尺寸要求的 PVC 例如 kind PersistentVolume apiV
在 PHP 中复制 Excel 循环引用公式

我正在尝试在 PHP 中复制 Excel 循环引用公式在 Excel 中我有 A19 A25 A22 result 8771 65 A22 A19 14 1 result 1236 80 A25 10000 但是当我尝试用 PHP 计算
如何从 NSDate 获取月份和年份？

有什么方法方法可以将月份和年份与 NSDate 分开吗我只需要显示当前月份和年份有例子吗 NSDate date NSDate date NSDateComponents dateComponents calendar compone
使用 PropertiesLauncher 启动的 Spring-boot（特定于配置文件）应用程序中出现覆盖应用程序属性的问题

我在尝试使用文件系统上的覆盖文件中声明的另一个值来覆盖类路径上特定于配置文件的应用程序属性文件中声明的属性时遇到困难我有一个自动配置的 Spring boot 应用程序即使用 EnableAutoconfiguration 有多个配置
如何在 Android 中像 Google 地图一样获得持续的位置更新？

我正在构建一个朋友跟踪 Android 应用程序当我的朋友激活应用程序并带着他的 GPS 和蜂窝数据离开时我需要在我的设备上跟踪他这就是这个概念我已经实现了 LocationListener 类现在我可以从 Gps 或网络获取最后
在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException

我正在学习 Mahout 并阅读 Mahout in Action 当我尝试运行第 7 章 Simple KMeans Clustering java 中的示例代码时弹出了一个异常线程 main 中的异常 java io IOExcep

在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException

在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException 的相关文章

随机推荐

热门标签