在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException

2024-04-30

我正在学习 Mahout 并阅读“Mahout in Action”。

当我尝试运行第 7 章 Simple KMeans Clustering.java 中的示例代码时,弹出了一个异常:

线程“main”中的异常 java.io.IOException:错误的值类:0.0:null 不是类 org.apache.mahout.clustering.WeightedPropertyVectorWritable at org.apache.hadoop.io.SequenceFile$Reader.next(SequenceFile.java:第 1874 章

我在 mahout-0.5 上成功执行了这段代码,但在 mahout-0.6 上我看到了这个异常。 即使我将目录名称从 cluster-0 更改为 cluster-0-final,我仍然面临这个异常。

    KMeansDriver.run(conf, vectors, new Path(canopyCentroids, "clusters-0-final"), clusterOutput, new TanimotoDistanceMeasure(), 0.01, 20, true, false);//First, I changed this path.

    SequenceFile.Reader reader = new SequenceFile.Reader(fs,  new Path("output/clusters/clusteredPoints/part-m-00000"), conf);//I double checked this folder and filename.

    IntWritable key = new IntWritable();
    WeightedVectorWritable value = new WeightedVectorWritable();
    int i=0;
    while(reader.next(key, value)) {
        System.out.println(value.toString() + " belongs to cluster " + key.toString());
        i++;
    }
    System.out.println(i);
    reader.close();

有人对这个例外有任何想法吗?我已经尝试解决这个问题很长时间了,但没有任何想法。而且互联网上的来源很少。

提前致谢


为了使这个例子在 Mahout 0.6 中工作,添加

import org.apache.mahout.clustering.WeightedPropertyVectorWritable;

到进口并替换行:

 WeightedVectorWritable value = new WeightedVectorWritable();

by

WeightedPropertyVectorWritable value = new WeightedPropertyVectorWritable();

发生这种情况是因为 Mahout 0.6 代码将聚类输出值写入新类型 WeightedPropertyVectorWritable 中。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException 的相关文章

  • 如何使用 Mahout 的sequencefile API 代码?

    Mahout 中有一个用于创建序列文件的命令 如下所示bin mahout seqdirectory c UTF 8 i
  • K-Medoids / K-Means 算法。两个或多个簇代表之间距离相等的数据点

    我一直在研究和学习基于分区的聚类算法 例如 K means 和 K Medoids 我了解到 与 K 均值相比 K 中心点对异常值的鲁棒性更强 然而 我很好奇如果在分配数据点期间 两个或多个簇代表在数据点上具有相同的距离 会发生什么 您将把
  • Mahout row相似度

    我正在尝试计算维基百科文档之间的行相似度 我有 tf idf 向量的格式Key class class org apache hadoop io Text Value Class class org apache mahout math V
  • 使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本

    我使用 python scikit learn 库在 5000 多个样本上安装了 k 均值算法 我想要将最接近聚类中心的 50 个样本作为输出 我该如何执行这个任务 If km是 k means 模型 到j数组中每个点的第一个质心X is
  • 快速 (< n^2) 聚类算法

    我有 100 万个 5 维点 需要将它们分组为 k 个簇 其中 k 但 我需要运行时间远低于 n 2 n log n 左右应该没问题 我进行此聚类的原因是为了避免计算所有 n 个点的距离矩阵 这需要 n 2 时间或多个小时 而是我只想计算聚
  • Hadoop 2.2.0 与 Mahout 0.8 兼容吗?

    我的 hadoop 集群版本 2 2 0 与 mahout 0 8 一起运行 它兼容吗 因为每当我运行这个命令时 bin mahout recommenditembased input mydata dat usersFile user d
  • 余弦距离作为 k 均值的向量距离函数

    我有一个 N 个顶点的图 其中每个顶点代表一个地方 我还有向量 每个用户一个 N 个系数中的每一个 其中系数的值是在相应地点花费的持续时间 以秒为单位 如果没有访问该地点则为 0 例如 对于图表 向量 v1 100 50 0 30 0 意味
  • scikit-learn k-means:预测方法的真正作用是什么?

    当我使用 scikit learn 的 k means 实现时 我通常只调用fit 方法 这足以获得聚类中心和标签 这predict 方法用于计算标签 甚至fit predict 方法是为了方便起见 但如果我只能使用fit 目的是什么pre
  • Mahout 堆空间不足

    我正在使用 Mahout 在一组推文上运行 NaiveBayes 两个文件 一个 100 MB 一个 300 MB 我将 JAVA HEAP MAX 更改为 JAVA HEAP MAX Xmx2000m 之前是 1000 但即便如此 mah
  • R - “princomp”只能与比变量更多的单位一起使用

    我正在使用 R 软件 R Commander 对我的数据进行聚类 我的数据有一个较小的子集 包含 200 行和大约 800 列 尝试 kmeans 聚类并在图表上绘制时出现以下错误 princomp 只能与比变量更多的单位一起使用 然后我创
  • 如何在 Mahout 0.9 中实现 SlopeOne 推荐器?

    我是 Mahout 新手 正在尝试使用 0 5 版本的 Mahout in Action 早期的例子之一要求使用斜率一推荐器 Mahout 0 9 中还包含此推荐器吗 我查看了文档 但找不到它 也许它已经改名了 感谢您的帮助 Mahout
  • K-means:初始中心不明显

    我正在使用通航套餐 https cran r project org web packages GA GA pdf我的目标是找到 k 均值聚类算法的最佳初始质心位置 我的数据是 TF IDF 分数中单词的稀疏矩阵 可下载here https
  • SKLearn KMeans 收敛警告[重复]

    这个问题在这里已经有答案了 我在一维数据集上使用 SKLearn 的 KMeans 聚类 我遇到的错误是 当我运行代码时 我得到一个ConvergenceWarning ConvergenceWarning Number of distin
  • 为什么 Maven 尝试将我的代码编译为 -source 1.3?

    我收到这个错误mvn e package在 Ubuntu 12 04 中 ERROR Failed to execute goal org apache maven plugins maven compiler plugin 2 0 2 c
  • Python scikit-learn KMeans 在计算轮廓分数时被杀死 (9)

    我目前正在研究一个图像数据集 250 000 张图像 因此与特征向量一样多 每个图像都由 132 个特征组成 并尝试使用 sklearn 提供的 KMeans 函数 我在 Mac OS X 10 10 Python 2 7 和 sklear
  • 针对 Mahout 推荐器使用多个加权数据模型

    我有一个基于用户相似性的布尔偏好推荐器 我的数据集本质上包含关系 其中 ItemId 是用户决定阅读的文章 我想添加第二个数据模型 其中 ItemId 是对特定主题的订阅 我能想到的唯一方法是将两者合并在一起 偏移订阅 ID 这样它们就不会
  • Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间

    我正在尝试从 大 文本文档集合 TF IDF 向量 在 MLLib 上运行 KMeans 文档通过 Lucene 英语分析器发送 稀疏向量由 HashingTF transform 函数创建 无论我使用的并行程度如何 通过合并函数 KMea
  • 从彩色背景中提取黑色对象

    人眼很容易辨别black来自其他颜色 但是计算机呢 我在普通的A4纸上打印了一些色块 由于组成彩色图像有青色 品红色和黄色三种墨水 所以我设置每个块的颜色C 20 C 30 C 40 C 50 以及其余两种颜色是 0 这是我的源图像的第一列
  • 如何设置K-means openCV c++的初始中心

    我正在尝试使用 OpenCv 和 Kmeans 对图像进行分割 我刚刚实现的代码如下 include opencv2 objdetect objdetect hpp include opencv2 highgui highgui hpp i
  • 如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

    问题最终解决检查底部的我的解决方案 最近 我尝试运行 Mahout in Action 的第 6 章 列表 6 1 6 4 中的推荐示例 但我遇到了一个问题 我用谷歌搜索但找不到解决方案 问题是 我有一对映射器减速器 public fina

随机推荐