聚类——稀疏向量和稠密向量

2024-03-08

对于聚类，Mahout 输入需要采用向量形式。有两种类型的向量实现。一种是稀疏向量，另一种是密集向量。

两者有什么区别？

稀疏和密集的使用场景？

从概念上讲，稀疏向量中的大多数值都为零，而在稠密向量中则不是。对于稠密矩阵和稀疏矩阵也是如此。条款sparse and dense通常描述这些属性，不仅在 Mahout 中。

在马胡特DenseVector假设没有太多零条目，因此“将向量实现为双精度数组”（org.apache.mahout.math.DenseVector http://archive.cloudera.com/cdh/3/mahout-0.5-cdh3u6/mahout-math/org/apache/mahout/math/DenseVector.html）。相反，稀疏向量实现AbstractVector, e.g. RandomAccessSparseVector and SequentialAccessSparseVector，使用根本不存储零值的不同数据结构。

采用哪一个取决于您要存储在向量中的数据。如果您预计大部分值为零，那么稀疏向量实现会更节省空间，但是如果您将其用于只有几个零值的数据，则会引入大量数据结构开销，这可能会导致性能更差。

密集向量与稀疏向量的选择不会影响向量的计算结果，只会影响内存使用和计算速度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mahout

聚类——稀疏向量和稠密向量的相关文章

如何使用 Mahout 的sequencefile API 代码？

Mahout 中有一个用于创建序列文件的命令如下所示bin mahout seqdirectory c UTF 8 i
Mahout row相似度

我正在尝试计算维基百科文档之间的行相似度我有 tf idf 向量的格式Key class class org apache hadoop io Text Value Class class org apache mahout math V
Mahout 的推荐评估器如何工作

谁能告诉我 mahout 的 RecommenderIRStatsEvaluator 是如何工作的更具体地说它如何随机分割训练和测试数据以及结果与哪些数据进行比较根据我的理解你需要某种理想预期的结果你需要将其与推荐算法的实际结果
如何读取 Mahout 聚类输出

我已经对 Mahout 教程中的合成控制数据运行了 k 均值聚类算法并且想知道是否有人可以解释如何解释输出我运行 clusterdump 并收到如下所示的输出被截断以节省空间 CL 592 n 57 c 30 726 29 813 r
如何使用存储为 CSV 的矢量数据在 mahout 中执行 k 均值聚类？

我有一个包含数据向量的文件其中每行包含一个以逗号分隔的值列表我想知道如何使用 mahout 对这些数据执行 k 均值聚类 wiki 中提供的示例提到了创建sequenceFiles 但除此之外我不确定是否需要进行某种类型的转换才能获取
在 eclipse 中使用 mahout 而不使用 Maven

我真的不想使用maven 因为它看起来很麻烦有没有办法只下载 mahout 并在我的 eclipse 项目中使用它我从使用 Maven 得到的只是构建路径错误和数百万条警告我一直在寻找一种方法来做到这一点但人们似乎一直都在使用 Ma
在 Mahout 0.8 中运行 cvb

当前的 Mahout 0 8 SNAPSHOT 包括用于主题建模的折叠变分贝叶斯 cvb 版本并删除了潜在狄利克雷分析 lda 方法因为 cvb 可以更好地并行化不幸的是只有文档lda https cwiki apache org
Hadoop 2.2.0 与 Mahout 0.8 兼容吗？

我的 hadoop 集群版本 2 2 0 与 mahout 0 8 一起运行它兼容吗因为每当我运行这个命令时 bin mahout recommenditembased input mydata dat usersFile user d
Mahout 堆空间不足

我正在使用 Mahout 在一组推文上运行 NaiveBayes 两个文件一个 100 MB 一个 300 MB 我将 JAVA HEAP MAX 更改为 JAVA HEAP MAX Xmx2000m 之前是 1000 但即便如此 mah
如何构建/运行这个简单的 Mahout 程序而不出现异常？

我想运行我在 Mahout In Action 中找到的这段代码 package org help import java io IOException import java util ArrayList import java util
如何在 Mahout 0.9 中实现 SlopeOne 推荐器？

我是 Mahout 新手正在尝试使用 0 5 版本的 Mahout in Action 早期的例子之一要求使用斜率一推荐器 Mahout 0 9 中还包含此推荐器吗我查看了文档但找不到它也许它已经改名了感谢您的帮助 Mahout
ruby on Rails 的 Mahout 插件

我想在 Ruby on Rails 项目中使用 Apache Mahout 来实现推荐和协作过滤特别是我的要求是建议相关标签推荐相关文章根据用户的喜好提示他评论文章根据用户的地理位置和其他元信息向他推荐类似的用户如果任何其他解
使用 XMLInputFormat 在 hadoop 中解析 xml 时不执行我的 hadoop 映射器类

我是 hadoop 新手使用 Hadoop 2 6 0 版本并尝试解析复杂的 XML 经过一段时间的搜索我了解到对于 XML 解析我们需要编写自定义的 InputFormat 即 mahout 的 XMLInputFormat 我也
为什么 Maven 尝试将我的代码编译为 -source 1.3？

我收到这个错误mvn e package在 Ubuntu 12 04 中 ERROR Failed to execute goal org apache maven plugins maven compiler plugin 2 0 2 c
网页推荐系统

我正在尝试构建一个推荐系统该系统会根据用户的操作谷歌搜索点击他还可以明确地对网页进行评分向用户推荐网页为了了解谷歌新闻的做法它会显示来自网络的有关特定主题的新闻文章用技术术语来说就是集群但我的目标是相似的它将是基于用户操
聚类——稀疏向量和稠密向量

对于聚类 Mahout 输入需要采用向量形式有两种类型的向量实现一种是稀疏向量另一种是密集向量两者有什么区别稀疏和密集的使用场景从概念上讲稀疏向量中的大多数值都为零而在稠密向量中则不是对于稠密矩阵和稀疏矩阵也是如此条款s
从命令行（CLASSPATH）运行 Mahout

在Windows下使用Maven成功编译了Mahout 我正在尝试从命令行运行示例之一但我不明白我做错了什么看起来像是 CLASSPATH 问题假设我想运行 GroupLensRecommenderEvaluatorRunner 示例
针对 Mahout 推荐器使用多个加权数据模型

我有一个基于用户相似性的布尔偏好推荐器我的数据集本质上包含关系其中 ItemId 是用户决定阅读的文章我想添加第二个数据模型其中 ItemId 是对特定主题的订阅我能想到的唯一方法是将两者合并在一起偏移订阅 ID 这样它们就不会
在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException

我正在学习 Mahout 并阅读 Mahout in Action 当我尝试运行第 7 章 Simple KMeans Clustering java 中的示例代码时弹出了一个异常线程 main 中的异常 java io IOExcep
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h

随机推荐

使用 tablesorter 对日期字段进行排序

我正在使用 JQuery 表排序器插件该表有一列显示日期格式05 Mar 2012 tablesorter 插件似乎将此列视为文本因为它按顺序对其进行排序 2012 年 3 月 5 日 2012 年 1 月 6 日 2012 年 12
java.util.Date 和 getYear()

我在 Java 中遇到以下问题我看到有些人遇到了 JavaScript 中存在类似问题但我使用的是 Java System out println new Date getYear System out println new Greg
无法使用鼠标将上下文粘贴到 Primefaces Extension pe:inputNumber 中

我们一直在我们的项目中使用 Primefaces v 3 5 和 Primefaces Extensions v 0 7 0 这非常棒为开发者和社区干杯 inputNumber 组件几乎可以满足我们处理小数字段时的所有需求有一件事是is
java.lang.NoClassDefFoundError：com/google/common/collect/Maps - Selenium

尊敬的硒专家我在 JPA 2 0 程序中遇到了以下运行时错误由于某种原因该错误似乎与 Firefox Profile 相关 Exception in thread main java lang NoClassDefFoundError
如何使用 INSERT INTO + SELECT FROM 插入自定义值？

我想在执行时插入自定义值以及表列INSERT INTO SELECT FROM WHERE clause INSERT INTO RoleMappingEmployee Delete History RoleMappingEmployeeK
Kafka生产者读取数据文件

我正在尝试在循环中加载数据文件以检查统计信息而不是 Kafka 中的标准输入下载 Kafka 后我执行了以下步骤启动动物园管理员 bin zookeeper server start sh config zookeeper pro
打开特定
标签后自动关闭所有其他
标签

这是我的代码
是否可以以编程方式获取共享库中函数的签名？

标题很清楚我们可以通过以下方式加载库dl open etc 但是我怎样才能得到其中函数的签名呢这个答案不能笼统地回答从技术上讲如果您使用详尽的调试信息编译可执行文件代码可能仍然是优化的发布版本则可执行文件将包含额外的部分从而提
内联asm未经优化无法编译

我需要在 32 位 Linux 进程中使用 futex 系统调用但无法使用syscall函数标头不可用这仍然可以通过使用内联汇编来完成如下所示 include
如何将动态 JSON 属性映射到固定 POJO 字段

我有一些 json 想要解析成 pojo groups g1 1 2 5 6 7 g2 2 3 48 79 当然 g1 and g2是标识符所以我想象的 pojos 会是这样的 class Container List
Java生成带占位符的字符串

我正在寻找一些东西来实现以下目标 String s hello s generate s new Object world assertEquals s hello world should be true 我可以自己写但在我看来我曾经
防止 javascript setInterval 函数堆积

我有一个在单击事件上运行的函数该函数对我的一些动画我正在做一个游戏使用javascript的setIterval 所以问题是如果用户在动画仍在显示时单击 setInterval仍在执行则setInterval在事件堆栈中堆积或者
如何在 500,000 个点的 100 维空间中找到最近的 2 个点？

我有一个 100 维空间中有 500 000 个点的数据库我想找到最接近的 2 个点我该怎么做更新空间是欧几里得的抱歉并感谢所有的答案顺便说一句这不是家庭作业里面有一章算法简介 http en wikipedia org
.forEach 完成后执行回调函数

我试图在 forEach 循环完成所有迭代后执行一个函数 This answer https stackoverflow com a 18983245 3976696提供了一个有趣的解决方案但我无法让它发挥作用这是我改编的代码创建了一
将 Android 库导出为 AAR 文件

我在我的项目中创建了一个库模块现在我想与其他人分享发布这个库目前共享 aar 文件就可以了我浏览了这篇文章 https developer android com studio projects android library h
Maven：生命周期阶段与目标之间的关系

我很难在某些 Maven 概念中看到树木中的森林我知道 Maven 预先配置了一系列所谓的构建生命周期阶段开头为validate and test并结束于deploy 我从 Ant 转向 Maven 在 Ant 中您将主要构建阶段
mysql_insert_id 或类似的东西返回最后一个 mysql UUID()

如何返回最后生成的 UUID 主键有类似 mysql insert id 的东西吗 Table uuidtable primary key uuid uuid id u index integer 多个 id u 与主键 uuid 匹配
如何使 rake 测试不使用默认的 minitest？

我正在跟随制作你自己的宝石 http guides rubygems org make your own gem来自 RubyGems 的指南执行rake test指令失败如下 gt rake test rbenv versions 2
使用 Backbone 将文件上传到 tastypie？

检查了一些其他问题我认为我的 tastypie 资源应该如下所示 class MultipartResource object def deserialize self request data format None if not fo
聚类——稀疏向量和稠密向量

对于聚类 Mahout 输入需要采用向量形式有两种类型的向量实现一种是稀疏向量另一种是密集向量两者有什么区别稀疏和密集的使用场景从概念上讲稀疏向量中的大多数值都为零而在稠密向量中则不是对于稠密矩阵和稀疏矩阵也是如此条款s

聚类——稀疏向量和稠密向量

聚类——稀疏向量和稠密向量 的相关文章

随机推荐

热门标签

聚类——稀疏向量和稠密向量的相关文章