pyspark中的稀疏向量RDD

2024-05-04

我一直在使用 mllib 的功能通过 Python/Pyspark 实现此处描述的 TF-IDF 方法：

https://spark.apache.org/docs/1.3.0/mllib-feature-extraction.html https://spark.apache.org/docs/1.3.0/mllib-feature-extraction.html

我有一个包含 150 个文本文档的训练集，一个包含 80 个文本文档的测试集。我生成了一个哈希表 TF-IDF RDD（稀疏向量）用于训练和测试，即称为 tfidf_train 和 tfidf_test 的词袋表示。 IDF 在两者之间共享，并且仅基于训练数据。我的问题涉及如何处理稀疏 RDD，那里的信息很少。

我现在想将 80 个测试文档 TF-IDF 向量中的每一个有效地映射到具有最高余弦相似度的训练 TF-IDF 向量。通过执行 tfidf_test.first()，我看到每个稀疏 TF-IDF 向量（组成两个 RDD）看起来像这样：

SparseVector(1048576, {0: 15.2313, 9377: 8.6483, 16538: 4.3241, 45005: 4.3241, 67046: 5.0173, 80280: 4.3241, 83104: 2.9378, 83107: 3.0714、87638：3.9187、90331：3.9187、110522：1.7592、138394 : 3.631, 140318: 4.3241, 147576: 4.3241, 165673: 4.3241, 172912: 3.9187, 179664: 4.3241, 179767: 5.0173, 189356: 1.047, 1 90616：4.3241、192712：4.3241、193790：3.4078、220545：3.9187、221050：3.4078 , 229110: 3.4078, 232286: 2.0728, 240477: 3.631, 241582: 4.3241, 242620: 3.9187, 245388: 5.0173, 252569: 2.8201, 255985: 5.0173, 266130: 4.3241, 277170: 3.9187, 277863: 4.3241, 298406: 4.3241, 323505 ：4.3241、326993：3.2255、330297：4.3241、334392：3.4078、354917：3.631、355604：3.9187、365855：4.3241、383386：2.9378、 386534：4.3241、387896：3.2255、392015：4.3241、395372：1.4619、406995：3.4078 , 414351: 5.0173, 433323: 4.3241, 434512: 4.3241, 438171: 4.3241, 439468: 4.3241, 453414: 3.9187, 454316: 4.3241, 456931: 3.9187, 461229: 3.631, 488050: 5.0173, 506649: 4.3241, 508845: 3.0714, 512698 ：4.3241、526484：8.6483、548929：2.8201、549530：4.3241、550044：3.631、555900：4.3241、557206：6.451、570917：1.8392、6 18498：3.4078、623040：3.5968、637333：4.3241、645028：2.9378、669449：3.0714 , 676506: 4.3241, 699388: 4.3241, 702049: 2.3782, 715677: 3.4078, 733071: 3.9187, 738831: 3.631, 743497: 8.6483, 782907: 1.047, 793071: 4.3241, 801052: 4.3241, 805189: 3.2255, 811506: 4.3241, 812013 ：4.3241、819994：4.3241、837270：4.3241、848755：3.9187、852042：4.3241、866553：4.3241、872996：3.2255、908183：5.0173、 914226：8.6483、921216：4.3241、925934：4.3241、927892：4.3241、935542：5.0173 , 941563: 1.0855, 958430: 3.4078, 959994: 1.7984, 977239: 3.9187, 978895: 3.0714, 1001818: 3.2255, 1002343: 3.2255, 10161 45: 4.3241, 1017725: 4.3241, 1031685: 8.1441})

我不确定如何比较 RDD，但我认为 reduceByKey(lambda x,y: x*y) 可能有用。有谁知道如何扫描每个测试向量并将其输出到元组（与训练集匹配的向量，余弦相似度值）？

任何帮助表示赞赏！

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pyspark中的稀疏向量RDD 的相关文章

Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
将嵌套字典键值转换为 pyspark 数据帧

我有一个 Pyspark 数据框如下所示我想提取 dic 列中的那些嵌套字典并将它们转换为 PySpark 数据帧像这样请让我知道如何实现这一目标 Thanks from pyspark sql import functions a
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
pyspark通过特定键加入rdd

我有两个 rdd 需要将它们连接在一起它们看起来像下面这样 RDD1 u 2 u 100 2 u 1 u 300 1 u 1 u 200 1 RDD2 u 1 u 2 u 1 u 3 我想要的输出是 u 1 u 2 u 100 2 所以我
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
如何在Python的SciPy中更改稀疏矩阵中的元素？

我构建了一个小代码我想用它来解决涉及大型稀疏矩阵的特征值问题它工作正常我现在要做的就是将稀疏矩阵中的一些元素设置为零即最顶行中的元素对应于实现边界条件我可以调整下面的列向量 C0 C1 和 C2 来实现这一点不过我想知道是否有
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC

随机推荐

Google 页面速度洞察不支持 webp 图像？

我正在为我的网站使用 webp 图像但 Google 页面速度洞察无法识别它因此不会给出优化结果 Google 页面洞察不支持 webp 图像例如 http cdn gi storehippo com s 548ee13cdb64e5
用户模式中默认创建的表

在 Sql Server 2008 中当我创建没有架构前缀的表时 create table mytable id int identify 它通常最终出现在模式 dbo 中名称为 dbo mytable 然而在我们的一台服务器上该表
错误：mysqladmin：刷新失败；错误：“未知错误”

当我厌倦了每天从 Cron Daemon 收到电子邮件时我的问题就开始了电子邮件如下所示 From Cron Daemon lt email protected cdn cgi l email protection gt Date 20
如何通过 C# 检测字符串中的阿拉伯语或波斯语字符？

我想检测Arabic or Persian字符串中的字符例如在字符串中搜索 15 Aspire ES1 533 C4UH 并返回true 并在字符串中搜索 Aspire ES1 533 C4UH 并返回false string patt
LogicalOperationStack 与 .Net 4.5 中的异步不兼容吗

Trace CorrelationManager LogicalOperationStack允许具有嵌套逻辑操作标识符其中最常见的情况是日志记录 NDC 它是否仍然可以使用async await 这是一个简单的例子使用LogicalFl
Swift 中构造泛型类型的扩展

是否可以为专用构造的泛型类型扩展泛型类我想用一种方法来扩展 Int Arrays 来计算其元素之和 e g extension Array
从 Google Places API 获取 JSON 文件

我正在尝试使用 Places API 最初尝试使用 jQuery 中的 ajax 但我一直在文件的第一个元素上收到意外的标记错误但我后来意识到你无法从 Places API 获取 JSONP 所以下面是它返回的示例我一生都无法让它将 i
Python 字典组并对多个值求和[重复]

这个问题在这里已经有答案了我在字典格式列表中有一组数据如下所示 data name A tea 5 coffee 6 name A tea 2 coffee 3 name B tea 7 coffee 1 name B tea 9 co
Task.Delay 是否真的像 I/O 操作一样异步，即它依赖于硬件和中断而不是线程？

我发现了大量相关内容但这些内容都是拐弯抹角的但我始终无法找到答案我几乎 100 确定Task Delay int 不使用线程因为我可以在只有 16 个逻辑处理器的机器上运行此代码 var tasks new List
缩放时传单形状会移动

当我加载页面后放大时会发生这种情况 https gyazo com 76b0458b1cd836a3b3d6ddaa493585da https gyazo com 76b0458b1cd836a3b3d6ddaa493585da 我是用
如何将我的页面模板放在 WordPress 子文件夹中？

我正在使用儿童主题在子主题中我希望为所有页面模板创建一个子文件夹例如 templates 中的主页模板默认模板等我怎样才能做到这一点以便当我为页面选择模板时 wordpress 管理菜单仍然可以看到它们可以升级到 WordPr
如何更改 ReSharper 中给定命令的快捷键？

I need to change shortcut for finding member ALT in ReSharper because of my native keyboard which brings me problem to p
在默认 WSo2 证书中用作通用名称的“Localhost”创建“未找到主题备用名称”

我们使用 wso2 esb 版本 4 0 3 来公开我们的 Web 服务我们的 Web 服务是使用 wso2 中的管理控制台添加为代理服务的我们只想通过 https 公开使用我们的 Web 服务生成存根后我们完成了以下操作使用
为什么 Keras 的 train_on_batch 在第二个 epoch 产生零损失和准确率？

我正在使用一个大数据集所以我尝试使用 train on batch 或适合 epoch 1 model Sequential model add LSTM size input shape input shape return seque
Windows 上任何单个进程可以寻址的最大内存量

Windows 版本的内存限制 http msdn microsoft com en us library windows desktop aa366778 28v vs 85 29 aspx回答 Windows 上任何单个进程可以寻址的最
在 TypeScript 中使用三个 Js + OrbitControl

我无法得到this http www example com 在 TypeScript 中使用上述组合的示例 I have and 在我的html中和打字稿文件
在 Light Table 中使用 Datomic 时出现“无读取器功能”错误

当我在 lighttable 中评估这段代码时 ns app core require datomic api refer q as d reload all defn add person conn id d transact conn
MATLAB 是否已有 YAML 库/解析器？

我想使用 YAML 跨多种语言交流一些数据将其视为与语言无关的序列化其中一种语言是 MATLAB 但我似乎找不到该语言的 YAML 库我在 Google 上检查了 matlab yaml 和 matlab yaml parse 似乎
获取文件的上次访问时间

我知道使用File对象我们可以获得最后修改时间File i e 文件 lastModified https docs oracle com javase 8 docs api java io File html lastModified 但
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http

pyspark中的稀疏向量RDD

pyspark中的稀疏向量RDD 的相关文章

随机推荐

热门标签