计算余弦相似度 Spark Dataframe

2024-04-07

我正在使用 Spark Scala 来计算 Dataframe 行之间的余弦相似度。

数据帧格式如下

root
    |-- SKU: double (nullable = true)
    |-- Features: vector (nullable = true)

下面的数据框示例

    +-------+--------------------+
    |    SKU|            Features|
    +-------+--------------------+
    | 9970.0|[4.7143,0.0,5.785...|
    |19676.0|[5.5,0.0,6.4286,4...|
    | 3296.0|[4.7143,1.4286,6....|
    |13658.0|[6.2857,0.7143,4....|
    |    1.0|[4.2308,0.7692,5....|
    |  513.0|[3.0,0.0,4.9091,5...|
    | 3753.0|[5.9231,0.0,4.846...|
    |14967.0|[4.5833,0.8333,5....|
    | 2803.0|[4.2308,0.0,4.846...|
    |11879.0|[3.1429,0.0,4.5,4...|
    +-------+--------------------+

我尝试转置矩阵并检查以下提到的链接。Apache Spark Python DataFrame 上的余弦相似度 https://stackoverflow.com/questions/43921636/apache-spark-python-cosine-similarity-over-dataframes, 使用 tf-idf 将文本特征化为向量来计算余弦相似度 https://stackoverflow.com/questions/32645231/calculating-cosine-similarity-by-featurizing-the-text-into-vector-using-tf-idf但我相信有更好的解决方案

我尝试了下面的示例代码

val irm = new IndexedRowMatrix(inClusters.rdd.map {
  case (v,i:Vector) => IndexedRow(v, i)


}).toCoordinateMatrix.transpose.toRowMatrix.columnSimilarities

但我收到以下错误

Error:(80, 12) constructor cannot be instantiated to expected type;
 found   : (T1, T2)
 required: org.apache.spark.sql.Row
      case (v,i:Vector) => IndexedRow(v, i)

我检查了以下链接Apache Spark：如何从 DataFrame 创建矩阵？ https://stackoverflow.com/questions/31567989/apache-spark-how-to-create-a-matrix-from-a-dataframe但无法使用 Scala 做到这一点

DataFrame.rdd回报RDD[Row] not RDD[(T, U)]。你必须模式匹配Row或者直接提取感兴趣的部分。
ml Vector与...一起使用Datasets因为 Spark 2.0 与mllib Vector由旧 API 使用。你必须将它转换为使用IndexedRowMatrix.
索引必须是Long不是字符串。

import org.apache.spark.sql.Row

val irm = new IndexedRowMatrix(inClusters.rdd.map {
  Row(_, v: org.apache.spark.ml.linalg.Vector) => 
    org.apache.spark.mllib.linalg.Vectors.fromML(v)
}.zipWithIndex.map { case (v, i) => IndexedRow(i, v) })

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算余弦相似度 Spark Dataframe 的相关文章

如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
andThen 类型不匹配的 Scala 链接函数

我有一堆函数可以清理文本并将它们分成单词最小的例子 val txt Mary had a little nlamb val stopwords Seq a def clean text String String text replace
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result
scala中的反引号有什么用[重复]

这个问题在这里已经有答案了我在一本书上找到了以下代码 val list List 5 4 3 2 1 val result 0 list running total next element running total next elem
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
Java 8 Stream，获取头部和尾部

Java 8 引入了Stream http download java net jdk8 docs api java util stream Stream html类似于 Scala 的类Stream http www scala lang
解决“Show”类型类实例的隐式问题

我正在努力使Gender实施Show类型类 scala gt trait Gender extends Show Gender defined trait Gender scala gt case object Male extends G
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
XML 创建 - 错误：带有替代方案的重载方法构造函数 UnprefixedAttribute

scala gt val count 7 count Int 7 将其放入 XML 属性中会出现错误 scala gt val x
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何将 Java 地图转换为在 Scala 中使用？

我正在开发一个 Scala 程序该程序调用 Java 库中的函数处理结果并生成 CSV 有问题的 Java 函数如下所示 Map
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
Java 拥有闭包后 Scala 的优势 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案随着 Java 中添加了闭包作为语言选择 Scala 相对于 Java 的优势是什么有人可以详细说明一下有什么优点吗除了闭包 J
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
Scala 和 Python 的通行证

我想知道是否有相当于 python 的 pass 表达式这个想法是编写没有实现的方法签名并编译它们只是为了对某些库原型的这些签名进行类型检查我能够使用以下方法模拟这种行为 def pass A A throw new Excepti
如何关闭 Scala 中因方法重载而导致代码无法编译的特定隐式？

我正忙着尝试自己回答这个问题 Scala Play 2 4 x 通过 anorm MySQL 处理扩展字符到 Java Mail https stackoverflow com questions 31417718 scala play 2
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun

随机推荐

使用 EaselJS 的无限画布

有没有办法用 EaselJS 显示无限画布我已经阅读了使用 Javascript 或 JQuery 执行此操作的方法但是有什么方法可以使用 EaselJS 进行管理吗 Thanks 您可以使用 JavaScript jQuery 拖放画
Meteor 登录服务未配置

我正在使用 Meteor loginWithFacebook 来让用户访问我的应用程序代码是 Meteor loginWithFacebook loginStyle redirect function err if err throw e
简单的倒计时器打字稿

我的构造函数中有以下代码 constructor for let i 0 i lt 90 i setTimeout gt this counter this counter 1 1000 我真正想要的是显示一个倒计时 90 秒的数字现在它
如何在 UML 活动图上显示异步操作

我即将绘制记录一些客户端服务器连接建立代码以更好地理解它有几个操作是在单独的线程中异步完成的连接线程数据接收线程等我应该在单独的图表上显示它们吗我更愿意将其放在单个图表上以掌握整体视图但不知道如何在活动图上表示它我不确定
如何将本地 html 文件加载到 NativeScript webview 中

我修改了 webpack config js 以添加一个名为 index html 的本地文件代码如下 new CopyWebpackPlugin from glob index html from glob fonts from glo
AWS Cognito 托管 UI 在 URL 中返回 id_token

我正在使用 AWS Cognito 的托管 UI 进行用户登录 id 令牌作为 URL 的一部分返回如中所述https docs aws amazon com cognito latest developerguide cognito u
实体框架中添加的多个实体可能具有相同的主键

我正在使用 EF 4 0 的项目中工作 The Employee表有一列ReferEmployeeID其中包含在系统中引用新员工的员工的员工 ID 所以Employee是一个自引用表现在如果一个未添加到系统中的员工要添加并且他还引用了
如何抑制命令的错误消息？

如何抑制 shell 命令的错误消息例如如果只有jpg目录中的文件正在运行ls zip给出错误消息 ls zip ls cannot access zip No such file or directory 是否有一个选项可以抑制此类
根据另一个列表从列表中过滤元素[重复]

这个问题在这里已经有答案了我想在Java 8 我有一个Boolean清单和另一个Object列表这两个列表的大小始终相同我想从中删除所有元素object列表其中有false在相应的索引处boolean list 我将尝试用一个例子来
WPF datagrid 选定行单击事件？

我想在双击 WPF DataGrid 的选定行时执行一些代码我知道数据网格有一个 MouseDoubleClicked 事件并且它还有一个行选定事件但我没有看到任何选定行双击事件您认为有可能以某种方式捕捉到这一事件吗您可以在中
ModuleNotFoundError：没有名为“MySQLdb”的模块

在完成我的一个 Flask 项目后我像其他人一样将其上传到 github 上 2 3 个月后我将整个 githube 存储库下载到另一台机器上来运行它但是该应用程序无法运行因为找不到软件包并显示以下消息 ModuleNotFou
未找到 Hadoop 命令

我已经在 Linux 机器上安装并配置了 hadoop 现在我正在尝试运行示例 MR 作业我已经通过命令 usr local hadoop bin start all sh 启动了 hadoop 输出为 namenode running
如何使用 c# excel interop 读取 excel 自定义文档属性

我正在尝试检查是否已为 Excel 文件设置自定义文档属性如果设置了则读取该值这是我正在使用的代码但到目前为止还没有运气它不会进入 foreach 循环并出来 var propval ReadDocumentProperty Tes
OpenGL：重复使用具有不同参数的相同纹理

在我的程序中我有一个纹理它在不同情况下使用多次在每种情况下我都需要应用一组特定的参数我想避免创建额外的缓冲区并在每次需要将其用于其他用途时实质上创建纹理的副本所以我想知道是否有更好的方法这是什么采样器对象 http www
对“respond_to”与“respond_to”感到困惑吗？

我正在通过railstutorial org学习Rails 但我对一些事情感到困惑在本章 http ruby railstutorial org chapters modeling and viewing users two sec pa
使用 cron 表达式流口水规则？

我有一个要求我只想在工作日触发规则我有一些规则如烟雾温度运动您能否建议我如何根据我的要求制定规则请给我一些示例除了 cron 之外还有其他更好的方法来根据时间触发规则吗您可以在工作日或周末解雇规则我也遇到过同样的要求
Internet Explorer 11 自动换行不起作用

似乎自动换行不再适用于 IE 11 中的 textarea 元素在 IE 10 及更早版本中 FF Safari 和 Chrome 自动换行按预期工作 IE 11 没有实现任何自动换行我尝试将 wrap hard 添加到textarea
如何检查节点到其后代叶子的所有路径的黑色高度？

Given a 红黑树我需要写一个高效算法检查对于每个节点从该节点到后代叶子的所有路径是否包含相同数量的黑色节点即如果属性为 true 或 false 则算法应返回布尔值它将返回 RB 树的黑色高度如果高度为0 则该树是无效的红黑
UIButton 的自定义字体标题

有没有办法为按钮标题添加自定义字体 The UIButton类暴露了一个标题标签 http developer apple com library ios documentation UIKit Reference UIButton Cla
计算余弦相似度 Spark Dataframe

我正在使用 Spark Scala 来计算 Dataframe 行之间的余弦相似度数据帧格式如下 root SKU double nullable true Features vector nullable true 下面的数据框示例 S

计算余弦相似度 Spark Dataframe

计算余弦相似度 Spark Dataframe 的相关文章

随机推荐

热门标签