如何保留 Spark HashingTF() 函数输入的键或索引？

2024-03-28

基于 1.4 的 Spark 文档 (https://spark.apache.org/docs/1.4.0/mllib-feature-extraction.html https://spark.apache.org/docs/1.4.0/mllib-feature-extraction.html）我正在编写一个 TF-IDF 示例，用于将文本文档转换为值向量。给出的示例展示了如何做到这一点，但输入是令牌的 RDD没有钥匙。这意味着我的输出 RDD 不再包含用于引用原始文档的索引或键。例子是这样的：

documents = sc.textFile("...").map(lambda line: line.split(" "))

hashingTF = HashingTF()
tf = hashingTF.transform(documents)

我想做这样的事情：

documents = sc.textFile("...").map(lambda line: (UNIQUE_LINE_KEY, line.split(" ")))

hashingTF = HashingTF()
tf = hashingTF.transform(documents)

并得到结果tf变量包含UNIQUE_LINE_KEY某处有价值。我只是错过了一些明显的东西吗？从示例来看，似乎没有好的方法来链接documentRDD 与tf RDD.

我也遇到了同样的问题。在文档的示例中，他们鼓励您直接在 RDD 上应用转换。

但是，您可以对向量本身应用转换，这样您就可以以您选择的方式保留密钥。

val input = sc.textFile("...")
val documents = input.map(doc => doc -> doc.split(" ").toSeq)

val hashingTF = new HashingTF()
val tf = documents.mapValues(hashingTF.transform(_))
tf.cache()
val idf = new IDF().fit(tf.values)
val tfidf = tf.mapValues(idf.transform(_))

请注意，此代码将生成 RDD[(String, Vector)] 而不是 RDD[Vector]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparkmllib

tfidf

如何保留 Spark HashingTF() 函数输入的键或索引？的相关文章

Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
如何使用 tf-idf 选择停用词？（非英语语料库）

我已经成功评估了tf idf 函数 http en wikipedia org wiki Tf idf对于给定的语料库如何找到每个文档的停用词和最佳词据我所知给定单词和文档的 tf idf 较低意味着它不是选择该文档的好单词停用词是
左反加入Spark？

我定义了两个表如下所示 val tableName table1 val tableName2 table2 val format new SimpleDateFormat yyyy MM dd val data List List mi
Pyspark 将多个列合并为一个 json 列

我不久前问过 python 的问题但现在我需要在 PySpark 中做同样的事情我有一个像这样的数据框 df cust id address store id email sales channel category 1234567 1
如何加入数据框（来自数据集的集合）？

我正在寻找并找出最好的加入方式nSpark 数据帧 Example List df1 df2 df3 dfN 哪里都df有一个我可以参加的约会递归像这样 List df1 df2 df3 dfN reduce a b gt a join
Pyspark 可为空的 uuid 类型 uuid 但表达式的类型为字符变化

给定一个表格设计不可为 null 的 uuid列和a可为空的 uuid列如何使用 python 3 7 9 与 Pyspark 2 4 3 数据帧和 postgresql 42 2 18 jar 驱动程序进行插入 table df spa
Spark 2.0：4 行。 IllegalArgumentException：界限必须为正

我正在 Amazon EMR 5 0 上的 Spark 2 0 上尝试一个超级简单的测试程序 from pyspark sql types import Row from pyspark sql types import import py
为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？

我使用 HDP 2 6 3 0 和 Spark2 包 2 2 0 我正在尝试使用结构化流 API 编写 Kafka 消费者但将作业提交到集群后出现以下错误 Exception in thread main java lang ClassN
Spark Mongo 连接器，MongoShardedPartitioner 不起作用

出于测试目的我配置了一个 4 节点集群每个节点都有一个 Spark Worker 和一个 MongoDB Shard 这些是详细信息四台 Debian 9 服务器名为 Visa0 Visa 1 Visa 2 Visa 4 个节点上的
非时间戳列上的 Spark 结构化流窗口

我收到以下形式的数据流 id timestamp val xxx 1 12 15 25 50 1 2 12 15 25 30 1 3 12 15 26 30 2 4 12 15 27 50 2 5 12 15 27 30 3 6 12 15
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
pyspark：计算窗口上的不同值

我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数计数不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数这是一些示例代码 from py
如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d

随机推荐

在 python 中使用带有请求的自签名证书

情况目标站点预产品 URL 例如https my pre prod site com login https my pre prod site com login 例如正在使用自签名证书从浏览器中可以通过 https 访问该站点
从 Ruby 列表中获取所有对的组合

我有一个元素列表例如数字我想检索所有可能对的列表我怎样才能使用 Ruby 做到这一点 Example l1 1 2 3 4 5 Result l2 gt 1 2 1 3 1 4 1 5 2 3 2 4 2 5 3 4 3 5 4 5
有什么方法可以调试我的 .NET 代码通过 dllimport 调用非托管 dll 中的函数后发生的情况吗？

有什么方法可以调试我的 NET 代码通过 dllimport 调用非托管 dll 中的函数后发生的情况吗我通过 dllimport 在非托管内部公开了一个 dll 函数当我在单步执行代码时调用函数时会发生一些事情并且它永远不会返回我
ASP.NET Core 单例服务创建多次

我正在开发一个 ASP NET Core 2 1 项目我需要在 Startup ConfigureServices 中注册然后使用单例服务我有以下代码 public void ConfigureServices IServiceColl
Obj-C：__block 变量不保留数据

我想我可能在这里遇到了一个异步问题这让我觉得我已经解决了它不管怎样我正在进行一堆网络服务调用如下所示 get the client data block NSArray arrClientPAs dataManager getJSO
当绑定失败时，如何防止设置本地值（以便继承的值将传播）

考虑以下场景我想将 TextElement FontWeight 属性绑定到 xml 属性 xml 看起来有点像这样并且具有任意深度
有没有办法通过 API 将整个 Trello 看板导出为 JSON？

我正在尝试比较 Trello 看板以突出差异您可以通过将 URL 中的板名称替换为 json 轻松从 Trello 下载 JSON 格式的板 http trello com b board id here json http trello
如何在项目构建设置中指定 DEBUG 定义？

我正在尝试实施日志记录方法http www cimgf com 2010 05 02 my current prefix pch file http www cimgf com 2010 05 02 my current prefix pc
如何使用 Flutter SQFlite 获取数据库表中的行数

如何在 Flutter 中获取数据库表的行数我正在使用 SQFlite 插件我认为它与Android类似但Android有DatabaseUtils queryNumEntries db TABLE NAME SQFlite有类似的东
iOS 6 facebook sdk 3.1.1 登录错误

我尝试使用 facebook 登录遵循 facebook 教程https developers facebook com docs getting started facebook sdk for ios 3 1 https develo
布尔逻辑设计 - 归约

我有以下功能需要减少简化 F A B C D BC A C D 其中表示补集 Here s my solution BC A C D BC A C D BC A C D BC C A D C B 1 A D C 1 A D C A D
检测输入框中的粘贴

我有一个输入框我想使用 vbscript 或 javascript 没有 jquery 来捕获粘贴事件使用 onpaste 事件捕获该事件并在 Javascript 中执行您需要的操作例如禁用输入文本字段中的粘贴
当 Mac 设置（而非浏览器设置）拒绝位置共享时，HTML5 地理定位 API 会悄然失败

我遇到了一个问题如果我的 Mac 拒绝位置共享那么 JS 代码中什么也不会发生这很危险无论如何要解决这个问题吗如果系统拒绝位置共享我预计会抛出异常 Running macOS Mojave 10 14 6并测试于Chrome 8
检查类是否存在于文件中而不需要/包含

有没有一种方法可以检查文件中是否存在类而不包含需要该类就像是 class in file file 正如我已经提到的我知道这可以通过要求包括课程然后查找来完成class exists class 但还有其他方法吗 tokens to
Java查找数组索引中的最后一个成员

假设我有一个大小为 10 的数组索引范围为 0 到 9 我添加了一堆元素并在索引 6 处停止添加因此使用 array length 我可以知道数组的大小为 10 但是如何找到哪个索引包含最后一个值而该索引之后为空我应该做一个循环
Javascript 代码，未终止的字符串文字

错误控制台未终止的字符串文字 html li div class above question number Question Title div JQuery 代码是 html li li div class above questio
如何获取子进程的返回码

在windows中生成子进程获取返回值的方法是什么看起来像ShellExecute 使用起来比原来更简单CreateProcess 但从我迄今为止所做的阅读来看两者都没有表明如何检查生成进程的返回值这是怎么做到的谢谢安迪要获取
无法在 Mac 上启动 ElasticSearch

我安装了elasticsearch by brew install elasticsearch并开始它brew services start elasticsearch 然而 curl http 127 0 0 1 9200 shows c
如何比较 python 函数的性能？ [复制]

这个问题在这里已经有答案了我已经编写了两个函数来做完全相同的事情但我不知道哪个更快更好我如何比较这两个函数看看哪一个在性能和其他方面更好 The timeit http docs python org library timeit
如何保留 Spark HashingTF() 函数输入的键或索引？

基于 1 4 的 Spark 文档 https spark apache org docs 1 4 0 mllib feature extraction html https spark apache org docs 1 4 0 mlli

如何保留 Spark HashingTF() 函数输入的键或索引？

如何保留 Spark HashingTF() 函数输入的键或索引？ 的相关文章

随机推荐

热门标签

如何保留 Spark HashingTF() 函数输入的键或索引？的相关文章